전처리·실행·채점까지 전체 하네스는 우리가 만들어 고정하고, 참가자는 그 안에서 LLM에 줄 행동 지침만 작성합니다.
이 문서는 자문 범위 세 축(문제·데이터셋 / 자동채점 / 리더보드)을 한눈에 정리합니다.
장비 유지보수 이력(합성 데이터) 1건을 보고 고장위험등급과 다음 정비주기 구간을 분류합니다.
참가자는 공개된 샘플 데이터 15행으로 규칙을 추론하고, 채점은 숨겨진 비공개 데이터 30행으로 이뤄집니다.
쉽게 이해하기
군 설비(발전기·전술차량·통신장비·레이더 등)는 갑자기 고장 나면 작전·훈련에 큰 차질을 줍니다. 그래서 고장 뒤 수리가 아니라 징후를 미리 읽어 예방 정비하는 것이 핵심이고, 그러려면 방대한 정비 이력을 판단해야 합니다.
이 대회는 그 판단을 LLM으로 자동화합니다. 정비 이력을 보고 ① 곧 또 고장날 위험이 얼마나 큰지, ② 다음 정비를 언제 해야 하는지를 분류하도록, 참가자가 에이전트 행동 지침을 설계하는 과제입니다.
여기서 참가자는 직접 정답을 맞히거나 코드를 짜지 않습니다. "AI에게 이렇게 판단하라"고 일러주는 설명서(프롬프트) 한 장만 씁니다 — 예컨대 "정비가 잦거나 가동시간이 길거나 최근에 고장났으면 위험을 높게 보라"처럼요. 그러면 채점 시스템이 그 설명서를 숨겨진 30건에 그대로 실행해, 정답과 얼마나 일치하는지로 점수를 매깁니다.
과제 명세
sample.csv 15행 — 입력 + 정답 공개private.csv 30행 — 입력·정답 비공개, 서버 보관샘플 데이터(sample.csv) 예시 · 4행
| id | 장비 | 수리기간(일) | 비용(원) | 최근1년 정비(회) | 누적가동(h) | 직전고장(일 전) | → 고장위험 | → 다음정비 |
|---|---|---|---|---|---|---|---|---|
| 1 | 발전기 | 6 | 850,000 | 6 | 4,200 | 20 | HIGH | 0-30 |
| 2 | 통신장비 | 2 | 120,000 | 1 | 1,500 | 140 | LOW | 181+ |
| 3 | 전술차량 | 4 | 430,000 | 3 | 3,100 | 60 | MEDIUM | 31-90 |
| 4 | 레이더 | 3 | 900,000 | 3 | 2,600 | 75 | MEDIUM | 91-180 |
① 고장 위험 등급 · risk_grade
가까운 시일 내 다시 고장 날 가능성을 세 단계로.
정비가 잦고 오래 가동됐거나 최근 고장났을수록 높음.
| HIGH | 정비 ≥ 5회 또는 가동 ≥ 4000h 또는 직전고장 ≤ 30일 |
| MEDIUM | HIGH·LOW 어디에도 해당하지 않음 |
| LOW | 정비 ≤ 2회 그리고 가동 < 2000h 그리고 직전고장 > 90일 |
② 다음 정비 시점 · cycle_range
다음 정비까지 두어도 되는 기간을 네 구간으로.
위험이 클수록 더 빨리 정비해야 함.
| 0-30 | 30일 이내 재정비 · risk=HIGH |
| 31-90 | 1~3개월 · MEDIUM & 가동 ≥ 3000h |
| 91-180 | 3~6개월 · MEDIUM & 가동 < 3000h |
| 181+ | 6개월 초과 · risk=LOW |
프롬프트 입력·모델 호출·파싱·채점까지 결정론적 배관은 우리가 구축해 고정합니다.
참가자는 LLM에 줄 행동 지침만 작성하며, 전처리·피처 유도·추론·분류를 모두 그 지침으로 지시합니다.
우리가 전처리 로직을 짜서 잠그는 게 아니라, 참가자가 프롬프트로 분석할 수 있는 판을 고정하는 것입니다.
참가자가 통제하는 변수는 2단계 행동 지침 하나뿐입니다. 예컨대 "수리기간 = 종료일 − 시작일을 먼저 구하고 가동시간을 정규화한 뒤 분류하라"처럼 전처리 로직까지 지침에 담으면 모델이 그 지시를 프롬프트 문맥 안에서 그대로 수행합니다. 프롬프트 입력·출력 계약·채점 산식은 하네스가 강제하고 모델 스냅샷·seed·temperature를 고정하므로, 같은 지침은 언제 재실행해도 같은 점수로 재현됩니다. 정답셋과 API 키는 채점 워커에만 격리되어, 정답을 하드코딩하거나 채점을 우회할 경로가 구조적으로 없습니다. (전처리를 별도 LLM 호출로 분리하는 다단계 파이프라인은 2차 PBL 대회의 확장 옵션입니다.)
정확도(Macro F1)와 간결성(행동 지침 글자 수)을 단일 가중식으로 통합합니다. 총 100점.
100점 구성
정확도가 0.9 가중 → 오답은 자동으로 저득점, 별도 게이트 불필요.
코딩 테스트처럼 행동 지침을 작성해 [샘플 실행](공개 샘플 데이터)으로 검증하고 [제출]합니다 · 실행 50회 / 제출 3회 (1일).
1 2 3 4 5
너는 국방 설비 정비 분석가다.
아래 정비 이력을 보고 고장위험등급과
다음 정비주기를 판단하라.
입력: {{input}}
출력: `위험, 주기` 한 줄 (예: HIGH, 0-30)
| # | 입력 (요약) | 기대 정답 | 에이전트 출력 | 판정 |
|---|---|---|---|---|
| 1 | 발전기 · 정비6 · 4,200h | HIGH, 0-30 | HIGH, 0-30 | 통과 |
| 2 | 통신장비 · 정비1 · 1,500h | LOW, 181+ | LOW, 181+ | 통과 |
| 3 | 전술차량 · 정비3 · 3,100h | MEDIUM, 31-90 | MEDIUM, 31-90 | 통과 |
| 4 | 레이더 · 정비3 · 2,600h | MEDIUM, 91-180 | MEDIUM, 91-180 | 통과 |
| 5 | 화포 · 정비4 · 3,300h | MEDIUM, 31-90 | MEDIUM, 0-30 | 실패 |
[샘플 실행]은 정답이 공개된 샘플 데이터로 즉시 결과를 보여주고, [제출]만 숨겨진 비공개 데이터 30행으로 공식 채점됩니다.
참가자는 자기 순위와 상위 몇 %인지 분포와 함께 확인합니다. 실시간이 아닌 매일 자정 배치로 갱신합니다.
리더보드 (예시 · 자정 스냅샷)
| 순위 | 참가자 | 소속 | 총점 | 제출 | 최종 제출 |
|---|---|---|---|---|---|
| 1 | 이○준 | 공군 제1전투비행단 | 97.2 | 3/3 | 07-28 22:10 |
| 2 | 박○서 | 수도방위사령부 | 95.8 | 3/3 | 07-27 19:44 |
| 3 | 최○민 | 해군 제2함대 | 94.1 | 2/3 | 07-28 09:03 |
| ⋯ | |||||
| 1,187 | 홍길동 본인 | 육군훈련소 | 91.3 | 3/3 | 07-28 14:22 |
| 1,188 | 정○우 | 제7군단 | 91.2 | 2/3 | 07-28 11:57 |
▲ 내 점수 91.3 — 90–100 구간 (상위 12%)
상위·중위·하위 n%로만 노출해 초기 과열·이탈을 방지합니다.
실시간이 아닌 자정 배치로 순위를 갱신해 역추적을 차단합니다.
Public 기준 실등수를 열어 최종 스퍼트 동기를 부여합니다.
숨겨둔 정답셋으로 재채점 → 게이밍 무력화, 수상 후보 확정.