'배틀쉽' 게임을 활용해 AI 에이전트에게 더 나은 질문법 가르치기
(news.mit.edu)- 고전 추리 게임 배틀쉽을 자연어 질문·응답 형태로 재구성해, 불확실한 환경에서 AI 에이전트가 좋은 질문을 던지는 능력을 측정하는 테스트베드 구축
- 한 명이 숨은 함선 위치를 묻는 선장(captain), 팀원이 실시간으로 답하는 관측자(spotter) 구조로 진행, 40명 이상이 플레이한 데이터로 BattleshipQA 데이터셋 제작
- 사전 학습 없이도 GPT-5 같은 대형 모델은 사람보다 적은 턴으로 승리했으나 소형 모델은 유용한 질문을 만드는 데 미숙해 Monte Carlo 추론 전략 적용
- Llama 4 Scout는 개선 전 사람 상대 승률 8%에서 82% 로 상승, GPT-5를 능가하면서도 비용은 약 1% 수준
- 작은 모델이 큰 모델을 비용 효율적으로 능가함을 입증, 희소 해 탐색(needle-in-a-haystack) 이 필요한 과학적 발견 분야의 잠재력 시사
연구 배경: AI 에이전트의 정보 탐색 한계
- 2026년 AI 에이전트에 대한 기대가 어느 때보다 높으며, 고객 서비스·소프트웨어 개발 같은 잘 정의된 작업을 언어 모델(LM) 기반으로 수행
- 의료 진단·과학 발견처럼 불확실한 환경에서 광범위한 해를 탐색해야 하는 분야는 LM이 어려움을 겪음
- MIT CSAIL과 Harvard SEAS 연구진이 고위험 상황에서 LM의 핵심 문제를 분석하고자, 인지과학에서 인간의 정보 탐색 연구에 쓰여온 배틀쉽을 테스트로 채택
Collaborative Battleship 게임과 BattleshipQA 데이터셋
- 게임을 자연어 질문·응답 중심으로 재구성, 한 참가자는 숨은 함선 위치를 묻는 선장, 팀원은 실시간으로 답하는 관측자 역할
- 40명 이상의 사람이 함께 플레이하며 질문과 예/아니오 답변을 수집해 BattleshipQA 데이터셋 구축
- 이 데이터는 GPT-5 같은 최신 LM과 Llama 4 Scout 같은 소형 모델 테스트 시 비교 기준으로 활용
- 사전 학습 없이도 최상위 LM은 사람보다 적은 턴으로 게임을 끝내 "이길" 수 있었으나, 소형 시스템은 훨씬 비합리적
더 나은 질문하기 — Monte Carlo 추론 전략
- 많은 모델이 유용한 질문을 만들어내지 못하는 것이 핵심 문제
- 각 모델에 매 응답마다 선택지의 정답 가능성을 측정하는 Monte Carlo 추론 전략을 부여, 규모와 무관하게 일반 플레이어를 이기는 결과 도출
- LM이 가능한 추측을 개별 입자(particle) 로 다루며, 관측자의 답변마다 더 타당해 보이는 추측에 가중치를 높게 부여하는 적응적 방식
- 매 턴 부풀거나 줄어드는 게임 공처럼 작동, 선장이 관측자로부터 훨씬 많은 정보를 끌어내도록 함
- Llama 4 Scout는 소형 모델로서 사람 상대 승률 8%에 불과했으나, 추론 전략 개선 후 82% 달성하고 GPT-5를 능가하면서도 비용은 약 1% 수준
더 정확히 답하기 — Python 코드 변환
- GPT-5는 신뢰할 만한 관측자였으나, 소형 시스템은 함선 위치를 틀리게 답하는 습관 존재
- 선장의 질문을 자동으로 인코딩된 명령으로 변환해 관측자 LM이 답을 검증하도록 유도, 평균 정확도 15% 향상
- 예: "1열에 두 행에 걸친 함선이 있는가?" → 해당 영역을 탐색하고 게임 말의 폭을 평가하는 명령으로 변환
- 모델이 특히 잘 이해하는 Python 언어로 명확한 지시를 주자 정답률이 크게 상승
- 경량 모델 GPT-4o-mini는 약 30% 성능 향상, 대형 모델 Claude 4 Opus도 약 8포인트 상승
- LM이 코드를 생성해 해를 검증하는 auto-formalization 전략의 성공을 바탕으로, 탐색·정보 수집 능력 개선을 통해 더 나은 해 생성 가능성 제시
다른 게임으로의 확장 — Guess Who?
- 100개 선택지를 좁혀 숨은 캐릭터를 맞히는 Guess Who? 에 동일 기법 적용
- Llama 4 Scout는 30%에서 72% 이상으로, GPT-4o는 62%에서 90% 로 상승, 각 게임에서 GPT-5가 관측자 역할 담당
- 모델은 사람보다 복잡한 질문에 답하는 데 여전히 어려움
- GPT-5는 평균적 배틀쉽 플레이어를 이기고 기법 적용 시 소폭 개선되나, 체스와 달리 전문가 플레이어는 모든 모델이 이기기 어려움
남은 과제와 향후 방향
- AI 에이전트가 방대한 선택지 속에서 희소 해를 찾는 needle-in-a-haystack 탐색에서 잠재력 보유
- 화합물의 분자 구조 식별 같은 과학적 과제에서 우수한 연구 보조로 활용 가능
- Collaborative Battleship은 비교적 단순한 테스트베드로, 더 많은 선택지를 고려해야 하는 복잡한 환경에서의 추가 검증 필요
- 사람과 AI의 협업 효과 연구, 게임 시뮬레이션 기반 미세조정, 더 많은 연산 자원을 통한 고급 추론 능력 확보 계획
- 에이전트가 자율화될수록 공통 기반 추적·오해 해소·파트너 적응 같은 사회적 문제가 가장 어려우며, 최적 질문 계산뿐 아니라 답을 최대한 활용하는 실용적 추론이 진짜 병목이라는 평가