'배틀쉽' 게임을 활용해 AI 에이전트에게 더 나은 질문법 가르치기

(news.mit.edu)

고전 추리 게임 배틀쉽을 자연어 질문·응답 형태로 재구성해, 불확실한 환경에서 AI 에이전트가 좋은 질문을 던지는 능력을 측정하는 테스트베드 구축
한 명이 숨은 함선 위치를 묻는 선장(captain), 팀원이 실시간으로 답하는 관측자(spotter) 구조로 진행, 40명 이상이 플레이한 데이터로 BattleshipQA 데이터셋 제작
사전 학습 없이도 GPT-5 같은 대형 모델은 사람보다 적은 턴으로 승리했으나 소형 모델은 유용한 질문을 만드는 데 미숙해 Monte Carlo 추론 전략 적용
Llama 4 Scout는 개선 전 사람 상대 승률 8%에서 82% 로 상승, GPT-5를 능가하면서도 비용은 약 1% 수준
작은 모델이 큰 모델을 비용 효율적으로 능가함을 입증, 희소 해 탐색(needle-in-a-haystack) 이 필요한 과학적 발견 분야의 잠재력 시사

연구 배경: AI 에이전트의 정보 탐색 한계

2026년 AI 에이전트에 대한 기대가 어느 때보다 높으며, 고객 서비스·소프트웨어 개발 같은 잘 정의된 작업을 언어 모델(LM) 기반으로 수행
의료 진단·과학 발견처럼 불확실한 환경에서 광범위한 해를 탐색해야 하는 분야는 LM이 어려움을 겪음
MIT CSAIL과 Harvard SEAS 연구진이 고위험 상황에서 LM의 핵심 문제를 분석하고자, 인지과학에서 인간의 정보 탐색 연구에 쓰여온 배틀쉽을 테스트로 채택

많은 모델이 유용한 질문을 만들어내지 못하는 것이 핵심 문제
각 모델에 매 응답마다 선택지의 정답 가능성을 측정하는 Monte Carlo 추론 전략을 부여, 규모와 무관하게 일반 플레이어를 이기는 결과 도출
LM이 가능한 추측을 개별 입자(particle) 로 다루며, 관측자의 답변마다 더 타당해 보이는 추측에 가중치를 높게 부여하는 적응적 방식
- 매 턴 부풀거나 줄어드는 게임 공처럼 작동, 선장이 관측자로부터 훨씬 많은 정보를 끌어내도록 함
Llama 4 Scout는 소형 모델로서 사람 상대 승률 8%에 불과했으나, 추론 전략 개선 후 82% 달성하고 GPT-5를 능가하면서도 비용은 약 1% 수준

GPT-5는 신뢰할 만한 관측자였으나, 소형 시스템은 함선 위치를 틀리게 답하는 습관 존재
선장의 질문을 자동으로 인코딩된 명령으로 변환해 관측자 LM이 답을 검증하도록 유도, 평균 정확도 15% 향상
- 예: "1열에 두 행에 걸친 함선이 있는가?" → 해당 영역을 탐색하고 게임 말의 폭을 평가하는 명령으로 변환
모델이 특히 잘 이해하는 Python 언어로 명확한 지시를 주자 정답률이 크게 상승
- 경량 모델 GPT-4o-mini는 약 30% 성능 향상, 대형 모델 Claude 4 Opus도 약 8포인트 상승
LM이 코드를 생성해 해를 검증하는 auto-formalization 전략의 성공을 바탕으로, 탐색·정보 수집 능력 개선을 통해 더 나은 해 생성 가능성 제시

100개 선택지를 좁혀 숨은 캐릭터를 맞히는 Guess Who? 에 동일 기법 적용
Llama 4 Scout는 30%에서 72% 이상으로, GPT-4o는 62%에서 90% 로 상승, 각 게임에서 GPT-5가 관측자 역할 담당
모델은 사람보다 복잡한 질문에 답하는 데 여전히 어려움
- GPT-5는 평균적 배틀쉽 플레이어를 이기고 기법 적용 시 소폭 개선되나, 체스와 달리 전문가 플레이어는 모든 모델이 이기기 어려움

AI 에이전트가 방대한 선택지 속에서 희소 해를 찾는 needle-in-a-haystack 탐색에서 잠재력 보유
- 화합물의 분자 구조 식별 같은 과학적 과제에서 우수한 연구 보조로 활용 가능
Collaborative Battleship은 비교적 단순한 테스트베드로, 더 많은 선택지를 고려해야 하는 복잡한 환경에서의 추가 검증 필요
사람과 AI의 협업 효과 연구, 게임 시뮬레이션 기반 미세조정, 더 많은 연산 자원을 통한 고급 추론 능력 확보 계획
에이전트가 자율화될수록 공통 기반 추적·오해 해소·파트너 적응 같은 사회적 문제가 가장 어려우며, 최적 질문 계산뿐 아니라 답을 최대한 활용하는 실용적 추론이 진짜 병목이라는 평가