# '배틀쉽' 게임을 활용해 AI 에이전트에게 더 나은 질문법 가르치기

> Clean Markdown view of GeekNews topic #30163. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=30163](https://news.hada.io/topic?id=30163)
- GeekNews Markdown: [https://news.hada.io/topic/30163.md](https://news.hada.io/topic/30163.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-06-04T10:15:02+09:00
- Updated: 2026-06-04T10:15:02+09:00
- Original source: [news.mit.edu](https://news.mit.edu/2026/teaching-ai-agents-ask-better-questions-playing-battleship-0603)
- Points: 1
- Comments: 0

## Topic Body

- 고전 추리 게임 **배틀쉽**을 자연어 질문·응답 형태로 재구성해, 불확실한 환경에서 AI 에이전트가 **좋은 질문**을 던지는 능력을 측정하는 테스트베드 구축  
- 한 명이 숨은 함선 위치를 묻는 **선장(captain)**, 팀원이 실시간으로 답하는 **관측자(spotter)** 구조로 진행, 40명 이상이 플레이한 데이터로 **BattleshipQA** 데이터셋 제작  
- 사전 학습 없이도 GPT-5 같은 대형 모델은 사람보다 적은 턴으로 승리했으나 소형 모델은 유용한 질문을 만드는 데 미숙해 **Monte Carlo 추론 전략** 적용  
- Llama 4 Scout는 개선 전 사람 상대 승률 8%에서 **82%** 로 상승, GPT-5를 능가하면서도 비용은 약 **1% 수준**  
- 작은 모델이 큰 모델을 비용 효율적으로 능가함을 입증, **희소 해 탐색(needle-in-a-haystack)** 이 필요한 과학적 발견 분야의 잠재력 시사  
  
---  
  
### 연구 배경: AI 에이전트의 정보 탐색 한계  
- 2026년 AI 에이전트에 대한 기대가 어느 때보다 높으며, 고객 서비스·소프트웨어 개발 같은 잘 정의된 작업을 **언어 모델(LM)** 기반으로 수행  
- 의료 진단·과학 발견처럼 불확실한 환경에서 광범위한 해를 탐색해야 하는 분야는 LM이 어려움을 겪음  
- MIT CSAIL과 Harvard SEAS 연구진이 고위험 상황에서 LM의 핵심 문제를 분석하고자, 인지과학에서 **인간의 정보 탐색** 연구에 쓰여온 **배틀쉽**을 테스트로 채택  
  
### Collaborative Battleship 게임과 BattleshipQA 데이터셋  
- 게임을 자연어 질문·응답 중심으로 재구성, 한 참가자는 숨은 함선 위치를 묻는 **선장**, 팀원은 실시간으로 답하는 **관측자** 역할  
- 40명 이상의 사람이 함께 플레이하며 질문과 예/아니오 답변을 수집해 **BattleshipQA** 데이터셋 구축  
- 이 데이터는 GPT-5 같은 최신 LM과 Llama 4 Scout 같은 소형 모델 테스트 시 비교 기준으로 활용  
- 사전 학습 없이도 최상위 LM은 사람보다 적은 턴으로 게임을 끝내 "이길" 수 있었으나, 소형 시스템은 훨씬 비합리적  
  
### 더 나은 질문하기 — Monte Carlo 추론 전략  
- 많은 모델이 **유용한 질문**을 만들어내지 못하는 것이 핵심 문제  
- 각 모델에 매 응답마다 선택지의 정답 가능성을 측정하는 **Monte Carlo 추론 전략**을 부여, 규모와 무관하게 일반 플레이어를 이기는 결과 도출  
- LM이 가능한 추측을 개별 **입자(particle)** 로 다루며, 관측자의 답변마다 더 타당해 보이는 추측에 가중치를 높게 부여하는 적응적 방식  
  - 매 턴 부풀거나 줄어드는 게임 공처럼 작동, 선장이 관측자로부터 훨씬 많은 정보를 끌어내도록 함  
- Llama 4 Scout는 소형 모델로서 사람 상대 승률 8%에 불과했으나, 추론 전략 개선 후 **82%** 달성하고 GPT-5를 능가하면서도 비용은 약 1% 수준  
  
### 더 정확히 답하기 — Python 코드 변환  
- GPT-5는 신뢰할 만한 관측자였으나, 소형 시스템은 함선 위치를 틀리게 답하는 습관 존재  
- 선장의 질문을 자동으로 **인코딩된 명령**으로 변환해 관측자 LM이 답을 검증하도록 유도, 평균 정확도 **15%** 향상  
  - 예: "1열에 두 행에 걸친 함선이 있는가?" → 해당 영역을 탐색하고 게임 말의 폭을 평가하는 명령으로 변환  
- 모델이 특히 잘 이해하는 **Python** 언어로 명확한 지시를 주자 정답률이 크게 상승  
  - 경량 모델 GPT-4o-mini는 약 **30%** 성능 향상, 대형 모델 Claude 4 Opus도 약 8포인트 상승  
- LM이 코드를 생성해 해를 검증하는 **auto-formalization** 전략의 성공을 바탕으로, 탐색·정보 수집 능력 개선을 통해 더 나은 해 생성 가능성 제시  
  
### 다른 게임으로의 확장 — Guess Who?  
- 100개 선택지를 좁혀 숨은 캐릭터를 맞히는 **Guess Who?** 에 동일 기법 적용  
- Llama 4 Scout는 30%에서 **72% 이상**으로, GPT-4o는 62%에서 **90%** 로 상승, 각 게임에서 GPT-5가 관측자 역할 담당  
- 모델은 사람보다 **복잡한 질문**에 답하는 데 여전히 어려움  
  - GPT-5는 평균적 배틀쉽 플레이어를 이기고 기법 적용 시 소폭 개선되나, 체스와 달리 전문가 플레이어는 모든 모델이 이기기 어려움  
  
### 남은 과제와 향후 방향  
- AI 에이전트가 방대한 선택지 속에서 희소 해를 찾는 **needle-in-a-haystack** 탐색에서 잠재력 보유  
  - 화합물의 분자 구조 식별 같은 과학적 과제에서 우수한 연구 보조로 활용 가능  
- Collaborative Battleship은 비교적 단순한 테스트베드로, 더 많은 선택지를 고려해야 하는 **복잡한 환경**에서의 추가 검증 필요  
- 사람과 AI의 협업 효과 연구, 게임 시뮬레이션 기반 **미세조정**, 더 많은 연산 자원을 통한 고급 추론 능력 확보 계획  
- 에이전트가 자율화될수록 공통 기반 추적·오해 해소·파트너 적응 같은 **사회적 문제**가 가장 어려우며, 최적 질문 계산뿐 아니라 답을 최대한 활용하는 **실용적 추론**이 진짜 병목이라는 평가

## Comments


_No public comments on this page._