Show GN: civStation – Civilization VI를 전략 수준에서 제어하는 computer-use VLM 기반 에이전트(Human in the loop까지)
(github.com/NomaDamas)-
자연어 명령으로 Civilization VI를 플레이하는 computer-use VLM harness
“동쪽으로 확장”, “경제 집중”, “과학 승리” 등 high-level intent 입력 → 에이전트가 실제 조작 수행 -
전략과 실행을 분리한 3-layer 구조 (Strategy / Action / HITL)
- Strategy Layer: 자연어 → 구조화된 목표 변환, 장기 전략 유지 및 task decomposition
- Action Layer: 화면 기반(VLM) 상태 인식 + 마우스/키보드로 실행 (게임 API 없음)
- HITL Layer: 실행 중 개입/수정/중단 가능한 controllable autonomy 구조
-
하나의 전략 → 여러 action sequence로 분해되며 task당 2~16회 모델 호출 발생
-
서브에이전트 기반으로 도시 관리, 유닛 이동 등 bounded task 단위 실행
-
기존 RL/IL/스크립트 방식이 아닌 “intent → action 인터페이스 전환” 실험
-
직접 조작이 아닌 전략 위임 및 에이전트 오케스트레이션 방식
-
주요 기술적 이슈:
- VLM perception 오류,
- execution drift,
- 성공 여부 검증 어려움
- multi-step 실행에서 latency 및 API 비용 증가, fallback 전략 품질 저하
-
완전 자동화가 아닌 human-in-the-loop 기반의 실시간 전략 수정 및 통제 가능
-
UI-only 환경에서의 agent control / verification 문제를 다루는 실험적 시스템
-
게임 플레이 자체보다 “인간-시스템 인터페이스를 전략 레벨로 올리는 것”에 초점