civStation – Civilization VI를 전략 수준에서 제어하는 compute

ironman0722 · 2026-03-31T14:03:37+09:00

자연어 명령으로 Civilization VI를 플레이하는 computer-use VLM harness “동쪽으로 확장”, “경제 집중”, “과학 승리” 등 high-level intent 입력 → 에이전트가 실제 조작 수행 전략과 실행을 분리한 3-layer 구조 (Strategy / Action / HITL) Strategy Layer: 자연어 → 구조화된 목표 변환, 장기 전략 유지 및 task decomposition Action Layer: 화면 기반(VLM) 상태 인식 + 마우스/키보드로 실행 (게임 API 없음) HITL Layer: 실행 중 개입/수정/중단 가능한 controllable autonomy 구조 하나의 전략 → 여러 action sequence로 분해되며 task당 2~16회 모델 호출 발생 서브에이전트 기반으로 도시 관리, 유닛 이동 등 bounded task 단위 실행 기존 RL/IL/스크립트 방식이 아닌 “intent → action 인터페이스 전환” 실험 직접 조작이 아닌 전략 위임 및 에이전트 오케스트레이션 방식 주요 기술적 이슈: VLM perception 오류, execution drift, 성공 여부 검증 어려움 multi-step 실행에서 latency 및 API 비용 증가, fallback 전략 품질 저하 완전 자동화가 아닌 human-in-the-loop 기반의 실시간 전략 수정 및 통제 가능 UI-only 환경에서의 agent control / verification 문제를 다루는 실험적 시스템 게임 플레이 자체보다 “인간-시스템 인터페이스를 전략 레벨로 올리는 것”에 초점

자연어 명령으로 Civilization VI를 플레이하는 computer-use VLM harness
“동쪽으로 확장”, “경제 집중”, “과학 승리” 등 high-level intent 입력 → 에이전트가 실제 조작 수행
전략과 실행을 분리한 3-layer 구조 (Strategy / Action / HITL)
- Strategy Layer: 자연어 → 구조화된 목표 변환, 장기 전략 유지 및 task decomposition
- Action Layer: 화면 기반(VLM) 상태 인식 + 마우스/키보드로 실행 (게임 API 없음)
- HITL Layer: 실행 중 개입/수정/중단 가능한 controllable autonomy 구조
하나의 전략 → 여러 action sequence로 분해되며 task당 2~16회 모델 호출 발생
서브에이전트 기반으로 도시 관리, 유닛 이동 등 bounded task 단위 실행
기존 RL/IL/스크립트 방식이 아닌 “intent → action 인터페이스 전환” 실험
직접 조작이 아닌 전략 위임 및 에이전트 오케스트레이션 방식
주요 기술적 이슈:
- VLM perception 오류,
- execution drift,
- 성공 여부 검증 어려움
- multi-step 실행에서 latency 및 API 비용 증가, fallback 전략 품질 저하
완전 자동화가 아닌 human-in-the-loop 기반의 실시간 전략 수정 및 통제 가능
UI-only 환경에서의 agent control / verification 문제를 다루는 실험적 시스템
게임 플레이 자체보다 “인간-시스템 인터페이스를 전략 레벨로 올리는 것”에 초점

Show GN: civStation – Civilization VI를 전략 수준에서 제어하는 computer-use VLM 기반 에이전트(Human in the loop까지)

함께 보면 좋은 글 β

댓글과 토론