# Show GN: civStation – Civilization VI를 전략 수준에서 제어하는 computer-use VLM 기반 에이전트(Human in the loop까지)

> Clean Markdown view of GeekNews topic #28042. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=28042](https://news.hada.io/topic?id=28042)
- GeekNews Markdown: [https://news.hada.io/topic/28042.md](https://news.hada.io/topic/28042.md)
- Type: show
- Author: [ironman0722](https://news.hada.io/@ironman0722)
- Published: 2026-03-31T14:03:37+09:00
- Updated: 2026-03-31T14:03:37+09:00
- Original source: [github.com/NomaDamas](https://github.com/NomaDamas/civStation.git)
- Points: 7
- Comments: 1

## Summary

**UI만으로 제어하는 VLM 에이전트**라는 점이 핵심입니다. 게임이지만 실제로는 **API 접근이 불가능한 복잡한 소프트웨어를 자동화**하는 실험으로 볼 수 있습니다. 개발자 입장에서는 GUI 기반 업무 자동화나 **시각적 RPA의 차세대 형태**를 미리 엿보는 사례입니다. 전략·행동·개입을 분리한 구조는 마치 **prompt, function call, human override**를 계층화한 설계와 유사합니다.

## Topic Body

- 자연어 명령으로 Civilization VI를 플레이하는 computer-use VLM harness  
“동쪽으로 확장”, “경제 집중”, “과학 승리” 등 high-level intent 입력 → 에이전트가 실제 조작 수행  
  
- 전략과 실행을 분리한 3-layer 구조 (Strategy / Action / HITL)  
   - Strategy Layer: 자연어 → 구조화된 목표 변환, 장기 전략 유지 및 task decomposition  
   - Action Layer: 화면 기반(VLM) 상태 인식 + 마우스/키보드로 실행 (게임 API 없음)  
   - HITL Layer: 실행 중 개입/수정/중단 가능한 controllable autonomy 구조  
  
- 하나의 전략 → 여러 action sequence로 분해되며 task당 2~16회 모델 호출 발생  
- 서브에이전트 기반으로 도시 관리, 유닛 이동 등 bounded task 단위 실행  
  
- 기존 RL/IL/스크립트 방식이 아닌 “intent → action 인터페이스 전환” 실험  
- 직접 조작이 아닌 전략 위임 및 에이전트 오케스트레이션 방식  
  
- 주요 기술적 이슈:   
   - VLM perception 오류,   
   - execution drift,   
   - 성공 여부 검증 어려움  
   - multi-step 실행에서 latency 및 API 비용 증가, fallback 전략 품질 저하  
  
- 완전 자동화가 아닌 human-in-the-loop 기반의 실시간 전략 수정 및 통제 가능  
- UI-only 환경에서의 agent control / verification 문제를 다루는 실험적 시스템  
- 게임 플레이 자체보다 “인간-시스템 인터페이스를 전략 레벨로 올리는 것”에 초점

## Comments


### Comment 54240

- Author: bus710
- Created: 2026-04-01T01:55:08+09:00
- Points: 1

열심히 점령/문화/과학/외교 승리로 달리고 있으면 꼭 어디서 종교 승리로 뒤통수 맞던