6P by ironman0722 15시간전 | ★ favorite | 댓글 1개
  • 자연어 명령으로 Civilization VI를 플레이하는 computer-use VLM harness
    “동쪽으로 확장”, “경제 집중”, “과학 승리” 등 high-level intent 입력 → 에이전트가 실제 조작 수행

  • 전략과 실행을 분리한 3-layer 구조 (Strategy / Action / HITL)

    • Strategy Layer: 자연어 → 구조화된 목표 변환, 장기 전략 유지 및 task decomposition
    • Action Layer: 화면 기반(VLM) 상태 인식 + 마우스/키보드로 실행 (게임 API 없음)
    • HITL Layer: 실행 중 개입/수정/중단 가능한 controllable autonomy 구조
  • 하나의 전략 → 여러 action sequence로 분해되며 task당 2~16회 모델 호출 발생

  • 서브에이전트 기반으로 도시 관리, 유닛 이동 등 bounded task 단위 실행

  • 기존 RL/IL/스크립트 방식이 아닌 “intent → action 인터페이스 전환” 실험

  • 직접 조작이 아닌 전략 위임 및 에이전트 오케스트레이션 방식

  • 주요 기술적 이슈:

    • VLM perception 오류,
    • execution drift,
    • 성공 여부 검증 어려움
    • multi-step 실행에서 latency 및 API 비용 증가, fallback 전략 품질 저하
  • 완전 자동화가 아닌 human-in-the-loop 기반의 실시간 전략 수정 및 통제 가능

  • UI-only 환경에서의 agent control / verification 문제를 다루는 실험적 시스템

  • 게임 플레이 자체보다 “인간-시스템 인터페이스를 전략 레벨로 올리는 것”에 초점

열심히 점령/문화/과학/외교 승리로 달리고 있으면 꼭 어디서 종교 승리로 뒤통수 맞던