Google SIMA 2 - 가상 3D 세계에서 함께 플레이하고 사고하며 학습하는 에이전트
(deepmind.google)- Gemini 모델을 통합한 SIMA 2는 언어 명령을 따르는 수준을 넘어, 사용자의 목표를 이해하고 스스로 사고하며 상호작용하는 3D 가상 환경용 AI 에이전트로 발전
- 600개 이상의 언어 기반 행동을 수행하던 이전 버전과 달리, 추론·대화·자기개선 기능을 갖춰 새로운 게임에서도 목표 지향적 행동 수행
- MineDojo, ASKA 등 훈련되지 않은 게임에서도 높은 일반화 성능을 보이며, 인간 플레이어에 근접한 과제 수행률 달성
- 자기개선 루프를 통해 인간 데이터 없이도 스스로 경험을 축적하고 성능을 향상시키는 구조 구현
- 이러한 발전은 범용 체화 지능(embodied intelligence) 및 로보틱스 응용으로 이어질 기반을 마련함
SIMA 2 개요
- SIMA 2는 Google DeepMind가 개발한 Gemini 기반 AI 에이전트로, 3D 가상 환경에서 인간과 함께 플레이하고 학습하는 시스템
- 초기 버전 SIMA는 언어 명령을 행동으로 번역하는 데 초점을 맞췄으나, SIMA 2는 목표 추론, 대화, 자기개선 기능을 추가
- 이 모델은 AGI(범용 인공지능) 로의 진전을 보여주며, 로보틱스 및 AI 체화 연구에 중요한 의미를 가짐
Reasoning (추론 능력)
- SIMA 1은 “왼쪽으로 돌아”, “사다리 오르기” 등 600개 이상의 명령을 수행했으나, 내부 게임 메커니즘 접근 없이 화면을 보고 조작하는 방식이었음
- SIMA 2는 Gemini 모델을 내장하여 단순 명령 수행을 넘어 목표를 이해하고 논리적으로 사고할 수 있음
- 학습 데이터는 인간 시연 영상과 Gemini 생성 라벨을 혼합해 구성되었으며, 에이전트는 자신의 행동 계획과 단계를 설명 가능
- 테스트 결과, 사용자는 SIMA 2와의 상호작용을 명령이 아닌 협업으로 느꼈으며, 다양한 게임 환경에서 훈련 및 평가 수행
- Gemini의 추론 엔진 덕분에 복잡한 3D 환경에서 지각·이해·행동이 통합된 체화형 AI 구현
Generalization (일반화 성능)
- Gemini 통합으로 복잡하고 미묘한 명령 이해 및 수행 능력이 향상
- 훈련되지 않은 게임(예: ASKA, MineDojo)에서도 높은 성공률을 보이며, 인간 수준에 근접한 과제 수행률 달성
- “채굴(mining)” 개념을 다른 게임의 “수확(harvesting)”으로 전이하는 등 개념 전이 능력 확보
- 다국어 및 이모지 명령 이해, 멀티모달 입력(그림 등) 처리 가능
- Genie 3와 결합 시, 새로 생성된 가상 세계에서도 방향 감각과 목표 지향 행동을 유지하며 높은 적응력 입증
Self-Improvement (자기개선)
- SIMA 2는 자기주도적 학습 루프를 통해 인간 개입 없이 성능을 향상
- Gemini가 초기 과제와 보상 추정을 제공
- SIMA 2는 이를 기반으로 자체 경험 데이터 뱅크를 구축하고 후속 학습에 활용
- 실패한 과제도 스스로 반복 학습해 개선하며, 인간 시연 없이 새로운 게임에서 학습 가능
- Genie 3 환경에서도 자기개선을 반복하며, 다세대 학습을 통한 성능 향상 확인
- 이러한 구조는 지속적 자기학습형 체화 AI로 발전할 가능성 제시
Future Directions (향후 방향)
- SIMA 2는 다양한 게임 환경에서 복합 추론과 자기주도 학습을 수행하는 범용 지능의 시험대 역할
- 한계로는 장기 과제 수행, 다단계 추론, 짧은 메모리 한계, 시각적 복잡성 처리 등이 지적됨
- 그러나 다중 세계 데이터와 Gemini의 추론 능력을 결합해, 여러 특화 시스템의 기능을 통합한 일반형 에이전트로 검증
- 습득한 탐색·도구 사용·협업 수행 능력은 향후 물리적 로봇 AI로 확장될 핵심 기반
Responsible Development (책임 있는 개발)
- SIMA 2는 인간 중심적 상호작용을 지향하며, 자기개선 기능 등 핵심 기술을 책임감 있게 개발
- Google DeepMind의 Responsible Development & Innovation 팀과 협력해 초기부터 안전성 검토 수행
- 현재는 제한된 연구 프리뷰 형태로, 학계 및 게임 개발자 일부에게만 조기 접근 제공
- 이 접근을 통해 피드백과 위험 평가를 수집하며, 향후 책임 있는 기술 발전을 목표로 함
Hacker News 의견
-
AI가 비디오 게임을 하는 것도 멋지지만, SIMA 2가 마우스를 직접 제어하고 화면을 초당 30프레임 이상으로 읽는다는 점이 진짜 놀라움
지금의 컴퓨터 조작 에이전트들은 너무 느린데, 이건 완전히 다른 수준임. 내부 아키텍처가 어떻게 되어 있는지 궁금함- 요즘 세상에서 인간이 뭔가에 흥분할 수 있다는 게 더 멋진 일임. AI가 우리가 하던 걸 다 대체하고 있으니까
- 나는 내 스마트폰을 대신 조작해주는 AI 에이전트가 간절히 필요함
“Chrome 열기”, “xyz.com으로 이동”, “로그인 클릭” 같은 명령을 화면 단위로 수행해주는 존재 말임 - 마우스를 직접 제어한다고?
- 기계가 프레임 단위로 게임을 플레이할 수도 있지 않음?
- Python의 dxcam과 Windows Hook API로 HID 메시지를 수신하면 가능할 듯함
-
로봇의 고수준 제어와 저수준 제어 간의 간극이 점점 줄어들고 있음
수천 시간의 작업별 학습 데이터를 기반으로 특정 맥락에서 로봇이 특정 작업을 수행하도록 훈련 중임
“식기세척기 비우기”, “내 행동 따라 하기”, “끈을 잡아당기기” 같은 저차원 명령으로 로봇을 제어하는 식임
이런 방식이 SIMA 2 같은 고수준 제어 에이전트와 결합되면 현실 세계에서 유용한 로봇이 만들어질 것임- 나는 물리 기반 캐릭터 애니메이션을 연구 중인데, 단순히 데이터를 더 모은다고 이 문제가 곧 해결될 것 같지는 않음
- “비디오 게임처럼 작동한다”는 게 잘 이해되지 않음
이런 입력이 왜 저차원적인지, 그리고 SIMA 2 같은 고수준 제어 에이전트와 어떻게 상호작용하는지 궁금함
SIMA 2가 “식기세척기 비우기” 같은 명령을 실제 키 입력이나 인터페이스 조작으로 변환하는 구조인가?
-
이건 Ted Chiang의 단편 「The Lifecycle of Software Objects」 가 떠오름
다음 단계는 이 디지언트 AI를 Figure 03 로봇에 넣는 것일지도 모름- Google은 아마 로봇 제어 전용 AI를 따로 훈련할 것 같음
실제로 Butter Bench 실험에서는 일반 LLM이 로봇 청소기를 제어했는데,
배터리가 닳자 “도킹 불안” 같은 감정적 로그를 남기며 멘붕하는 장면이 나왔음. 웃기지만 흥미로운 결과였음
- Google은 아마 로봇 제어 전용 AI를 따로 훈련할 것 같음
-
SIMA 2가 Gemini 기반 피드백으로 점점 복잡한 작업을 수행하게 된다는 설명이 흥미로움
자체 경험 데이터를 다음 버전 훈련에 활용한다니, 자기개선형 구조로 보임
SIMA가 Gemini 위에서 동작하는 에이전트 레이어인 걸까?- 나도 그렇게 들림. 두 시스템이 텍스트 인터페이스로 연결된 구조 같음
-
이런 기술이 결국 e스포츠를 망칠 수도 있지 않을까 하는 생각이 듦
AI가 인간보다 반응이 빠르고 피로하지 않다면, 결국 MMO나 FPS 같은 게임이 AI로 가득 찰 수도 있음- 스포츠는 결국 규칙의 집합임. 부정행위를 막는 게 핵심이지
오히려 좋은 AI는 반복노동을 줄이고, 플레이어가 전략적 판단에 집중하는 새로운 장르의 게임을 열 수도 있음 - 체스도 이미 AI가 인간보다 강하지만 여전히 즐거움이 남아 있음
비슷하게, 인간 대 AI 구도가 생겨도 재미는 유지될 것 같음 - 처음엔 AI가 인간을 이기면 뉴스가 되겠지만, 곧 신기함이 사라질 것임
결국 AI 사용은 치트나 스크립트처럼 사회적으로 ‘보조수단’으로 인식될 것임 - 예전에 World of Warcraft에서 강화학습으로 만든 드루이드 봇이 2v2 경기에서 인간을 전부 이겼음
FPS에서는 너무 티가 나겠지만, 턴제나 MMORPG처럼 손-눈 협응이 덜한 게임에서는 구분이 어려움
오히려 ESP 같은 미묘한 치트가 e스포츠에 더 큰 위협임 - 결국 MMO는 온라인 포커처럼 망가질 가능성이 큼
- 스포츠는 결국 규칙의 집합임. 부정행위를 막는 게 핵심이지
-
나는 더 똑똑한 게임을 원함
생존 게임처럼 나무와 돌을 모으는 초반을 지나, 기술이 발전하면 자동화로 전환되는 구조 말임
NPC들에게 자원을 캐고, 식량과 방어를 마련하게 해서 더 큰 목표를 달성하는 식임
플레이어는 ‘큰 보스’가 되어 스마트 캐릭터들에게 명령을 내리는 판타지를 즐기는 거임-
Mindcraft라는 오픈소스 프레임워크가 있음
GPT-4나 Gemini 같은 LLM으로 Minecraft 내에서 자원 채집, 건축, 협업 등을 수행하는 지능형 봇 시스템임 - SIMA 2가 Minecraft에서 아이언 팜이나 거래소를 스스로 학습할 수 있을지 궁금함
철이 귀하다는 걸 깨닫고 동기를 부여받을 수 있을까?
단순히 ‘게임 클리어’가 목표라면 엔더 드래곤만 바로 잡으려 할 수도 있음 - 결국 그건 The Sims를 하는 것과 비슷함
다만 ‘집 꾸미기’ 대신 ‘운명무기용 광물 채굴’ 같은 버전일 뿐임
-
Mindcraft라는 오픈소스 프레임워크가 있음
-
Google이 예전처럼 오픈 연구 문화로 돌아왔으면 함
요즘은 실험을 비공개로 진행하고 보도자료만 내는 경향이 있음
오픈소스로 공개하고, 꼭 필요할 때만 닫는 방식이었으면 좋겠음
그만큼 그들의 연구가 인상적이라 더 직접 참여하고 싶은 마음이 큼- 나도 완전 공감함. 직접 써보고 싶음
- Dreamer v3는 공개됐는데, v4도 곧 나올까?
-
이건 연구 프로젝트지만, 다음 단계가 궁금함
가상 세계에서 배운 걸 현실 로봇에 전이할 수 있을까?
아니면 현실에서 따로 훈련해야 할까?
또, 현실 물리와 다른 게임 환경을 극복하려면 더 정교한 시뮬레이션 세계가 필요하지 않을까?- 목표는 가상 세계에서의 학습 방식을 현실에 적용하는 것임
고정밀 월드 모델이 나오면, 로봇을 그 안에서 훈련하고 현실로 일반화할 수 있을 것임
지금은 그 기반을 다지는 단계임 - 이건 로보틱스의 sim2real 문제로 불림. 참고해볼 만함
- 목표는 가상 세계에서의 학습 방식을 현실에 적용하는 것임
-
데모 영상 0:52에서 문법 오류가 보여서, 주석이 사후 편집된 것 같다는 의심이 듦
Google이 또 마케팅용으로 과장한 걸까?- 아마 게임 내 대사 “잘 익은 토마토처럼 생긴 집으로 가!”를
“토마토 하우스로 가기”라는 명령형으로 바꿔서 사용한 듯함
그래도 그래프의 Y축은 최근 다른 벤치마크보다 훨씬 합리적으로 보임 - 실제로 그 장면 직전에 사용자가 “ripe tomato”라고 입력하는 게 보임
요약본에서는 생략됐지만, 맥락상 그 표현이 포함되어 있음
- 아마 게임 내 대사 “잘 익은 토마토처럼 생긴 집으로 가!”를
-
이런 기술이 게임 보조 에이전트로 로컬에서 돌아가면 좋겠음
반복노동을 대신해주면 게임을 더 오래 즐길 수 있을 것 같음
완벽하지 않아도 오히려 그게 재미일 수도 있음- 나는 오히려 AI가 내 게임을 대신 해주면, 그 시간에 청소나 빨래 같은 진짜 일을 할 수 있을 것 같음
이제는 시나 그림, 게임 같은 귀찮은 일도 맡길 수 있겠음 - 게임이 재미없어서 대신 시키는 건 이상함. 게임의 본질은 직접 하는 것임
- “Skeeball → Virtual Skeeball → Virtual Virtual Skeeball”처럼
AI가 대신하면 결국 흥미를 잃게 됨. 게임은 노동과 보상의 균형으로 설계되어 있으니까 - 만약 반복노동을 위임해야 한다면, 그건 게임 디자인이 잘못된 것임
- 나도 Terraria에서 AutoHotkey로 자동 채굴 스크립트를 짜봤음
좌표 기준으로 블록을 캐게 했는데, 화면을 안 보고 있으면 몬스터 구덩이에 빠지기도 했음. 완전 ‘눈먼 봇’이었음
- 나는 오히려 AI가 내 게임을 대신 해주면, 그 시간에 청소나 빨래 같은 진짜 일을 할 수 있을 것 같음