Google SIMA 2 - 가상 3D 세계에서 함께

▲

GN⁺ 5달전 | parent | ★ favorite | on: Google SIMA 2 - 가상 3D 세계에서 함께 플레이하고 사고하며 학습하는 에이전트(deepmind.google)

Hacker News 의견

AI가 비디오 게임을 하는 것도 멋지지만, SIMA 2가 마우스를 직접 제어하고 화면을 초당 30프레임 이상으로 읽는다는 점이 진짜 놀라움
지금의 컴퓨터 조작 에이전트들은 너무 느린데, 이건 완전히 다른 수준임. 내부 아키텍처가 어떻게 되어 있는지 궁금함
- 요즘 세상에서 인간이 뭔가에 흥분할 수 있다는 게 더 멋진 일임. AI가 우리가 하던 걸 다 대체하고 있으니까
- 나는 내 스마트폰을 대신 조작해주는 AI 에이전트가 간절히 필요함
  “Chrome 열기”, “xyz.com으로 이동”, “로그인 클릭” 같은 명령을 화면 단위로 수행해주는 존재 말임
- 마우스를 직접 제어한다고?
- 기계가 프레임 단위로 게임을 플레이할 수도 있지 않음?
- Python의 dxcam과 Windows Hook API로 HID 메시지를 수신하면 가능할 듯함
로봇의 고수준 제어와 저수준 제어 간의 간극이 점점 줄어들고 있음
수천 시간의 작업별 학습 데이터를 기반으로 특정 맥락에서 로봇이 특정 작업을 수행하도록 훈련 중임
“식기세척기 비우기”, “내 행동 따라 하기”, “끈을 잡아당기기” 같은 저차원 명령으로 로봇을 제어하는 식임
이런 방식이 SIMA 2 같은 고수준 제어 에이전트와 결합되면 현실 세계에서 유용한 로봇이 만들어질 것임
- 나는 물리 기반 캐릭터 애니메이션을 연구 중인데, 단순히 데이터를 더 모은다고 이 문제가 곧 해결될 것 같지는 않음
- “비디오 게임처럼 작동한다”는 게 잘 이해되지 않음
  이런 입력이 왜 저차원적인지, 그리고 SIMA 2 같은 고수준 제어 에이전트와 어떻게 상호작용하는지 궁금함
  SIMA 2가 “식기세척기 비우기” 같은 명령을 실제 키 입력이나 인터페이스 조작으로 변환하는 구조인가?
이건 Ted Chiang의 단편 「The Lifecycle of Software Objects」 가 떠오름
다음 단계는 이 디지언트 AI를 Figure 03 로봇에 넣는 것일지도 모름
- Google은 아마 로봇 제어 전용 AI를 따로 훈련할 것 같음
  실제로 Butter Bench 실험에서는 일반 LLM이 로봇 청소기를 제어했는데,
  배터리가 닳자 “도킹 불안” 같은 감정적 로그를 남기며 멘붕하는 장면이 나왔음. 웃기지만 흥미로운 결과였음
SIMA 2가 Gemini 기반 피드백으로 점점 복잡한 작업을 수행하게 된다는 설명이 흥미로움
자체 경험 데이터를 다음 버전 훈련에 활용한다니, 자기개선형 구조로 보임
SIMA가 Gemini 위에서 동작하는 에이전트 레이어인 걸까?
- 나도 그렇게 들림. 두 시스템이 텍스트 인터페이스로 연결된 구조 같음
이런 기술이 결국 e스포츠를 망칠 수도 있지 않을까 하는 생각이 듦
AI가 인간보다 반응이 빠르고 피로하지 않다면, 결국 MMO나 FPS 같은 게임이 AI로 가득 찰 수도 있음
- 스포츠는 결국 규칙의 집합임. 부정행위를 막는 게 핵심이지
  오히려 좋은 AI는 반복노동을 줄이고, 플레이어가 전략적 판단에 집중하는 새로운 장르의 게임을 열 수도 있음
- 체스도 이미 AI가 인간보다 강하지만 여전히 즐거움이 남아 있음
  비슷하게, 인간 대 AI 구도가 생겨도 재미는 유지될 것 같음
- 처음엔 AI가 인간을 이기면 뉴스가 되겠지만, 곧 신기함이 사라질 것임
  결국 AI 사용은 치트나 스크립트처럼 사회적으로 ‘보조수단’으로 인식될 것임
- 예전에 World of Warcraft에서 강화학습으로 만든 드루이드 봇이 2v2 경기에서 인간을 전부 이겼음
  FPS에서는 너무 티가 나겠지만, 턴제나 MMORPG처럼 손-눈 협응이 덜한 게임에서는 구분이 어려움
  오히려 ESP 같은 미묘한 치트가 e스포츠에 더 큰 위협임
- 결국 MMO는 온라인 포커처럼 망가질 가능성이 큼
나는 더 똑똑한 게임을 원함
생존 게임처럼 나무와 돌을 모으는 초반을 지나, 기술이 발전하면 자동화로 전환되는 구조 말임
NPC들에게 자원을 캐고, 식량과 방어를 마련하게 해서 더 큰 목표를 달성하는 식임
플레이어는 ‘큰 보스’가 되어 스마트 캐릭터들에게 명령을 내리는 판타지를 즐기는 거임
- Mindcraft라는 오픈소스 프레임워크가 있음
  GPT-4나 Gemini 같은 LLM으로 Minecraft 내에서 자원 채집, 건축, 협업 등을 수행하는 지능형 봇 시스템임
- SIMA 2가 Minecraft에서 아이언 팜이나 거래소를 스스로 학습할 수 있을지 궁금함
  철이 귀하다는 걸 깨닫고 동기를 부여받을 수 있을까?
  단순히 ‘게임 클리어’가 목표라면 엔더 드래곤만 바로 잡으려 할 수도 있음
- 결국 그건 The Sims를 하는 것과 비슷함
  다만 ‘집 꾸미기’ 대신 ‘운명무기용 광물 채굴’ 같은 버전일 뿐임
Google이 예전처럼 오픈 연구 문화로 돌아왔으면 함
요즘은 실험을 비공개로 진행하고 보도자료만 내는 경향이 있음
오픈소스로 공개하고, 꼭 필요할 때만 닫는 방식이었으면 좋겠음
그만큼 그들의 연구가 인상적이라 더 직접 참여하고 싶은 마음이 큼
- 나도 완전 공감함. 직접 써보고 싶음
- Dreamer v3는 공개됐는데, v4도 곧 나올까?
이건 연구 프로젝트지만, 다음 단계가 궁금함
가상 세계에서 배운 걸 현실 로봇에 전이할 수 있을까?
아니면 현실에서 따로 훈련해야 할까?
또, 현실 물리와 다른 게임 환경을 극복하려면 더 정교한 시뮬레이션 세계가 필요하지 않을까?
- 목표는 가상 세계에서의 학습 방식을 현실에 적용하는 것임
  고정밀 월드 모델이 나오면, 로봇을 그 안에서 훈련하고 현실로 일반화할 수 있을 것임
  지금은 그 기반을 다지는 단계임
- 이건 로보틱스의 sim2real 문제로 불림. 참고해볼 만함
데모 영상 0:52에서 문법 오류가 보여서, 주석이 사후 편집된 것 같다는 의심이 듦
Google이 또 마케팅용으로 과장한 걸까?
- 아마 게임 내 대사 “잘 익은 토마토처럼 생긴 집으로 가!”를
  “토마토 하우스로 가기”라는 명령형으로 바꿔서 사용한 듯함
  그래도 그래프의 Y축은 최근 다른 벤치마크보다 훨씬 합리적으로 보임
- 실제로 그 장면 직전에 사용자가 “ripe tomato”라고 입력하는 게 보임
  요약본에서는 생략됐지만, 맥락상 그 표현이 포함되어 있음
이런 기술이 게임 보조 에이전트로 로컬에서 돌아가면 좋겠음
반복노동을 대신해주면 게임을 더 오래 즐길 수 있을 것 같음
완벽하지 않아도 오히려 그게 재미일 수도 있음
- 나는 오히려 AI가 내 게임을 대신 해주면, 그 시간에 청소나 빨래 같은 진짜 일을 할 수 있을 것 같음
  이제는 시나 그림, 게임 같은 귀찮은 일도 맡길 수 있겠음
- 게임이 재미없어서 대신 시키는 건 이상함. 게임의 본질은 직접 하는 것임
- “Skeeball → Virtual Skeeball → Virtual Virtual Skeeball”처럼
  AI가 대신하면 결국 흥미를 잃게 됨. 게임은 노동과 보상의 균형으로 설계되어 있으니까
- 만약 반복노동을 위임해야 한다면, 그건 게임 디자인이 잘못된 것임
- 나도 Terraria에서 AutoHotkey로 자동 채굴 스크립트를 짜봤음
  좌표 기준으로 블록을 캐게 했는데, 화면을 안 보고 있으면 몬스터 구덩이에 빠지기도 했음. 완전 ‘눈먼 봇’이었음