GN⁺: DeepMind의 Genie 2: 대규모 기초 세계 모델
(deepmind.google)- Genie 2는 인간이나 AI 에이전트가 키보드와 마우스를 사용하여 조작할 수 있는 다양한 3D 환경을 생성하는 기초 세계 모델
- 게임은 AI 연구에서 중요한 역할을 하며, Genie 2는 무한한 커리큘럼의 새로운 세계에서 에이전트를 훈련하고 평가할 수 있게 함
-
기능
- 빠른 프로토타이핑: Genie 2는 다양한 상호작용 경험을 빠르게 프로토타이핑할 수 있게 하여 연구자들이 새로운 환경을 실험할 수 있게 함.
- 에이전트 배치: Genie 2를 사용하여 AI 에이전트를 위한 풍부하고 다양한 환경을 빠르게 생성할 수 있음.
- 모델 아키텍처: 대규모 비디오 데이터셋으로 훈련된 Genie 2는 다양한 객체 상호작용, 복잡한 캐릭터 애니메이션, 물리학 등을 모델링할 수 있음.
- 책임 있는 개발: Genie 2는 다양한 3D 환경을 생성하고 에이전트 연구를 가속화하는 기초 세계 모델의 잠재력을 보여줌.
-
Emergent capabilities
- Genie 2는 다양한 3D 세계를 생성할 수 있으며, 객체 상호작용, 복잡한 캐릭터 애니메이션, 물리학 등을 모델링할 수 있음.
- 사용자는 텍스트로 세계를 설명하고, 그 아이디어의 렌더링을 선택하여 새로 생성된 세계와 상호작용할 수 있음.
- 행동 제어 : Genie 2는 키보드 입력에 따라 캐릭터를 올바르게 식별하고 이동시킴.
- 반사적 경험 생성 : 같은 시작 프레임에서 다양한 경로를 생성하여 에이전트 훈련을 위한 반사적 경험을 시뮬레이션할 수 있음.
- 긴 시간 기억 : Genie 2는 시야에서 벗어난 세계의 일부를 기억하고, 다시 관찰 가능해지면 정확하게 렌더링할 수 있음.
- 다양한 환경 : Genie 2는 1인칭, 등각 투영, 3인칭 운전 비디오 등 다양한 관점을 생성할 수 있음.
- 3D 구조 : 복잡한 3D 시각 장면을 생성할 수 있음.
- 객체 상호작용 : 풍선 터뜨리기, 문 열기, 폭발물 발사 등 다양한 객체 상호작용을 모델링할 수 있음.
- 캐릭터 애니메이션 : 다양한 활동을 하는 캐릭터를 애니메이션화할 수 있음.
- NPC : 다른 에이전트와의 복잡한 상호작용을 모델링할 수 있음.
- 물리학 : 물 효과, 연기 효과, 중력, 조명 등을 모델링할 수 있음.
- 실제 이미지로부터의 플레이 : 실제 이미지로부터의 프롬프트를 통해 풀을 흐르는 물이나 바람에 흔들리는 풀을 모델링할 수 있음.
-
다양한 인터랙티브 경험의 빠른 프로토타이핑
- Genie 2는 새로운 환경을 빠르게 실험하고 구현형 AI 에이전트를 훈련 및 테스트할 수 있도록 지원
- 예시: Imagen 3으로 생성된 이미지를 사용해 종이비행기, 드래곤, 매, 낙하산을 조종하는 다양한 환경 시뮬레이션
- Genie 2의 분포 외 일반화 능력으로 콘셉트 아트와 그림을 완전한 인터랙티브 환경으로 변환 가능
- 빠른 프로토타이핑을 통해 창의적인 프로세스를 부트스트래핑하고 환경 설계를 가속화
- Genie 2는 새로운 환경을 빠르게 실험하고 구현형 AI 에이전트를 훈련 및 테스트할 수 있도록 지원
-
Genie 2를 활용한 평가 환경 생성
- Genie 2는 AI 에이전트를 위한 풍부하고 다양한 환경을 빠르게 생성 가능
- 훈련 중 접하지 않은 새로운 평가 과제를 생성하여 에이전트를 테스트
- DeepMind가 게임 개발자와 협력하여 개발한 SIMA 에이전트는 자연어 지시를 기반으로 3D 게임 세계에서 작업 수행
- Genie 2가 단일 이미지 프롬프트로 3D 환경 생성, SIMA 에이전트가 키보드와 마우스 입력을 통해 상호작용
- 초기 단계의 연구지만 Genie 2는 훈련 환경의 다양성과 일반성을 제공하며, 구현형 에이전트의 안전한 훈련 문제를 해결하는 데 기여할 것으로 기대
- AI 에이전트의 일반화된 훈련을 통해 AGI(인공지능 일반화)의 발전을 위한 기반 마련
- Genie 2는 AI 에이전트를 위한 풍부하고 다양한 환경을 빠르게 생성 가능
-
확산 세계 모델
- Genie 2는 대규모 비디오 데이터셋을 기반으로 학습된 잠재 확산 모델
- 프레임은 오토인코더를 거쳐 잠재 공간으로 변환된 후, 변환기 기반의 동적 모델에 전달
- 학습 시 언어 모델에 사용되는 것과 유사한 인과 마스크를 적용
-
자동회귀 방식의 추론
- 추론 시 Genie 2는 과거 잠재 프레임과 행동 데이터를 프레임 단위로 자동회귀 방식으로 샘플링
- Classifier-Free Guidance 기법을 사용하여 행동 제어성을 향상
- Genie 2는 고해상도 3D 환경을 효율적으로 생성하면서 행동 제어성을 유지
- 확산 모델과 자동회귀 접근 방식을 결합하여 몰입형 가상 환경을 위한 차세대 기술 제공
-
책임 있는 기술 개발
- Genie 2는 다양한 3D 환경을 생성하고 에이전트 연구를 가속화하는 기초 세계 모델의 잠재력을 보여줌.
Hacker News 의견
-
이 모델의 크기가 궁금하며, 기술적 세부사항이 부족한 점이 아쉬움. Google의 접근 방식이 여전히 폐쇄적임을 지적함. 하지만 사진과 텍스트 설명을 기반으로 세계를 탐색하는 가능성은 놀라움.
-
비디오 및 세계 생성에 대한 압박이 계속되는 것이 흥미로움. 무한한 이야기 생성 게임에 대한 관심을 표현하며, 미래의 상호작용 스토리텔링의 황금기를 기대함.
-
이 기술이 게임 개발에 유용하지 않을 수 있음을 지적함. 게임은 상호작용이 중요하며, 디자이너가 깊이 제어해야 함. 세계 생성 부분이 가장 유용하다고 생각함.
-
이 기술이 AGI와 로봇공학에 큰 진전을 가져올 것임을 강조함. 인간의 뇌가 작동하는 방식과 유사한 기능을 기계에 추가하는 시작점으로 봄.
-
연구의 진정한 목표는 인간의 3D 세계 이해를 능가하는 모델 개발임을 설명함. 이는 로봇공학과 자율주행차의 발전에 기여할 것임.
-
Genie2가 개념 예술의 세부사항을 무시하는 점이 실망스러움을 표현함. 원래의 아름다운 외계 생물들이 무시되는 것을 비판함.
-
생성 AI가 유연성을 제공하지만 많은 계산이 필요함을 설명함. 전통적인 프로그래밍과 생성 AI의 역할에 대한 궁금증을 표현함.
-
이 기술의 실제 가치를 의문시함. 높은 계산 비용과 불규칙한 행동이 문제임을 지적함.
-
MS Edge에서 스크롤이 작동하지 않아 Firefox를 사용했으며, 비디오의 시각적 품질이 좋지 않음을 언급함. AI 연구자들이 기존의 잘 작동하는 시스템을 대체하려는 이유에 의문을 가짐.