DeepMind의 Genie 2: 대규모 기초 세계 모델

(deepmind.google)

5P by GN⁺ 7달전 | ★ favorite | 댓글 1개

Genie 2는 인간이나 AI 에이전트가 키보드와 마우스를 사용하여 조작할 수 있는 다양한 3D 환경을 생성하는 기초 세계 모델
게임은 AI 연구에서 중요한 역할을 하며, Genie 2는 무한한 커리큘럼의 새로운 세계에서 에이전트를 훈련하고 평가할 수 있게 함
기능
- 빠른 프로토타이핑: Genie 2는 다양한 상호작용 경험을 빠르게 프로토타이핑할 수 있게 하여 연구자들이 새로운 환경을 실험할 수 있게 함.
- 에이전트 배치: Genie 2를 사용하여 AI 에이전트를 위한 풍부하고 다양한 환경을 빠르게 생성할 수 있음.
- 모델 아키텍처: 대규모 비디오 데이터셋으로 훈련된 Genie 2는 다양한 객체 상호작용, 복잡한 캐릭터 애니메이션, 물리학 등을 모델링할 수 있음.
- 책임 있는 개발: Genie 2는 다양한 3D 환경을 생성하고 에이전트 연구를 가속화하는 기초 세계 모델의 잠재력을 보여줌.
Emergent capabilities
- Genie 2는 다양한 3D 세계를 생성할 수 있으며, 객체 상호작용, 복잡한 캐릭터 애니메이션, 물리학 등을 모델링할 수 있음.
- 사용자는 텍스트로 세계를 설명하고, 그 아이디어의 렌더링을 선택하여 새로 생성된 세계와 상호작용할 수 있음.
- 행동 제어 : Genie 2는 키보드 입력에 따라 캐릭터를 올바르게 식별하고 이동시킴.
- 반사적 경험 생성 : 같은 시작 프레임에서 다양한 경로를 생성하여 에이전트 훈련을 위한 반사적 경험을 시뮬레이션할 수 있음.
- 긴 시간 기억 : Genie 2는 시야에서 벗어난 세계의 일부를 기억하고, 다시 관찰 가능해지면 정확하게 렌더링할 수 있음.
- 다양한 환경 : Genie 2는 1인칭, 등각 투영, 3인칭 운전 비디오 등 다양한 관점을 생성할 수 있음.
- 3D 구조 : 복잡한 3D 시각 장면을 생성할 수 있음.
- 객체 상호작용 : 풍선 터뜨리기, 문 열기, 폭발물 발사 등 다양한 객체 상호작용을 모델링할 수 있음.
- 캐릭터 애니메이션 : 다양한 활동을 하는 캐릭터를 애니메이션화할 수 있음.
- NPC : 다른 에이전트와의 복잡한 상호작용을 모델링할 수 있음.
- 물리학 : 물 효과, 연기 효과, 중력, 조명 등을 모델링할 수 있음.
- 실제 이미지로부터의 플레이 : 실제 이미지로부터의 프롬프트를 통해 풀을 흐르는 물이나 바람에 흔들리는 풀을 모델링할 수 있음.
다양한 인터랙티브 경험의 빠른 프로토타이핑
- Genie 2는 새로운 환경을 빠르게 실험하고 구현형 AI 에이전트를 훈련 및 테스트할 수 있도록 지원
  - 예시: Imagen 3으로 생성된 이미지를 사용해 종이비행기, 드래곤, 매, 낙하산을 조종하는 다양한 환경 시뮬레이션
- Genie 2의 분포 외 일반화 능력으로 콘셉트 아트와 그림을 완전한 인터랙티브 환경으로 변환 가능
  - 빠른 프로토타이핑을 통해 창의적인 프로세스를 부트스트래핑하고 환경 설계를 가속화
Genie 2를 활용한 평가 환경 생성
- Genie 2는 AI 에이전트를 위한 풍부하고 다양한 환경을 빠르게 생성 가능
  - 훈련 중 접하지 않은 새로운 평가 과제를 생성하여 에이전트를 테스트
- DeepMind가 게임 개발자와 협력하여 개발한 SIMA 에이전트는 자연어 지시를 기반으로 3D 게임 세계에서 작업 수행
  - Genie 2가 단일 이미지 프롬프트로 3D 환경 생성, SIMA 에이전트가 키보드와 마우스 입력을 통해 상호작용
- 초기 단계의 연구지만 Genie 2는 훈련 환경의 다양성과 일반성을 제공하며, 구현형 에이전트의 안전한 훈련 문제를 해결하는 데 기여할 것으로 기대
- AI 에이전트의 일반화된 훈련을 통해 AGI(인공지능 일반화)의 발전을 위한 기반 마련
확산 세계 모델
- Genie 2는 대규모 비디오 데이터셋을 기반으로 학습된 잠재 확산 모델
- 프레임은 오토인코더를 거쳐 잠재 공간으로 변환된 후, 변환기 기반의 동적 모델에 전달
- 학습 시 언어 모델에 사용되는 것과 유사한 인과 마스크를 적용
- 자동회귀 방식의 추론
  - 추론 시 Genie 2는 과거 잠재 프레임과 행동 데이터를 프레임 단위로 자동회귀 방식으로 샘플링
  - Classifier-Free Guidance 기법을 사용하여 행동 제어성을 향상
- Genie 2는 고해상도 3D 환경을 효율적으로 생성하면서 행동 제어성을 유지
- 확산 모델과 자동회귀 접근 방식을 결합하여 몰입형 가상 환경을 위한 차세대 기술 제공
책임 있는 기술 개발
- Genie 2는 다양한 3D 환경을 생성하고 에이전트 연구를 가속화하는 기초 세계 모델의 잠재력을 보여줌.

▲

GN⁺ 7달전 [-]

Hacker News 의견

이 모델의 크기가 궁금하며, 기술적 세부사항이 부족한 점이 아쉬움. Google의 접근 방식이 여전히 폐쇄적임을 지적함. 하지만 사진과 텍스트 설명을 기반으로 세계를 탐색하는 가능성은 놀라움.
비디오 및 세계 생성에 대한 압박이 계속되는 것이 흥미로움. 무한한 이야기 생성 게임에 대한 관심을 표현하며, 미래의 상호작용 스토리텔링의 황금기를 기대함.
이 기술이 게임 개발에 유용하지 않을 수 있음을 지적함. 게임은 상호작용이 중요하며, 디자이너가 깊이 제어해야 함. 세계 생성 부분이 가장 유용하다고 생각함.
이 기술이 AGI와 로봇공학에 큰 진전을 가져올 것임을 강조함. 인간의 뇌가 작동하는 방식과 유사한 기능을 기계에 추가하는 시작점으로 봄.
연구의 진정한 목표는 인간의 3D 세계 이해를 능가하는 모델 개발임을 설명함. 이는 로봇공학과 자율주행차의 발전에 기여할 것임.
Genie2가 개념 예술의 세부사항을 무시하는 점이 실망스러움을 표현함. 원래의 아름다운 외계 생물들이 무시되는 것을 비판함.
생성 AI가 유연성을 제공하지만 많은 계산이 필요함을 설명함. 전통적인 프로그래밍과 생성 AI의 역할에 대한 궁금증을 표현함.
이 기술의 실제 가치를 의문시함. 높은 계산 비용과 불규칙한 행동이 문제임을 지적함.
MS Edge에서 스크롤이 작동하지 않아 Firefox를 사용했으며, 비디오의 시각적 품질이 좋지 않음을 언급함. AI 연구자들이 기존의 잘 작동하는 시스템을 대체하려는 이유에 의문을 가짐.

답변달기