# DeepMind의 Genie 2: 대규모 기초 세계 모델

> Clean Markdown view of GeekNews topic #18104. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=18104](https://news.hada.io/topic?id=18104)
- GeekNews Markdown: [https://news.hada.io/topic/18104.md](https://news.hada.io/topic/18104.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-12-05T09:41:37+09:00
- Updated: 2024-12-05T09:41:37+09:00
- Original source: [deepmind.google](https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/)
- Points: 5
- Comments: 1

## Topic Body

- Genie 2는 인간이나 AI 에이전트가 키보드와 마우스를 사용하여 조작할 수 있는 다양한 3D 환경을 생성하는 기초 세계 모델  
- 게임은 AI 연구에서 중요한 역할을 하며, Genie 2는 무한한 커리큘럼의 새로운 세계에서 에이전트를 훈련하고 평가할 수 있게 함  
- **기능**  
  - **빠른 프로토타이핑**: Genie 2는 다양한 상호작용 경험을 빠르게 프로토타이핑할 수 있게 하여 연구자들이 새로운 환경을 실험할 수 있게 함.  
  - **에이전트 배치**: Genie 2를 사용하여 AI 에이전트를 위한 풍부하고 다양한 환경을 빠르게 생성할 수 있음.  
  - **모델 아키텍처**: 대규모 비디오 데이터셋으로 훈련된 Genie 2는 다양한 객체 상호작용, 복잡한 캐릭터 애니메이션, 물리학 등을 모델링할 수 있음.  
  - **책임 있는 개발**: Genie 2는 다양한 3D 환경을 생성하고 에이전트 연구를 가속화하는 기초 세계 모델의 잠재력을 보여줌.  
- **Emergent capabilities**  
  - Genie 2는 다양한 3D 세계를 생성할 수 있으며, 객체 상호작용, 복잡한 캐릭터 애니메이션, 물리학 등을 모델링할 수 있음.  
  - 사용자는 텍스트로 세계를 설명하고, 그 아이디어의 렌더링을 선택하여 새로 생성된 세계와 상호작용할 수 있음.  
  - **행동 제어** : Genie 2는 키보드 입력에 따라 캐릭터를 올바르게 식별하고 이동시킴.  
  - **반사적 경험 생성** : 같은 시작 프레임에서 다양한 경로를 생성하여 에이전트 훈련을 위한 반사적 경험을 시뮬레이션할 수 있음.  
  - **긴 시간 기억** : Genie 2는 시야에서 벗어난 세계의 일부를 기억하고, 다시 관찰 가능해지면 정확하게 렌더링할 수 있음.  
  - **다양한 환경** : Genie 2는 1인칭, 등각 투영, 3인칭 운전 비디오 등 다양한 관점을 생성할 수 있음.  
  - **3D 구조** : 복잡한 3D 시각 장면을 생성할 수 있음.  
  - **객체 상호작용** : 풍선 터뜨리기, 문 열기, 폭발물 발사 등 다양한 객체 상호작용을 모델링할 수 있음.  
  - **캐릭터 애니메이션** : 다양한 활동을 하는 캐릭터를 애니메이션화할 수 있음.  
  - **NPC** : 다른 에이전트와의 복잡한 상호작용을 모델링할 수 있음.  
  - **물리학** : 물 효과, 연기 효과, 중력, 조명 등을 모델링할 수 있음.  
  - **실제 이미지로부터의 플레이** : 실제 이미지로부터의 프롬프트를 통해 풀을 흐르는 물이나 바람에 흔들리는 풀을 모델링할 수 있음.  
- **다양한 인터랙티브 경험의 빠른 프로토타이핑**  
  - Genie 2는 새로운 환경을 빠르게 실험하고 구현형 AI 에이전트를 훈련 및 테스트할 수 있도록 지원  
    - 예시: Imagen 3으로 생성된 이미지를 사용해 종이비행기, 드래곤, 매, 낙하산을 조종하는 다양한 환경 시뮬레이션  
  - Genie 2의 분포 외 일반화 능력으로 콘셉트 아트와 그림을 완전한 인터랙티브 환경으로 변환 가능  
    - 빠른 프로토타이핑을 통해 창의적인 프로세스를 부트스트래핑하고 환경 설계를 가속화    
- **Genie 2를 활용한 평가 환경 생성**  
  - Genie 2는 AI 에이전트를 위한 풍부하고 다양한 환경을 빠르게 생성 가능  
    - 훈련 중 접하지 않은 새로운 평가 과제를 생성하여 에이전트를 테스트  
  - DeepMind가 게임 개발자와 협력하여 개발한 SIMA 에이전트는 자연어 지시를 기반으로 3D 게임 세계에서 작업 수행  
    - Genie 2가 단일 이미지 프롬프트로 3D 환경 생성, SIMA 에이전트가 키보드와 마우스 입력을 통해 상호작용  
  - 초기 단계의 연구지만 Genie 2는 훈련 환경의 다양성과 일반성을 제공하며, 구현형 에이전트의 안전한 훈련 문제를 해결하는 데 기여할 것으로 기대  
  - AI 에이전트의 일반화된 훈련을 통해 AGI(인공지능 일반화)의 발전을 위한 기반 마련  
- **확산 세계 모델**  
  - Genie 2는 대규모 비디오 데이터셋을 기반으로 학습된 **잠재 확산 모델**  
  - 프레임은 [오토인코더](https://arxiv.org/abs/1312.6114)를 거쳐 잠재 공간으로 변환된 후, [변환기](https://openreview.net/forum?id=YicbFdNTTy) 기반의 동적 모델에 전달  
  - 학습 시 언어 모델에 사용되는 것과 유사한 **인과 마스크**를 적용  
  - **자동회귀 방식의 추론**  
    - 추론 시 Genie 2는 과거 잠재 프레임과 행동 데이터를 프레임 단위로 자동회귀 방식으로 샘플링  
    - **Classifier-Free Guidance** 기법을 사용하여 행동 제어성을 향상  
  - Genie 2는 고해상도 3D 환경을 효율적으로 생성하면서 행동 제어성을 유지  
  - 확산 모델과 자동회귀 접근 방식을 결합하여 몰입형 가상 환경을 위한 차세대 기술 제공  
- **책임 있는 기술 개발**  
  - Genie 2는 다양한 3D 환경을 생성하고 에이전트 연구를 가속화하는 기초 세계 모델의 잠재력을 보여줌.

## Comments


### Comment 32044

- Author: neo
- Created: 2024-12-05T09:41:37+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=42317903) 
- 이 모델의 크기가 궁금하며, 기술적 세부사항이 부족한 점이 아쉬움. Google의 접근 방식이 여전히 폐쇄적임을 지적함. 하지만 사진과 텍스트 설명을 기반으로 세계를 탐색하는 가능성은 놀라움.

- 비디오 및 세계 생성에 대한 압박이 계속되는 것이 흥미로움. 무한한 이야기 생성 게임에 대한 관심을 표현하며, 미래의 상호작용 스토리텔링의 황금기를 기대함.

- 이 기술이 게임 개발에 유용하지 않을 수 있음을 지적함. 게임은 상호작용이 중요하며, 디자이너가 깊이 제어해야 함. 세계 생성 부분이 가장 유용하다고 생각함.

- 이 기술이 AGI와 로봇공학에 큰 진전을 가져올 것임을 강조함. 인간의 뇌가 작동하는 방식과 유사한 기능을 기계에 추가하는 시작점으로 봄.

- 연구의 진정한 목표는 인간의 3D 세계 이해를 능가하는 모델 개발임을 설명함. 이는 로봇공학과 자율주행차의 발전에 기여할 것임.

- Genie2가 개념 예술의 세부사항을 무시하는 점이 실망스러움을 표현함. 원래의 아름다운 외계 생물들이 무시되는 것을 비판함.

- 생성 AI가 유연성을 제공하지만 많은 계산이 필요함을 설명함. 전통적인 프로그래밍과 생성 AI의 역할에 대한 궁금증을 표현함.

- 이 기술의 실제 가치를 의문시함. 높은 계산 비용과 불규칙한 행동이 문제임을 지적함.

- MS Edge에서 스크롤이 작동하지 않아 Firefox를 사용했으며, 비디오의 시각적 품질이 좋지 않음을 언급함. AI 연구자들이 기존의 잘 작동하는 시스템을 대체하려는 이유에 의문을 가짐.