# 세계 모델링을 위한 Diffusion 기술

> Clean Markdown view of GeekNews topic #17221. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=17221](https://news.hada.io/topic?id=17221)
- GeekNews Markdown: [https://news.hada.io/topic/17221.md](https://news.hada.io/topic/17221.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-10-14T09:48:39+09:00
- Updated: 2024-10-14T09:48:39+09:00
- Original source: [diamond-wm.github.io](https://diamond-wm.github.io/)
- Points: 1
- Comments: 1

## Topic Body

### DIAMOND 💎의 개요

- DIAMOND는 강화 학습 에이전트로, 확산 세계 모델에서 훈련됨.
- 이 모델은 Atari와 같은 게임 환경에서 시각적 세부 사항을 중요하게 다룸.
- DIAMOND는 3D 환경, 예를 들어 CounterStrike: Global Offensive (CSGO)도 시뮬레이션할 수 있음.

### 연구 배경 및 동기

- 세계 모델은 강화 학습 에이전트를 안전하고 효율적으로 훈련하는 유망한 접근법임.
- 기존의 세계 모델은 주로 이산 잠재 변수의 시퀀스를 사용하여 환경 동역학을 모델링함.
- 그러나 이러한 압축은 강화 학습에 중요한 시각적 세부 사항을 무시할 수 있음.
- 확산 모델은 이미지 생성에서 주도적인 접근법으로 자리 잡고 있음.
- DIAMOND는 이러한 패러다임 전환에 영감을 받아 개발됨.

### DIAMOND의 성능 및 결과

- DIAMOND는 Atari 100k 벤치마크에서 평균 인간 정규화 점수 1.46을 달성함.
- 이는 세계 모델 내에서 훈련된 에이전트 중 최고 성능임.
- DIAMOND의 코드는 GitHub에서 공개되어 있음.

### DIAMOND의 작동 원리

- 확산 모델은 게임의 다음 프레임을 예측하도록 훈련됨.
- 에이전트의 행동과 이전 프레임을 고려하여 환경 반응을 시뮬레이션함.
- 자동 회귀 생성은 에이전트가 게임을 배우는 데 도움을 줌.
- 빠른 세계 모델을 위해 디노이징 단계 수를 줄여야 함.
- DDPM 기반 모델은 낮은 디노이징 단계에서 불안정하지만, EDM 기반 모델은 안정적임.

### 시각적 세부 사항의 중요성

- DIAMOND는 중요한 시각적 세부 사항을 더 잘 모델링함.
- 이산 토큰 기반 IRIS보다 더 나은 시각적 세부 사항을 포착함.
- Atari 100k에서 인간보다 46% 더 나은 성능을 보임.

### GN⁺의 정리

- DIAMOND는 강화 학습에서 시각적 세부 사항의 중요성을 강조함.
- 확산 모델을 사용하여 더 나은 시각적 세부 사항을 포착할 수 있음.
- Atari와 CSGO와 같은 게임에서의 성능 향상을 보여줌.
- 관련 분야의 연구자들에게 흥미롭고 유용한 자료가 될 수 있음.
- 유사한 기능을 가진 프로젝트로는 DreamerV2와 PlaNet이 있음.

## Comments


### Comment 30009

- Author: neo
- Created: 2024-10-14T09:48:39+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=41826402) 
- 한 사용자는 링크된 비디오가 자신의 꿈과 매우 유사하다고 언급하며, 꿈에서 높은 점프를 시도할 때와 비슷한 경험을 한다고 설명함

- 300M 파라미터 모델이 GTX4090으로 12일 동안 5M 프레임으로 훈련되었음을 설명함

- 2015년 대형 기술 회사가 이와 유사한 작업을 했다고 언급함

- 대규모 LLMs와 같은 산업 규모의 작업은 매우 놀라울 것이라고 언급함

- 게임 엔진에서 현실적인 물리학 근사치를 생성하는 데 사용할 수 있을 것이라고 설명함
  - 무거운 물리 엔진을 사용하여 게임 플레이 스니펫을 생성하고 모델이 물리학을 근사화하도록 학습시킴
  - 여러 전문화된 물리 엔진을 가질 수 있을 것이라고 제안함

- 실제로 시도해본 사람에게 게임 맵을 구축하는지, 아니면 이상한 환각적 경험인지 묻는 질문을 제기함

- 안정적 확산의 기본 개념을 이해한다고 주장하며, 3D 자산 수준에서 이를 시도하는 연구가 있는지 궁금해함

- NN 이미지와 비디오에서 "지옥의 소음"을 인식하지 못하는 사람들에 대해 의아해함

- Schmidhuber의 그룹이 2018년에 했던 작업을 언급하며 링크를 공유함

- 최신 GTA와 관련된 실제 영상으로 모델을 훈련하여 오래된 게임의 비주얼을 업그레이드하는 것이 흥미로울 것이라고 언급함

- 언어 모델과 결합할 방법이 있는지 궁금해하며, 언어가 세계 모델에 기반해야 한다고 주장함

- 언어 모델이 비효율적이라고 생각하며, 구조 공학 도구로 훈련된 "게임"을 상상함

- 이 네트워크가 세계를 이해하고 유용한 행동을 예측하거나 질문에 답할 수 있는 부분이 될 수 있다고 설명함

- 강력한 루프가 있는 이 모델이 새로운 이미지나 맵을 시작으로 사용할 때 어떻게 반응할지 궁금해함