GN⁺: 세계 모델링을 위한 Diffusion 기술
(diamond-wm.github.io)DIAMOND 💎의 개요
- DIAMOND는 강화 학습 에이전트로, 확산 세계 모델에서 훈련됨.
- 이 모델은 Atari와 같은 게임 환경에서 시각적 세부 사항을 중요하게 다룸.
- DIAMOND는 3D 환경, 예를 들어 CounterStrike: Global Offensive (CSGO)도 시뮬레이션할 수 있음.
연구 배경 및 동기
- 세계 모델은 강화 학습 에이전트를 안전하고 효율적으로 훈련하는 유망한 접근법임.
- 기존의 세계 모델은 주로 이산 잠재 변수의 시퀀스를 사용하여 환경 동역학을 모델링함.
- 그러나 이러한 압축은 강화 학습에 중요한 시각적 세부 사항을 무시할 수 있음.
- 확산 모델은 이미지 생성에서 주도적인 접근법으로 자리 잡고 있음.
- DIAMOND는 이러한 패러다임 전환에 영감을 받아 개발됨.
DIAMOND의 성능 및 결과
- DIAMOND는 Atari 100k 벤치마크에서 평균 인간 정규화 점수 1.46을 달성함.
- 이는 세계 모델 내에서 훈련된 에이전트 중 최고 성능임.
- DIAMOND의 코드는 GitHub에서 공개되어 있음.
DIAMOND의 작동 원리
- 확산 모델은 게임의 다음 프레임을 예측하도록 훈련됨.
- 에이전트의 행동과 이전 프레임을 고려하여 환경 반응을 시뮬레이션함.
- 자동 회귀 생성은 에이전트가 게임을 배우는 데 도움을 줌.
- 빠른 세계 모델을 위해 디노이징 단계 수를 줄여야 함.
- DDPM 기반 모델은 낮은 디노이징 단계에서 불안정하지만, EDM 기반 모델은 안정적임.
시각적 세부 사항의 중요성
- DIAMOND는 중요한 시각적 세부 사항을 더 잘 모델링함.
- 이산 토큰 기반 IRIS보다 더 나은 시각적 세부 사항을 포착함.
- Atari 100k에서 인간보다 46% 더 나은 성능을 보임.
GN⁺의 정리
- DIAMOND는 강화 학습에서 시각적 세부 사항의 중요성을 강조함.
- 확산 모델을 사용하여 더 나은 시각적 세부 사항을 포착할 수 있음.
- Atari와 CSGO와 같은 게임에서의 성능 향상을 보여줌.
- 관련 분야의 연구자들에게 흥미롭고 유용한 자료가 될 수 있음.
- 유사한 기능을 가진 프로젝트로는 DreamerV2와 PlaNet이 있음.
Hacker News 의견
-
한 사용자는 링크된 비디오가 자신의 꿈과 매우 유사하다고 언급하며, 꿈에서 높은 점프를 시도할 때와 비슷한 경험을 한다고 설명함
-
300M 파라미터 모델이 GTX4090으로 12일 동안 5M 프레임으로 훈련되었음을 설명함
-
2015년 대형 기술 회사가 이와 유사한 작업을 했다고 언급함
-
대규모 LLMs와 같은 산업 규모의 작업은 매우 놀라울 것이라고 언급함
-
게임 엔진에서 현실적인 물리학 근사치를 생성하는 데 사용할 수 있을 것이라고 설명함
- 무거운 물리 엔진을 사용하여 게임 플레이 스니펫을 생성하고 모델이 물리학을 근사화하도록 학습시킴
- 여러 전문화된 물리 엔진을 가질 수 있을 것이라고 제안함
-
실제로 시도해본 사람에게 게임 맵을 구축하는지, 아니면 이상한 환각적 경험인지 묻는 질문을 제기함
-
안정적 확산의 기본 개념을 이해한다고 주장하며, 3D 자산 수준에서 이를 시도하는 연구가 있는지 궁금해함
-
NN 이미지와 비디오에서 "지옥의 소음"을 인식하지 못하는 사람들에 대해 의아해함
-
Schmidhuber의 그룹이 2018년에 했던 작업을 언급하며 링크를 공유함
-
최신 GTA와 관련된 실제 영상으로 모델을 훈련하여 오래된 게임의 비주얼을 업그레이드하는 것이 흥미로울 것이라고 언급함
-
언어 모델과 결합할 방법이 있는지 궁금해하며, 언어가 세계 모델에 기반해야 한다고 주장함
-
언어 모델이 비효율적이라고 생각하며, 구조 공학 도구로 훈련된 "게임"을 상상함
-
이 네트워크가 세계를 이해하고 유용한 행동을 예측하거나 질문에 답할 수 있는 부분이 될 수 있다고 설명함
-
강력한 루프가 있는 이 모델이 새로운 이미지나 맵을 시작으로 사용할 때 어떻게 반응할지 궁금해함