세계 모델링을 위한 Diffusion 기술

(diamond-wm.github.io)

1P by GN⁺ 9달전 | ★ favorite | 댓글 1개

DIAMOND 💎의 개요

DIAMOND는 강화 학습 에이전트로, 확산 세계 모델에서 훈련됨.
이 모델은 Atari와 같은 게임 환경에서 시각적 세부 사항을 중요하게 다룸.
DIAMOND는 3D 환경, 예를 들어 CounterStrike: Global Offensive (CSGO)도 시뮬레이션할 수 있음.

연구 배경 및 동기

세계 모델은 강화 학습 에이전트를 안전하고 효율적으로 훈련하는 유망한 접근법임.
기존의 세계 모델은 주로 이산 잠재 변수의 시퀀스를 사용하여 환경 동역학을 모델링함.
그러나 이러한 압축은 강화 학습에 중요한 시각적 세부 사항을 무시할 수 있음.
확산 모델은 이미지 생성에서 주도적인 접근법으로 자리 잡고 있음.
DIAMOND는 이러한 패러다임 전환에 영감을 받아 개발됨.

DIAMOND의 성능 및 결과

DIAMOND는 Atari 100k 벤치마크에서 평균 인간 정규화 점수 1.46을 달성함.
이는 세계 모델 내에서 훈련된 에이전트 중 최고 성능임.
DIAMOND의 코드는 GitHub에서 공개되어 있음.

DIAMOND의 작동 원리

확산 모델은 게임의 다음 프레임을 예측하도록 훈련됨.
에이전트의 행동과 이전 프레임을 고려하여 환경 반응을 시뮬레이션함.
자동 회귀 생성은 에이전트가 게임을 배우는 데 도움을 줌.
빠른 세계 모델을 위해 디노이징 단계 수를 줄여야 함.
DDPM 기반 모델은 낮은 디노이징 단계에서 불안정하지만, EDM 기반 모델은 안정적임.

시각적 세부 사항의 중요성

DIAMOND는 중요한 시각적 세부 사항을 더 잘 모델링함.
이산 토큰 기반 IRIS보다 더 나은 시각적 세부 사항을 포착함.
Atari 100k에서 인간보다 46% 더 나은 성능을 보임.

GN⁺의 정리

DIAMOND는 강화 학습에서 시각적 세부 사항의 중요성을 강조함.
확산 모델을 사용하여 더 나은 시각적 세부 사항을 포착할 수 있음.
Atari와 CSGO와 같은 게임에서의 성능 향상을 보여줌.
관련 분야의 연구자들에게 흥미롭고 유용한 자료가 될 수 있음.
유사한 기능을 가진 프로젝트로는 DreamerV2와 PlaNet이 있음.

▲

GN⁺ 9달전 [-]

Hacker News 의견

한 사용자는 링크된 비디오가 자신의 꿈과 매우 유사하다고 언급하며, 꿈에서 높은 점프를 시도할 때와 비슷한 경험을 한다고 설명함
300M 파라미터 모델이 GTX4090으로 12일 동안 5M 프레임으로 훈련되었음을 설명함
2015년 대형 기술 회사가 이와 유사한 작업을 했다고 언급함
대규모 LLMs와 같은 산업 규모의 작업은 매우 놀라울 것이라고 언급함
게임 엔진에서 현실적인 물리학 근사치를 생성하는 데 사용할 수 있을 것이라고 설명함
- 무거운 물리 엔진을 사용하여 게임 플레이 스니펫을 생성하고 모델이 물리학을 근사화하도록 학습시킴
- 여러 전문화된 물리 엔진을 가질 수 있을 것이라고 제안함
실제로 시도해본 사람에게 게임 맵을 구축하는지, 아니면 이상한 환각적 경험인지 묻는 질문을 제기함
안정적 확산의 기본 개념을 이해한다고 주장하며, 3D 자산 수준에서 이를 시도하는 연구가 있는지 궁금해함
NN 이미지와 비디오에서 "지옥의 소음"을 인식하지 못하는 사람들에 대해 의아해함
Schmidhuber의 그룹이 2018년에 했던 작업을 언급하며 링크를 공유함
최신 GTA와 관련된 실제 영상으로 모델을 훈련하여 오래된 게임의 비주얼을 업그레이드하는 것이 흥미로울 것이라고 언급함
언어 모델과 결합할 방법이 있는지 궁금해하며, 언어가 세계 모델에 기반해야 한다고 주장함
언어 모델이 비효율적이라고 생각하며, 구조 공학 도구로 훈련된 "게임"을 상상함
이 네트워크가 세계를 이해하고 유용한 행동을 예측하거나 질문에 답할 수 있는 부분이 될 수 있다고 설명함
강력한 루프가 있는 이 모델이 새로운 이미지나 맵을 시작으로 사용할 때 어떻게 반응할지 궁금해함

답변달기