디퓨전 포싱: 넥스트-토큰 예측과 풀-시퀀스 디퓨전의 만남

(boyuan.space)

1P by GN⁺ 2024-07-06 | ★ favorite | 댓글 1개

Diffusion Forcing

Diffusion Forcing 소개

"Diffusion Forcing"은 "teacher forcing"과 "diffusion models"에서 유래한 이름임
Diffusion Forcing은 다음 토큰 예측 모델과 전체 시퀀스 확산 모델의 주요 강점을 모두 활용할 수 있음
한 번의 훈련으로 다양한 샘플링 시간에 유연하게 동작할 수 있음

Diffusion Forcing의 작동 원리

시퀀스 확산을 훈련하되 각 토큰에 다른 노이즈 레벨을 적용함
확산의 노이즈를 다양한 수준의 마스킹으로 볼 수 있음
샘플링 시간에 시퀀스 전반에 걸쳐 다른 노이즈 레벨을 사용하여 유연한 동작을 달성할 수 있음

비디오 예측

Diffusion Forcing을 사용한 비디오 예측은 안정적이고 일관된 결과를 제공함
DMLab 및 Minecraft 데이터셋에서 Diffusion Forcing은 기존 방법보다 우수한 성능을 보임

슬라이딩 윈도우 없이 무한 롤아웃 안정화

Diffusion Forcing은 훈련된 최대 시퀀스 길이보다 훨씬 긴 비디오를 롤아웃할 수 있음
슬라이딩 윈도우 없이 RNN을 롤아웃할 수 있음
DMLab 및 Minecraft 데이터셋에서 2000 프레임 이상 롤아웃 가능

Diffusion Planning

Diffusion Forcing은 테스트 시 가이던스를 사용하여 플래너로 활용 가능
각 토큰을 [a_t, o_{t+1}]로 정의하여 인과 관계를 명시적으로 모델링함
새로운 관찰이 이루어진 후 후행 추정으로 업데이트 가능

장기 모방 학습

많은 실제 작업은 마코프 특성이 없으며 장기 메모리가 필요함
로봇 팔이 두 개의 과일 슬롯을 교환하는 작업에서 성공적인 결과를 보임
Diffusion Forcing은 테스트 시 보이지 않는 방해 요소에 대해 강건하게 동작할 수 있음

GN⁺의 의견

Diffusion Forcing은 다음 토큰 예측 모델과 전체 시퀀스 확산 모델의 장점을 결합하여 유연한 샘플링을 가능하게 함
비디오 예측 및 롤아웃에서 기존 방법보다 우수한 성능을 보이며, 이는 실용적인 응용 가능성을 높임
장기 모방 학습에서의 성공은 Diffusion Forcing의 강력한 피드백 제어 능력을 보여줌
Diffusion Forcing의 안정화 효과는 다양한 시퀀스 길이에서의 활용 가능성을 높임
새로운 기술을 채택할 때는 모델의 복잡성과 계산 비용을 고려해야 함

GN⁺ 2024-07-06 [-]

Hacker News 의견

시퀀스 마스킹 아이디어와 디퓨전 모델을 결합한 새로운 접근법을 제안함
- 각 픽셀의 '불확실성' 수준을 추적하여 디퓨전 모델의 '노이즈' 수준으로 사용함
- 이미지의 특정 부분을 먼저 확정할 수 있어 미로 해결 등에 활용 가능함
- 로봇 팔을 제어하는 데도 사용되었음
- 제목이 아이디어를 과소평가함; 이는 '분수 마스킹'을 수행하는 방법임
- 코드베이스에 대한 궁금증이 많음; 미로 추적 작업과 비디오 확장 작업을 어떻게 설정하는지, 로봇 팔을 어떻게 연결하는지 등
- 아키텍처 자체가 추가 연구와 설명이 필요함
새로운 사전 훈련 없이 기존 텍스트 생성 LLM을 디퓨전 기술과 결합할 수 있는 연구나 도구를 알고 있는지 궁금함
- Tree of Thoughts와 MCTS 등 유사한 접근법이 있지만, 토큰 수준 생성에 더 가까운 것을 찾고 있음
- 작은 GPT / Phi 3 / Gwen 모델과 함께 작동할 수 있는지 궁금함
Russ가 디퓨전을 연구 중임; 로봇 공학에 매우 적용 가능할 것 같음
해당 분야에서 일하는 사람으로서, 연구가 매우 난해하게 제시되었음
- 해결하려는 문제가 무엇인지, 새로운 생성 모델을 제안하는 것인지 궁금함
훈련 시간에 대해 놓친 부분이 있는지 궁금함; 토큰당 노이즈를 추가하면 훈련이 크게 느려지는지 궁금함
- 멋진 논문임
매우 멋진 연구지만, 왜 '디퓨전 포싱'이라고 불리는지 궁금함

답변달기

디퓨전 포싱: 넥스트-토큰 예측과 풀-시퀀스 디퓨전의 만남

Diffusion Forcing

Diffusion Forcing 소개

Diffusion Forcing의 작동 원리

비디오 예측

슬라이딩 윈도우 없이 무한 롤아웃 안정화

Diffusion Planning

장기 모방 학습

GN⁺의 의견

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견