GN⁺: 디퓨전 포싱: 넥스트-토큰 예측과 풀-시퀀스 디퓨전의 만남
(boyuan.space)Diffusion Forcing
Diffusion Forcing 소개
- "Diffusion Forcing"은 "teacher forcing"과 "diffusion models"에서 유래한 이름임
- Diffusion Forcing은 다음 토큰 예측 모델과 전체 시퀀스 확산 모델의 주요 강점을 모두 활용할 수 있음
- 한 번의 훈련으로 다양한 샘플링 시간에 유연하게 동작할 수 있음
Diffusion Forcing의 작동 원리
- 시퀀스 확산을 훈련하되 각 토큰에 다른 노이즈 레벨을 적용함
- 확산의 노이즈를 다양한 수준의 마스킹으로 볼 수 있음
- 샘플링 시간에 시퀀스 전반에 걸쳐 다른 노이즈 레벨을 사용하여 유연한 동작을 달성할 수 있음
비디오 예측
- Diffusion Forcing을 사용한 비디오 예측은 안정적이고 일관된 결과를 제공함
- DMLab 및 Minecraft 데이터셋에서 Diffusion Forcing은 기존 방법보다 우수한 성능을 보임
슬라이딩 윈도우 없이 무한 롤아웃 안정화
- Diffusion Forcing은 훈련된 최대 시퀀스 길이보다 훨씬 긴 비디오를 롤아웃할 수 있음
- 슬라이딩 윈도우 없이 RNN을 롤아웃할 수 있음
- DMLab 및 Minecraft 데이터셋에서 2000 프레임 이상 롤아웃 가능
Diffusion Planning
- Diffusion Forcing은 테스트 시 가이던스를 사용하여 플래너로 활용 가능
- 각 토큰을 [a_t, o_{t+1}]로 정의하여 인과 관계를 명시적으로 모델링함
- 새로운 관찰이 이루어진 후 후행 추정으로 업데이트 가능
장기 모방 학습
- 많은 실제 작업은 마코프 특성이 없으며 장기 메모리가 필요함
- 로봇 팔이 두 개의 과일 슬롯을 교환하는 작업에서 성공적인 결과를 보임
- Diffusion Forcing은 테스트 시 보이지 않는 방해 요소에 대해 강건하게 동작할 수 있음
GN⁺의 의견
- Diffusion Forcing은 다음 토큰 예측 모델과 전체 시퀀스 확산 모델의 장점을 결합하여 유연한 샘플링을 가능하게 함
- 비디오 예측 및 롤아웃에서 기존 방법보다 우수한 성능을 보이며, 이는 실용적인 응용 가능성을 높임
- 장기 모방 학습에서의 성공은 Diffusion Forcing의 강력한 피드백 제어 능력을 보여줌
- Diffusion Forcing의 안정화 효과는 다양한 시퀀스 길이에서의 활용 가능성을 높임
- 새로운 기술을 채택할 때는 모델의 복잡성과 계산 비용을 고려해야 함
Hacker News 의견
-
시퀀스 마스킹 아이디어와 디퓨전 모델을 결합한 새로운 접근법을 제안함
- 각 픽셀의 '불확실성' 수준을 추적하여 디퓨전 모델의 '노이즈' 수준으로 사용함
- 이미지의 특정 부분을 먼저 확정할 수 있어 미로 해결 등에 활용 가능함
- 로봇 팔을 제어하는 데도 사용되었음
- 제목이 아이디어를 과소평가함; 이는 '분수 마스킹'을 수행하는 방법임
- 코드베이스에 대한 궁금증이 많음; 미로 추적 작업과 비디오 확장 작업을 어떻게 설정하는지, 로봇 팔을 어떻게 연결하는지 등
- 아키텍처 자체가 추가 연구와 설명이 필요함
-
새로운 사전 훈련 없이 기존 텍스트 생성 LLM을 디퓨전 기술과 결합할 수 있는 연구나 도구를 알고 있는지 궁금함
- Tree of Thoughts와 MCTS 등 유사한 접근법이 있지만, 토큰 수준 생성에 더 가까운 것을 찾고 있음
- 작은 GPT / Phi 3 / Gwen 모델과 함께 작동할 수 있는지 궁금함
-
Russ가 디퓨전을 연구 중임; 로봇 공학에 매우 적용 가능할 것 같음
-
해당 분야에서 일하는 사람으로서, 연구가 매우 난해하게 제시되었음
- 해결하려는 문제가 무엇인지, 새로운 생성 모델을 제안하는 것인지 궁금함
-
훈련 시간에 대해 놓친 부분이 있는지 궁금함; 토큰당 노이즈를 추가하면 훈련이 크게 느려지는지 궁금함
- 멋진 논문임
-
매우 멋진 연구지만, 왜 '디퓨전 포싱'이라고 불리는지 궁금함