# 디퓨전 포싱: 넥스트-토큰 예측과 풀-시퀀스 디퓨전의 만남

> Clean Markdown view of GeekNews topic #15707. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=15707](https://news.hada.io/topic?id=15707)
- GeekNews Markdown: [https://news.hada.io/topic/15707.md](https://news.hada.io/topic/15707.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-07-06T09:57:57+09:00
- Updated: 2024-07-06T09:57:57+09:00
- Original source: [boyuan.space](https://boyuan.space/diffusion-forcing/)
- Points: 1
- Comments: 1

## Topic Body

### Diffusion Forcing

#### Diffusion Forcing 소개
- "Diffusion Forcing"은 "teacher forcing"과 "diffusion models"에서 유래한 이름임
- Diffusion Forcing은 다음 토큰 예측 모델과 전체 시퀀스 확산 모델의 주요 강점을 모두 활용할 수 있음
- 한 번의 훈련으로 다양한 샘플링 시간에 유연하게 동작할 수 있음

#### Diffusion Forcing의 작동 원리
- 시퀀스 확산을 훈련하되 각 토큰에 다른 노이즈 레벨을 적용함
- 확산의 노이즈를 다양한 수준의 마스킹으로 볼 수 있음
- 샘플링 시간에 시퀀스 전반에 걸쳐 다른 노이즈 레벨을 사용하여 유연한 동작을 달성할 수 있음

#### 비디오 예측
- Diffusion Forcing을 사용한 비디오 예측은 안정적이고 일관된 결과를 제공함
- DMLab 및 Minecraft 데이터셋에서 Diffusion Forcing은 기존 방법보다 우수한 성능을 보임

#### 슬라이딩 윈도우 없이 무한 롤아웃 안정화
- Diffusion Forcing은 훈련된 최대 시퀀스 길이보다 훨씬 긴 비디오를 롤아웃할 수 있음
- 슬라이딩 윈도우 없이 RNN을 롤아웃할 수 있음
- DMLab 및 Minecraft 데이터셋에서 2000 프레임 이상 롤아웃 가능

#### Diffusion Planning
- Diffusion Forcing은 테스트 시 가이던스를 사용하여 플래너로 활용 가능
- 각 토큰을 [a_t, o_{t+1}]로 정의하여 인과 관계를 명시적으로 모델링함
- 새로운 관찰이 이루어진 후 후행 추정으로 업데이트 가능

#### 장기 모방 학습
- 많은 실제 작업은 마코프 특성이 없으며 장기 메모리가 필요함
- 로봇 팔이 두 개의 과일 슬롯을 교환하는 작업에서 성공적인 결과를 보임
- Diffusion Forcing은 테스트 시 보이지 않는 방해 요소에 대해 강건하게 동작할 수 있음

### GN⁺의 의견
- Diffusion Forcing은 다음 토큰 예측 모델과 전체 시퀀스 확산 모델의 장점을 결합하여 유연한 샘플링을 가능하게 함
- 비디오 예측 및 롤아웃에서 기존 방법보다 우수한 성능을 보이며, 이는 실용적인 응용 가능성을 높임
- 장기 모방 학습에서의 성공은 Diffusion Forcing의 강력한 피드백 제어 능력을 보여줌
- Diffusion Forcing의 안정화 효과는 다양한 시퀀스 길이에서의 활용 가능성을 높임
- 새로운 기술을 채택할 때는 모델의 복잡성과 계산 비용을 고려해야 함

## Comments


### Comment 27006

- Author: neo
- Created: 2024-07-06T09:57:58+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=40871783) 
- 시퀀스 마스킹 아이디어와 디퓨전 모델을 결합한 새로운 접근법을 제안함
  - 각 픽셀의 '불확실성' 수준을 추적하여 디퓨전 모델의 '노이즈' 수준으로 사용함
  - 이미지의 특정 부분을 먼저 확정할 수 있어 미로 해결 등에 활용 가능함
  - 로봇 팔을 제어하는 데도 사용되었음
  - 제목이 아이디어를 과소평가함; 이는 '분수 마스킹'을 수행하는 방법임
  - 코드베이스에 대한 궁금증이 많음; 미로 추적 작업과 비디오 확장 작업을 어떻게 설정하는지, 로봇 팔을 어떻게 연결하는지 등
  - 아키텍처 자체가 추가 연구와 설명이 필요함

- 새로운 사전 훈련 없이 기존 텍스트 생성 LLM을 디퓨전 기술과 결합할 수 있는 연구나 도구를 알고 있는지 궁금함
  - Tree of Thoughts와 MCTS 등 유사한 접근법이 있지만, 토큰 수준 생성에 더 가까운 것을 찾고 있음
  - 작은 GPT / Phi 3 / Gwen 모델과 함께 작동할 수 있는지 궁금함

- Russ가 디퓨전을 연구 중임; 로봇 공학에 매우 적용 가능할 것 같음

- 해당 분야에서 일하는 사람으로서, 연구가 매우 난해하게 제시되었음
  - 해결하려는 문제가 무엇인지, 새로운 생성 모델을 제안하는 것인지 궁금함

- 훈련 시간에 대해 놓친 부분이 있는지 궁금함; 토큰당 노이즈를 추가하면 훈련이 크게 느려지는지 궁금함
  - 멋진 논문임

- 매우 멋진 연구지만, 왜 '디퓨전 포싱'이라고 불리는지 궁금함