1P by neo 4달전 | favorite | 댓글 1개

Diffusion Forcing

Diffusion Forcing 소개

  • "Diffusion Forcing"은 "teacher forcing"과 "diffusion models"에서 유래한 이름임
  • Diffusion Forcing은 다음 토큰 예측 모델과 전체 시퀀스 확산 모델의 주요 강점을 모두 활용할 수 있음
  • 한 번의 훈련으로 다양한 샘플링 시간에 유연하게 동작할 수 있음

Diffusion Forcing의 작동 원리

  • 시퀀스 확산을 훈련하되 각 토큰에 다른 노이즈 레벨을 적용함
  • 확산의 노이즈를 다양한 수준의 마스킹으로 볼 수 있음
  • 샘플링 시간에 시퀀스 전반에 걸쳐 다른 노이즈 레벨을 사용하여 유연한 동작을 달성할 수 있음

비디오 예측

  • Diffusion Forcing을 사용한 비디오 예측은 안정적이고 일관된 결과를 제공함
  • DMLab 및 Minecraft 데이터셋에서 Diffusion Forcing은 기존 방법보다 우수한 성능을 보임

슬라이딩 윈도우 없이 무한 롤아웃 안정화

  • Diffusion Forcing은 훈련된 최대 시퀀스 길이보다 훨씬 긴 비디오를 롤아웃할 수 있음
  • 슬라이딩 윈도우 없이 RNN을 롤아웃할 수 있음
  • DMLab 및 Minecraft 데이터셋에서 2000 프레임 이상 롤아웃 가능

Diffusion Planning

  • Diffusion Forcing은 테스트 시 가이던스를 사용하여 플래너로 활용 가능
  • 각 토큰을 [a_t, o_{t+1}]로 정의하여 인과 관계를 명시적으로 모델링함
  • 새로운 관찰이 이루어진 후 후행 추정으로 업데이트 가능

장기 모방 학습

  • 많은 실제 작업은 마코프 특성이 없으며 장기 메모리가 필요함
  • 로봇 팔이 두 개의 과일 슬롯을 교환하는 작업에서 성공적인 결과를 보임
  • Diffusion Forcing은 테스트 시 보이지 않는 방해 요소에 대해 강건하게 동작할 수 있음

GN⁺의 의견

  • Diffusion Forcing은 다음 토큰 예측 모델과 전체 시퀀스 확산 모델의 장점을 결합하여 유연한 샘플링을 가능하게 함
  • 비디오 예측 및 롤아웃에서 기존 방법보다 우수한 성능을 보이며, 이는 실용적인 응용 가능성을 높임
  • 장기 모방 학습에서의 성공은 Diffusion Forcing의 강력한 피드백 제어 능력을 보여줌
  • Diffusion Forcing의 안정화 효과는 다양한 시퀀스 길이에서의 활용 가능성을 높임
  • 새로운 기술을 채택할 때는 모델의 복잡성과 계산 비용을 고려해야 함
Hacker News 의견
  • 시퀀스 마스킹 아이디어와 디퓨전 모델을 결합한 새로운 접근법을 제안함

    • 각 픽셀의 '불확실성' 수준을 추적하여 디퓨전 모델의 '노이즈' 수준으로 사용함
    • 이미지의 특정 부분을 먼저 확정할 수 있어 미로 해결 등에 활용 가능함
    • 로봇 팔을 제어하는 데도 사용되었음
    • 제목이 아이디어를 과소평가함; 이는 '분수 마스킹'을 수행하는 방법임
    • 코드베이스에 대한 궁금증이 많음; 미로 추적 작업과 비디오 확장 작업을 어떻게 설정하는지, 로봇 팔을 어떻게 연결하는지 등
    • 아키텍처 자체가 추가 연구와 설명이 필요함
  • 새로운 사전 훈련 없이 기존 텍스트 생성 LLM을 디퓨전 기술과 결합할 수 있는 연구나 도구를 알고 있는지 궁금함

    • Tree of Thoughts와 MCTS 등 유사한 접근법이 있지만, 토큰 수준 생성에 더 가까운 것을 찾고 있음
    • 작은 GPT / Phi 3 / Gwen 모델과 함께 작동할 수 있는지 궁금함
  • Russ가 디퓨전을 연구 중임; 로봇 공학에 매우 적용 가능할 것 같음

  • 해당 분야에서 일하는 사람으로서, 연구가 매우 난해하게 제시되었음

    • 해결하려는 문제가 무엇인지, 새로운 생성 모델을 제안하는 것인지 궁금함
  • 훈련 시간에 대해 놓친 부분이 있는지 궁금함; 토큰당 노이즈를 추가하면 훈련이 크게 느려지는지 궁금함

    • 멋진 논문임
  • 매우 멋진 연구지만, 왜 '디퓨전 포싱'이라고 불리는지 궁금함