디퓨전 포싱: 넥스트-토큰 예측과 풀-시퀀스 디퓨전의

▲

GN⁺ 2024-07-06 | parent | ★ favorite | on: 디퓨전 포싱: 넥스트-토큰 예측과 풀-시퀀스 디퓨전의 만남(boyuan.space)

Hacker News 의견

시퀀스 마스킹 아이디어와 디퓨전 모델을 결합한 새로운 접근법을 제안함
- 각 픽셀의 '불확실성' 수준을 추적하여 디퓨전 모델의 '노이즈' 수준으로 사용함
- 이미지의 특정 부분을 먼저 확정할 수 있어 미로 해결 등에 활용 가능함
- 로봇 팔을 제어하는 데도 사용되었음
- 제목이 아이디어를 과소평가함; 이는 '분수 마스킹'을 수행하는 방법임
- 코드베이스에 대한 궁금증이 많음; 미로 추적 작업과 비디오 확장 작업을 어떻게 설정하는지, 로봇 팔을 어떻게 연결하는지 등
- 아키텍처 자체가 추가 연구와 설명이 필요함
새로운 사전 훈련 없이 기존 텍스트 생성 LLM을 디퓨전 기술과 결합할 수 있는 연구나 도구를 알고 있는지 궁금함
- Tree of Thoughts와 MCTS 등 유사한 접근법이 있지만, 토큰 수준 생성에 더 가까운 것을 찾고 있음
- 작은 GPT / Phi 3 / Gwen 모델과 함께 작동할 수 있는지 궁금함
Russ가 디퓨전을 연구 중임; 로봇 공학에 매우 적용 가능할 것 같음
해당 분야에서 일하는 사람으로서, 연구가 매우 난해하게 제시되었음
- 해결하려는 문제가 무엇인지, 새로운 생성 모델을 제안하는 것인지 궁금함
훈련 시간에 대해 놓친 부분이 있는지 궁금함; 토큰당 노이즈를 추가하면 훈련이 크게 느려지는지 궁금함
- 멋진 논문임
매우 멋진 연구지만, 왜 '디퓨전 포싱'이라고 불리는지 궁금함