Hacker News 의견
  • 시퀀스 마스킹 아이디어와 디퓨전 모델을 결합한 새로운 접근법을 제안함

    • 각 픽셀의 '불확실성' 수준을 추적하여 디퓨전 모델의 '노이즈' 수준으로 사용함
    • 이미지의 특정 부분을 먼저 확정할 수 있어 미로 해결 등에 활용 가능함
    • 로봇 팔을 제어하는 데도 사용되었음
    • 제목이 아이디어를 과소평가함; 이는 '분수 마스킹'을 수행하는 방법임
    • 코드베이스에 대한 궁금증이 많음; 미로 추적 작업과 비디오 확장 작업을 어떻게 설정하는지, 로봇 팔을 어떻게 연결하는지 등
    • 아키텍처 자체가 추가 연구와 설명이 필요함
  • 새로운 사전 훈련 없이 기존 텍스트 생성 LLM을 디퓨전 기술과 결합할 수 있는 연구나 도구를 알고 있는지 궁금함

    • Tree of Thoughts와 MCTS 등 유사한 접근법이 있지만, 토큰 수준 생성에 더 가까운 것을 찾고 있음
    • 작은 GPT / Phi 3 / Gwen 모델과 함께 작동할 수 있는지 궁금함
  • Russ가 디퓨전을 연구 중임; 로봇 공학에 매우 적용 가능할 것 같음

  • 해당 분야에서 일하는 사람으로서, 연구가 매우 난해하게 제시되었음

    • 해결하려는 문제가 무엇인지, 새로운 생성 모델을 제안하는 것인지 궁금함
  • 훈련 시간에 대해 놓친 부분이 있는지 궁금함; 토큰당 노이즈를 추가하면 훈련이 크게 느려지는지 궁금함

    • 멋진 논문임
  • 매우 멋진 연구지만, 왜 '디퓨전 포싱'이라고 불리는지 궁금함