ICLR에 채택된 새로운 생성 모델을 발명했습니다

▲

GN⁺ 6달전 | parent | ★ favorite | on: ICLR에 채택된 새로운 생성 모델을 발명했습니다(discrete-distribution-networks.github.io)

Hacker News 의견

저자들이 ICLR 리뷰를 유용하게 느껴서 기쁨을 표현함, 이 사례는 ICLR의 모든 논문 리뷰를 공개하는 정책이 어떻게 성공적으로 작동하는지 보여주는 예로 여김
리뷰어들이 익명으로 논문을 어떻게 해석했는지 저자에게 '평가서' 역할을 해 주고, 전통적인 학계 밖의 사람들도 논문 채택/거절 뒤에 숨어 있는 토론을 볼 수 있다는 장점이 있음
이 논문에 대한 리뷰 링크는 이곳임
거절된 논문 전체 목록은 여기에서 확인 가능함
- ICLR에서 리젝된 경험이 있을 때마다, 적어도 그 논문의 핵심 개념을 이해하지 못한 리뷰어가 누구인지 지적할 수 있었음
논문의 Fig.18에서 Taiji-DDN이 고대 중국 철학의 태극과 비슷함을 언급하고 있음
이 부분이 조금 까다롭게 느껴졌음
분기 구조(branching structure)는 흔히 볼 수 있는 개념이기 때문에, 특별히 고사성어와 엮는 해석은 다소 의아하다고 느낌
- 개인적으로 이건 그저 독특한 네이밍을 재미있게 설명하고 싶었던 것으로 보임
  딱히 미신적이거나 이상한 내용은 아니라고 생각함
단일 저자 논문이 ICLR에 실리는 걸 보니, 특히 혁신적인 방법을 제시한 경우라 더욱 인상적으로 느껴짐
구조가 매우 흥미롭게 다가옴
디버깅이 쉬운 장점이 있지만, 샘플러를 사용하고 Mixture-of-Experts(MoE) 스타일 라우터가 아니라서 각 레이어마다 K-1번의 연산이 효과적으로 버려지는 단점이 존재함
내가 느끼기엔 MoE와 'x0-target' latent diffusion 모델의 조합이 가장 가까운 비유이고, 주요 혁신점은 라우터가 아닌 가이드 샘플러와 split-and-prune 옵티마이저임
이 덕분에 학습이 쉬워진다고 생각함
- 샘플링 확률이 입력에 관계 없이 1/K이기 때문에, 추론 시에는 각 레이어마다 K개의 중간 연산을 굳이 모두 할 필요 없이 사용할 것을 미리 결정하고 해당 연산만 수행하면 됨
  이 내용은 논문 하단의 'Common Questions About DDN' 섹션 Q1에 나와 있음
- 논문을 잘못 이해하신 것 같음
  'Experts'는 존재하지 않고, 출력이 단순히 분포로부터 랜덤 샘플을 근사하는 역할임
  latent diffusion은 없고, GAN과 비슷한 컨볼루션을 사용함
  추론 시에는 샘플 인덱스를 미리 선택해서 쓸데없는 연산이 없다는 점 강조함
정말 멋진 컨셉임
논문 초록 아래의 예시들을 보니, 모델이 상당히 정확한 결과를 내는 부분들이 놀라움
예를 들어, 2행 3열 헤어라인, 2행 7/8/9/11열의 셔츠 색상, 4/6행 전체 립스틱, 6행 4열 얼굴과 머리 위치/모양 등
특히 6행 4열 좌하단의 빨간색 부분은 모델이 무언가 빨간 게 있다는 점을 알아채고 정확한 위치에 붉은 블롭을 둔 것이 매우 신기함
데이터셋의 편향(예: 립스틱)이나 내 선택적 관찰일 수도 있지만, 빨간 어깨 끈에 대해서는 데이터 누수나 과적합 가능성, 아니면 그저 우연인지 궁금함
나도 비슷한 구조(방법은 다름)로, 교차 어텐션과 학습된 쿼리들의 계층 구조를 만들고, 어텐션 행렬에 L1을 적용해 희소성을 높여 구현한 적 있음
이산적 계층 표현(discrete hierarchical representations)은 정말 흥미로움
레이어마다 활성화되는 패턴이 각 입력마다 '파스 트리'처럼 작동해서 이미지를 짧은 정수 시퀀스로 효과적으로 압축하게 됨
내가 잘 모르는 부분이라서 질문함: 네트워크가 1x1 컨볼루션으로만 구성되면, 픽셀 간에 정보 교환이 전혀 없는 것 아닌지
그렇다면 각 픽셀이 완전히 독립적이라는 의미이고, 결과가 비일관적이지 않을까 궁금함
- 여기에는 해당되지 않지만, 실제로는 픽셀을 서로 독립적으로 생성하는 아키텍처도 존재함
  任의의 픽셀이나 이미지 요소를 나머지를 생성하지 않고 만들어낼 수 있음, 이들은 내재적임
  예시로 NeRF, 'single-pixel GAN', MAE가 있는데 논문 링크로 이 논문, 이 논문, 이 논문이 있음
  이게 가능한 이유는 모델이 모든 가능한 데이터를 '기억'하는 기능이 있다고 볼 수 있어서, 독립적으로 생성하는 것은 단순히 어떤 '기억'의 특정 부분을 꺼내오는 식임
  잠재공간은 변화하지 않는 플라톤적인 대상이기 때문에, 각 포인트를 물리적으로 따로 생성하는 것이 이상하지 않음
  arbitrary points를 y=mx+b 같은 함수로 생성할 수 있듯, 이미지 생성도 복잡한 함수의 입력에 불과함
  이 개념이 이미지에만 국한되지 않고, 자연어도 어느정도 독립적으로 생성할 수 있으며 이 코드와 내 제안 여기에서 확장 가능함
- DDN에서는 1x1 컨볼루션이 Discrete Distribution Layer(DDL)의 출력 레이어에만 사용됨
  DDL 사이의 신경망 블록들은 주요 연산 및 파라미터의 근원이 되고, 여기에 표준 3x3 컨볼루션을 채택함
흥미로움
며칠 전, symbolic transform 행렬을 사용해서 딥 그래프 반응 시스템을 병렬화하는 diffusion 연구를 했는데, 많은 사람들이 이 일반적인 방향으로 가는 중임
향후 1-2년 내에 diffusion 기반 모델이 코드 생성을 주도할 것 같다는 생각이 듦
정말 멋짐, 예전에 표현 학습에 꽤 많은 시간을 쏟았는데, MNIST 숫자 그리드가 추억을 떠올리게 함
진짜로 흥미롭고 새로운 접근이라고 생각하고, 확장해서 비이미지 도메인에 적용했을 때 성능이 궁금함
추후 연구를 어디서 팔로업할 수 있는지 궁금함
- 관심 가져줘서 고마움
  앞으로의 연구 결과는 GitHub와 Twitter(X) 모두에 올릴 예정임
정말 좋은 연구로 보여서 읽기 목록에 추가함
Hacker News에 공유해줘서 고마움을 느낌