GN⁺ 6달전 | parent | ★ favorite | on: ICLR에 채택된 새로운 생성 모델을 발명했습니다(discrete-distribution-networks.github.io)
Hacker News 의견
  • 저자들이 ICLR 리뷰를 유용하게 느껴서 기쁨을 표현함, 이 사례는 ICLR의 모든 논문 리뷰를 공개하는 정책이 어떻게 성공적으로 작동하는지 보여주는 예로 여김
    리뷰어들이 익명으로 논문을 어떻게 해석했는지 저자에게 '평가서' 역할을 해 주고, 전통적인 학계 밖의 사람들도 논문 채택/거절 뒤에 숨어 있는 토론을 볼 수 있다는 장점이 있음
    이 논문에 대한 리뷰 링크는 이곳
    거절된 논문 전체 목록은 여기에서 확인 가능함

    • ICLR에서 리젝된 경험이 있을 때마다, 적어도 그 논문의 핵심 개념을 이해하지 못한 리뷰어가 누구인지 지적할 수 있었음
  • 논문의 Fig.18에서 Taiji-DDN이 고대 중국 철학의 태극과 비슷함을 언급하고 있음
    이 부분이 조금 까다롭게 느껴졌음
    분기 구조(branching structure)는 흔히 볼 수 있는 개념이기 때문에, 특별히 고사성어와 엮는 해석은 다소 의아하다고 느낌

    • 개인적으로 이건 그저 독특한 네이밍을 재미있게 설명하고 싶었던 것으로 보임
      딱히 미신적이거나 이상한 내용은 아니라고 생각함
  • 단일 저자 논문이 ICLR에 실리는 걸 보니, 특히 혁신적인 방법을 제시한 경우라 더욱 인상적으로 느껴짐

  • 구조가 매우 흥미롭게 다가옴
    디버깅이 쉬운 장점이 있지만, 샘플러를 사용하고 Mixture-of-Experts(MoE) 스타일 라우터가 아니라서 각 레이어마다 K-1번의 연산이 효과적으로 버려지는 단점이 존재함
    내가 느끼기엔 MoE와 'x0-target' latent diffusion 모델의 조합이 가장 가까운 비유이고, 주요 혁신점은 라우터가 아닌 가이드 샘플러와 split-and-prune 옵티마이저임
    이 덕분에 학습이 쉬워진다고 생각함

    • 샘플링 확률이 입력에 관계 없이 1/K이기 때문에, 추론 시에는 각 레이어마다 K개의 중간 연산을 굳이 모두 할 필요 없이 사용할 것을 미리 결정하고 해당 연산만 수행하면 됨
      이 내용은 논문 하단의 'Common Questions About DDN' 섹션 Q1에 나와 있음

    • 논문을 잘못 이해하신 것 같음
      'Experts'는 존재하지 않고, 출력이 단순히 분포로부터 랜덤 샘플을 근사하는 역할임
      latent diffusion은 없고, GAN과 비슷한 컨볼루션을 사용함
      추론 시에는 샘플 인덱스를 미리 선택해서 쓸데없는 연산이 없다는 점 강조함

  • 정말 멋진 컨셉임
    논문 초록 아래의 예시들을 보니, 모델이 상당히 정확한 결과를 내는 부분들이 놀라움
    예를 들어, 2행 3열 헤어라인, 2행 7/8/9/11열의 셔츠 색상, 4/6행 전체 립스틱, 6행 4열 얼굴과 머리 위치/모양 등
    특히 6행 4열 좌하단의 빨간색 부분은 모델이 무언가 빨간 게 있다는 점을 알아채고 정확한 위치에 붉은 블롭을 둔 것이 매우 신기함
    데이터셋의 편향(예: 립스틱)이나 내 선택적 관찰일 수도 있지만, 빨간 어깨 끈에 대해서는 데이터 누수나 과적합 가능성, 아니면 그저 우연인지 궁금함

  • 나도 비슷한 구조(방법은 다름)로, 교차 어텐션과 학습된 쿼리들의 계층 구조를 만들고, 어텐션 행렬에 L1을 적용해 희소성을 높여 구현한 적 있음
    이산적 계층 표현(discrete hierarchical representations)은 정말 흥미로움
    레이어마다 활성화되는 패턴이 각 입력마다 '파스 트리'처럼 작동해서 이미지를 짧은 정수 시퀀스로 효과적으로 압축하게 됨

  • 내가 잘 모르는 부분이라서 질문함: 네트워크가 1x1 컨볼루션으로만 구성되면, 픽셀 간에 정보 교환이 전혀 없는 것 아닌지
    그렇다면 각 픽셀이 완전히 독립적이라는 의미이고, 결과가 비일관적이지 않을까 궁금함

    • 여기에는 해당되지 않지만, 실제로는 픽셀을 서로 독립적으로 생성하는 아키텍처도 존재함
      任의의 픽셀이나 이미지 요소를 나머지를 생성하지 않고 만들어낼 수 있음, 이들은 내재적임
      예시로 NeRF, 'single-pixel GAN', MAE가 있는데 논문 링크로 이 논문, 이 논문, 이 논문이 있음
      이게 가능한 이유는 모델이 모든 가능한 데이터를 '기억'하는 기능이 있다고 볼 수 있어서, 독립적으로 생성하는 것은 단순히 어떤 '기억'의 특정 부분을 꺼내오는 식임
      잠재공간은 변화하지 않는 플라톤적인 대상이기 때문에, 각 포인트를 물리적으로 따로 생성하는 것이 이상하지 않음
      arbitrary points를 y=mx+b 같은 함수로 생성할 수 있듯, 이미지 생성도 복잡한 함수의 입력에 불과함
      이 개념이 이미지에만 국한되지 않고, 자연어도 어느정도 독립적으로 생성할 수 있으며 이 코드와 내 제안 여기에서 확장 가능함

    • DDN에서는 1x1 컨볼루션이 Discrete Distribution Layer(DDL)의 출력 레이어에만 사용됨
      DDL 사이의 신경망 블록들은 주요 연산 및 파라미터의 근원이 되고, 여기에 표준 3x3 컨볼루션을 채택함

  • 흥미로움
    며칠 전, symbolic transform 행렬을 사용해서 딥 그래프 반응 시스템을 병렬화하는 diffusion 연구를 했는데, 많은 사람들이 이 일반적인 방향으로 가는 중임
    향후 1-2년 내에 diffusion 기반 모델이 코드 생성을 주도할 것 같다는 생각이 듦

  • 정말 멋짐, 예전에 표현 학습에 꽤 많은 시간을 쏟았는데, MNIST 숫자 그리드가 추억을 떠올리게 함
    진짜로 흥미롭고 새로운 접근이라고 생각하고, 확장해서 비이미지 도메인에 적용했을 때 성능이 궁금함
    추후 연구를 어디서 팔로업할 수 있는지 궁금함

    • 관심 가져줘서 고마움
      앞으로의 연구 결과는 GitHubTwitter(X) 모두에 올릴 예정임
  • 정말 좋은 연구로 보여서 읽기 목록에 추가함
    Hacker News에 공유해줘서 고마움을 느낌