4P by neo 4달전 | favorite | 댓글 1개

생성 모델링

  • 생성 모델링의 기본 문제는 알려지지 않은 분포 x∼p(x)에서 샘플 집합을 주어졌을 때, 그 분포에서 새로운 샘플을 생성하는 것임.

1.1 노이즈 제거 확산 모델

  • 데이터 포인트를 정상 분포로 결정론적으로 매핑하는 대신, 무작위 노이즈를 섞어 포인트를 확률적으로 매핑하는 방법을 사용함.
  • 이 방법은 처음에는 이상하게 보일 수 있지만, 여러 단계에 걸쳐 깨끗한 데이터 포인트에 소량의 노이즈를 섞어 순수한 노이즈처럼 보이게 함.
  • 각 단계에서 노이즈가 섞인 데이터 포인트를 보면 이전 단계에서 데이터 포인트가 어디에 있었는지 대략적으로 알 수 있음.
  • 이 과정을 역으로 학습하면 p(x) 분포에서 샘플을 생성할 수 있음.
  • 이는 물리적 확산 과정과 유사함.

DDP 모델

  • DDP 모델은 노이즈 제거 확산 확률 모델(Denoising Diffusion Probabilistic Models)의 약자임.
  • 새로운 발전은 이 논문의 언어와 수학을 기반으로 함.

2.1 노이즈 추가 및 제거

  • 입력 이미지 x0를 단위 정상 분포의 포인트로 매핑하기 위해 t=1,2,…,T 시간 단계에 걸쳐 노이즈를 점진적으로 추가하는 전방 확산 과정을 사용함.
  • 각 시간 단계는 이전 이미지에 소량의 무작위 노이즈를 섞어 새로운 이미지를 생성함.
  • 이 과정은 반복적 성질을 가지며, 각 단계는 이전 시간 단계에만 의존하고, 추가된 노이즈는 이전 노이즈 샘플과 독립적임.
  • 역과정을 학습하여 노이즈가 섞인 이미지 xt에서 이전 단계의 덜 노이즈가 섞인 버전 xt-1의 분포를 예측함.

2.2 노이즈 제거 학습

  • q(xt−1∣xt)는 매우 적은 양의 노이즈에 대해 대략적으로 가우시안임.
  • 이는 통계 물리학의 오래된 결과임.
  • 이를 통해 역 분포를 학습할 수 있음.
  • KL 발산을 사용하여 모든 훈련 예제 x0에 대해 q(xt−1∣xt,x0)와 pθ(xt−1∣xt) 간의 차이를 최소화함.
  • 최종 손실 함수는 노이즈 예측 문제로 단순화됨.

2.3 샘플링

  • 노이즈 추정 모델 ϵθ(xt,t)를 학습한 후, 이를 사용하여 이미지 x0를 샘플링할 수 있음.
  • 순수 노이즈 이미지 xT∼N(0,I)를 샘플링하고, T에서 1까지의 시간 단계에 대해 노이즈를 예측하고, 예측된 노이즈를 사용하여 노이즈가 제거된 이미지를 샘플링함.

2.4 요약 및 예제

  • 이미지 데이터셋의 기본 분포를 학습하고, 전방 노이즈 추가 과정을 정의하여 이미지 x0를 순수 노이즈 xT로 점진적으로 변환함.
  • 역 과정을 학습하여 xt에서 xt-1의 분포를 예측함.
  • KL 발산을 사용하여 학습한 분포가 데이터셋의 알려진 분포와 최대한 가깝도록 보장함.
  • 최종적으로 노이즈 예측 문제로 단순화함.

발전

3.1 빠른 생성

  • 초기 확산 모델의 주요 단점은 생성 속도였음.
  • 이후 많은 기술이 개발되어 생성 속도를 높였으며, 일부는 사전 학습된 모델에 바로 사용할 수 있고, 다른 일부는 새로운 모델을 학습해야 함.

스코어 매칭 및 빠른 샘플러

  • 확산 모델은 미분 방정식과 놀라운 연결을 가지고 있어, 이를 통해 많은 빠른 샘플러가 개발됨.
  • 노이즈 방향을 예측하는 것은 전방 과정의 로그 가능도의 그래디언트와 동일함.
  • 이는 스코어 기반 모델의 기초를 형성하며, 노이즈가 섞인 데이터셋의 스코어를 학습하고, 스코어 필드를 따라 새로운 샘플을 생성함.

GN⁺의 의견

  1. 확산 모델의 이해: 확산 모델은 이미지 생성뿐만 아니라 애니메이션, 비디오 생성, 3D 모델링, 단백질 구조 예측, 로봇 경로 계획 등 다양한 분야에 응용될 수 있음.
  2. 학습 과정의 복잡성: 확산 모델의 학습 과정은 복잡하지만, 이를 통해 매우 정교한 이미지를 생성할 수 있음.
  3. 빠른 생성 기술: 빠른 생성 기술은 확산 모델의 실용성을 크게 향상시킴.
  4. 스코어 기반 모델: 스코어 기반 모델은 확산 모델과 유사한 방식으로 작동하며, 샘플링 속도를 높이는 데 기여함.
  5. 기술 도입 시 고려 사항: 확산 모델을 도입할 때는 학습 시간과 계산 자원, 모델의 복잡성 등을 고려해야 함.

Hacker News 의견

  • 확산 모델이 점수 매칭 이론보다 먼저 나왔음을 알게 되었음. OpenAI가 2억 5천만 개의 이미지를 훈련할 때 이론적 설명이 부족했음에도 도전적인 시도였음.
  • 훈련 루프가 잘못된 것 같음. x0와 eps가 xt의 표현에 사용되지 않아 무작위 노이즈를 예측하는 것처럼 보임.
  • 확산 변환기를 위한 최고의 Apache 또는 MIT 라이선스 파이썬 라이브러리를 찾고 있음.
  • 공유해줘서 감사함. 확산 모델이 어떻게 작동하는지에 대한 통찰을 얻었음. 무작위성이 강력함. 이제 적절하지 않은 언어로 코딩해볼 시간임.
  • 댓글을 읽는 사람들에게 요약할 내용이 많지 않음. 이 게시물이 안정적 확산의 요약임.
  • 2022년에 그림을 배우다가 Stable Diffusion 같은 AI 예술 모델의 등장에 놀랐음. 컴퓨터가 자신보다 더 나은 예술가가 되었음. AI가 창의적 작업에 더 많이 침범할수록 이를 모두 없애고 싶어짐.