Diffusion Models - 확산 모델

(andrewkchan.dev)

4P by GN⁺ 2024-05-27 | ★ favorite | 댓글 1개

생성 모델링

생성 모델링의 기본 문제는 알려지지 않은 분포 x∼p(x)에서 샘플 집합을 주어졌을 때, 그 분포에서 새로운 샘플을 생성하는 것임.

1.1 노이즈 제거 확산 모델

데이터 포인트를 정상 분포로 결정론적으로 매핑하는 대신, 무작위 노이즈를 섞어 포인트를 확률적으로 매핑하는 방법을 사용함.
이 방법은 처음에는 이상하게 보일 수 있지만, 여러 단계에 걸쳐 깨끗한 데이터 포인트에 소량의 노이즈를 섞어 순수한 노이즈처럼 보이게 함.
각 단계에서 노이즈가 섞인 데이터 포인트를 보면 이전 단계에서 데이터 포인트가 어디에 있었는지 대략적으로 알 수 있음.
이 과정을 역으로 학습하면 p(x) 분포에서 샘플을 생성할 수 있음.
이는 물리적 확산 과정과 유사함.

DDP 모델

DDP 모델은 노이즈 제거 확산 확률 모델(Denoising Diffusion Probabilistic Models)의 약자임.
새로운 발전은 이 논문의 언어와 수학을 기반으로 함.

2.1 노이즈 추가 및 제거

입력 이미지 x0를 단위 정상 분포의 포인트로 매핑하기 위해 t=1,2,…,T 시간 단계에 걸쳐 노이즈를 점진적으로 추가하는 전방 확산 과정을 사용함.
각 시간 단계는 이전 이미지에 소량의 무작위 노이즈를 섞어 새로운 이미지를 생성함.
이 과정은 반복적 성질을 가지며, 각 단계는 이전 시간 단계에만 의존하고, 추가된 노이즈는 이전 노이즈 샘플과 독립적임.
역과정을 학습하여 노이즈가 섞인 이미지 xt에서 이전 단계의 덜 노이즈가 섞인 버전 xt-1의 분포를 예측함.

2.2 노이즈 제거 학습

q(xt−1∣xt)는 매우 적은 양의 노이즈에 대해 대략적으로 가우시안임.
이는 통계 물리학의 오래된 결과임.
이를 통해 역 분포를 학습할 수 있음.
KL 발산을 사용하여 모든 훈련 예제 x0에 대해 q(xt−1∣xt,x0)와 pθ(xt−1∣xt) 간의 차이를 최소화함.
최종 손실 함수는 노이즈 예측 문제로 단순화됨.

2.3 샘플링

노이즈 추정 모델 ϵθ(xt,t)를 학습한 후, 이를 사용하여 이미지 x0를 샘플링할 수 있음.
순수 노이즈 이미지 xT∼N(0,I)를 샘플링하고, T에서 1까지의 시간 단계에 대해 노이즈를 예측하고, 예측된 노이즈를 사용하여 노이즈가 제거된 이미지를 샘플링함.

2.4 요약 및 예제

이미지 데이터셋의 기본 분포를 학습하고, 전방 노이즈 추가 과정을 정의하여 이미지 x0를 순수 노이즈 xT로 점진적으로 변환함.
역 과정을 학습하여 xt에서 xt-1의 분포를 예측함.
KL 발산을 사용하여 학습한 분포가 데이터셋의 알려진 분포와 최대한 가깝도록 보장함.
최종적으로 노이즈 예측 문제로 단순화함.

발전

3.1 빠른 생성

초기 확산 모델의 주요 단점은 생성 속도였음.
이후 많은 기술이 개발되어 생성 속도를 높였으며, 일부는 사전 학습된 모델에 바로 사용할 수 있고, 다른 일부는 새로운 모델을 학습해야 함.

스코어 매칭 및 빠른 샘플러

확산 모델은 미분 방정식과 놀라운 연결을 가지고 있어, 이를 통해 많은 빠른 샘플러가 개발됨.
노이즈 방향을 예측하는 것은 전방 과정의 로그 가능도의 그래디언트와 동일함.
이는 스코어 기반 모델의 기초를 형성하며, 노이즈가 섞인 데이터셋의 스코어를 학습하고, 스코어 필드를 따라 새로운 샘플을 생성함.

GN⁺의 의견

확산 모델의 이해: 확산 모델은 이미지 생성뿐만 아니라 애니메이션, 비디오 생성, 3D 모델링, 단백질 구조 예측, 로봇 경로 계획 등 다양한 분야에 응용될 수 있음.
학습 과정의 복잡성: 확산 모델의 학습 과정은 복잡하지만, 이를 통해 매우 정교한 이미지를 생성할 수 있음.
빠른 생성 기술: 빠른 생성 기술은 확산 모델의 실용성을 크게 향상시킴.
스코어 기반 모델: 스코어 기반 모델은 확산 모델과 유사한 방식으로 작동하며, 샘플링 속도를 높이는 데 기여함.
기술 도입 시 고려 사항: 확산 모델을 도입할 때는 학습 시간과 계산 자원, 모델의 복잡성 등을 고려해야 함.

GN⁺ 2024-05-27 [-]

Hacker News 의견

확산 모델이 점수 매칭 이론보다 먼저 나왔음을 알게 되었음. OpenAI가 2억 5천만 개의 이미지를 훈련할 때 이론적 설명이 부족했음에도 도전적인 시도였음.
훈련 루프가 잘못된 것 같음. x0와 eps가 xt의 표현에 사용되지 않아 무작위 노이즈를 예측하는 것처럼 보임.
확산 변환기를 위한 최고의 Apache 또는 MIT 라이선스 파이썬 라이브러리를 찾고 있음.
공유해줘서 감사함. 확산 모델이 어떻게 작동하는지에 대한 통찰을 얻었음. 무작위성이 강력함. 이제 적절하지 않은 언어로 코딩해볼 시간임.
댓글을 읽는 사람들에게 요약할 내용이 많지 않음. 이 게시물이 안정적 확산의 요약임.
2022년에 그림을 배우다가 Stable Diffusion 같은 AI 예술 모델의 등장에 놀랐음. 컴퓨터가 자신보다 더 나은 예술가가 되었음. AI가 창의적 작업에 더 많이 침범할수록 이를 모두 없애고 싶어짐.