생성 모델링
- 생성 모델링의 기본 문제는 알려지지 않은 분포 x∼p(x)에서 샘플 집합을 주어졌을 때, 그 분포에서 새로운 샘플을 생성하는 것임.
1.1 노이즈 제거 확산 모델
- 데이터 포인트를 정상 분포로 결정론적으로 매핑하는 대신, 무작위 노이즈를 섞어 포인트를 확률적으로 매핑하는 방법을 사용함.
- 이 방법은 처음에는 이상하게 보일 수 있지만, 여러 단계에 걸쳐 깨끗한 데이터 포인트에 소량의 노이즈를 섞어 순수한 노이즈처럼 보이게 함.
- 각 단계에서 노이즈가 섞인 데이터 포인트를 보면 이전 단계에서 데이터 포인트가 어디에 있었는지 대략적으로 알 수 있음.
- 이 과정을 역으로 학습하면 p(x) 분포에서 샘플을 생성할 수 있음.
- 이는 물리적 확산 과정과 유사함.
DDP 모델
- DDP 모델은 노이즈 제거 확산 확률 모델(Denoising Diffusion Probabilistic Models)의 약자임.
- 새로운 발전은 이 논문의 언어와 수학을 기반으로 함.
2.1 노이즈 추가 및 제거
- 입력 이미지 x0를 단위 정상 분포의 포인트로 매핑하기 위해 t=1,2,…,T 시간 단계에 걸쳐 노이즈를 점진적으로 추가하는 전방 확산 과정을 사용함.
- 각 시간 단계는 이전 이미지에 소량의 무작위 노이즈를 섞어 새로운 이미지를 생성함.
- 이 과정은 반복적 성질을 가지며, 각 단계는 이전 시간 단계에만 의존하고, 추가된 노이즈는 이전 노이즈 샘플과 독립적임.
- 역과정을 학습하여 노이즈가 섞인 이미지 xt에서 이전 단계의 덜 노이즈가 섞인 버전 xt-1의 분포를 예측함.
2.2 노이즈 제거 학습
- q(xt−1∣xt)는 매우 적은 양의 노이즈에 대해 대략적으로 가우시안임.
- 이는 통계 물리학의 오래된 결과임.
- 이를 통해 역 분포를 학습할 수 있음.
- KL 발산을 사용하여 모든 훈련 예제 x0에 대해 q(xt−1∣xt,x0)와 pθ(xt−1∣xt) 간의 차이를 최소화함.
- 최종 손실 함수는 노이즈 예측 문제로 단순화됨.
2.3 샘플링
- 노이즈 추정 모델 ϵθ(xt,t)를 학습한 후, 이를 사용하여 이미지 x0를 샘플링할 수 있음.
- 순수 노이즈 이미지 xT∼N(0,I)를 샘플링하고, T에서 1까지의 시간 단계에 대해 노이즈를 예측하고, 예측된 노이즈를 사용하여 노이즈가 제거된 이미지를 샘플링함.
2.4 요약 및 예제
- 이미지 데이터셋의 기본 분포를 학습하고, 전방 노이즈 추가 과정을 정의하여 이미지 x0를 순수 노이즈 xT로 점진적으로 변환함.
- 역 과정을 학습하여 xt에서 xt-1의 분포를 예측함.
- KL 발산을 사용하여 학습한 분포가 데이터셋의 알려진 분포와 최대한 가깝도록 보장함.
- 최종적으로 노이즈 예측 문제로 단순화함.
발전
3.1 빠른 생성
- 초기 확산 모델의 주요 단점은 생성 속도였음.
- 이후 많은 기술이 개발되어 생성 속도를 높였으며, 일부는 사전 학습된 모델에 바로 사용할 수 있고, 다른 일부는 새로운 모델을 학습해야 함.
스코어 매칭 및 빠른 샘플러
- 확산 모델은 미분 방정식과 놀라운 연결을 가지고 있어, 이를 통해 많은 빠른 샘플러가 개발됨.
- 노이즈 방향을 예측하는 것은 전방 과정의 로그 가능도의 그래디언트와 동일함.
- 이는 스코어 기반 모델의 기초를 형성하며, 노이즈가 섞인 데이터셋의 스코어를 학습하고, 스코어 필드를 따라 새로운 샘플을 생성함.
GN⁺의 의견
-
확산 모델의 이해: 확산 모델은 이미지 생성뿐만 아니라 애니메이션, 비디오 생성, 3D 모델링, 단백질 구조 예측, 로봇 경로 계획 등 다양한 분야에 응용될 수 있음.
-
학습 과정의 복잡성: 확산 모델의 학습 과정은 복잡하지만, 이를 통해 매우 정교한 이미지를 생성할 수 있음.
-
빠른 생성 기술: 빠른 생성 기술은 확산 모델의 실용성을 크게 향상시킴.
-
스코어 기반 모델: 스코어 기반 모델은 확산 모델과 유사한 방식으로 작동하며, 샘플링 속도를 높이는 데 기여함.
-
기술 도입 시 고려 사항: 확산 모델을 도입할 때는 학습 시간과 계산 자원, 모델의 복잡성 등을 고려해야 함.