DALL-E 2는 어떻게 동작하는가?

(assemblyai.com)

텍스트와 시각적 의미(Semantics) 연결
→ CLIP 모델 이용 : 수억개의 이미지와 관련 캡션을 학습하여 해당 캡션이 이미지와 얼마나 관련되어 있는지를 학습
시각적 의미로 부터 이미지 생성
→ GLIDE 모델 이용 : 이미지 인코딩 프로세스를 반전 시키는 방법을 학습. 확산(Diffusion) 모델을 사용함
텍스트 의미에서 해당하는 시각적 의미로 매핑
→ Prior 모델 이용 : 이미지 캡션의 텍스트 인코딩을 해당 이미지의 이미지 인코딩으로 매핑
모든 것을 통합
→ CLIP 텍스트 인코더가 이미지 설명을 표현 공간에 매핑
→ Diffusion Prior가 CLIP 텍스트 인코딩에서 관련된 CLIP 이미지 인코딩으로 매핑
→ 수정된 GLIDE 생성 모델이 역확산을 이용해서 표현 공간에서 이미지 공간으로 매핑하고, 입력된 캡션내에서 의미 정보를 전달하는 수많은 가능 이미지를 생성

중요한 3가지