- 텍스트와 시각적 의미(Semantics) 연결
→ CLIP 모델 이용 : 수억개의 이미지와 관련 캡션을 학습하여 해당 캡션이 이미지와 얼마나 관련되어 있는지를 학습
- 시각적 의미로 부터 이미지 생성
→ GLIDE 모델 이용 : 이미지 인코딩 프로세스를 반전 시키는 방법을 학습. 확산(Diffusion) 모델을 사용함
- 텍스트 의미에서 해당하는 시각적 의미로 매핑
→ Prior 모델 이용 : 이미지 캡션의 텍스트 인코딩을 해당 이미지의 이미지 인코딩으로 매핑
- 모든 것을 통합
→ CLIP 텍스트 인코더가 이미지 설명을 표현 공간에 매핑
→ Diffusion Prior가 CLIP 텍스트 인코딩에서 관련된 CLIP 이미지 인코딩으로 매핑
→ 수정된 GLIDE 생성 모델이 역확산을 이용해서 표현 공간에서 이미지 공간으로 매핑하고, 입력된 캡션내에서 의미 정보를 전달하는 수많은 가능 이미지를 생성
중요한 3가지
- DALL-E 2 는 확산 모델의 힘을 보여줌
- 최첨단 딥러닝 모델을 훈련하기 위한 수단으로 자연어를 사용하는 것의 필요성과 그 힘을 강조
- 웹규모의 데이터 세트에서 훈련된 모델에 대해 Transformers 가 최고의 위치에 있음을 재 확인