# DALL-E 2는 어떻게 동작하는가?

> Clean Markdown view of GeekNews topic #6410. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=6410](https://news.hada.io/topic?id=6410)
- GeekNews Markdown: [https://news.hada.io/topic/6410.md](https://news.hada.io/topic/6410.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2022-04-21T09:04:02+09:00
- Updated: 2022-04-21T09:04:02+09:00
- Original source: [assemblyai.com](https://www.assemblyai.com/blog/how-dall-e-2-actually-works/)
- Points: 5
- Comments: 1

## Topic Body

1. 텍스트와 시각적 의미(Semantics) 연결  
→ CLIP 모델 이용 : 수억개의 이미지와 관련 캡션을 학습하여 해당 캡션이 이미지와 얼마나 관련되어 있는지를 학습   
2. 시각적 의미로 부터 이미지 생성   
→ GLIDE 모델 이용 : 이미지 인코딩 프로세스를 반전 시키는 방법을 학습. 확산(Diffusion) 모델을 사용함   
3. 텍스트 의미에서 해당하는 시각적 의미로 매핑   
→ Prior 모델 이용 : 이미지 캡션의 텍스트 인코딩을 해당 이미지의 이미지 인코딩으로 매핑   
4. 모든 것을 통합   
→ CLIP 텍스트 인코더가 이미지 설명을 표현 공간에 매핑   
→ Diffusion Prior가 CLIP 텍스트 인코딩에서 관련된 CLIP 이미지 인코딩으로 매핑   
→ 수정된 GLIDE 생성 모델이 역확산을 이용해서 표현 공간에서 이미지 공간으로 매핑하고, 입력된 캡션내에서 의미 정보를 전달하는 수많은 가능 이미지를 생성   
  
### 중요한 3가지   
1. DALL-E 2 는 확산 모델의 힘을 보여줌   
2. 최첨단 딥러닝 모델을 훈련하기 위한 수단으로 자연어를 사용하는 것의 필요성과 그 힘을 강조   
3. 웹규모의 데이터 세트에서 훈련된 모델에 대해 Transformers 가 최고의 위치에 있음을 재 확인

## Comments


### Comment 9790

- Author: xguru
- Created: 2022-04-21T09:05:01+09:00
- Points: 1

[DALL·E 2 공개](https://news.hada.io/topic?id=6322)  
[DALL·E 로 해볼만한 것들](https://news.hada.io/topic?id=6366)