DALL·E : 텍스트에서 이미지 생성하기
(openai.com)- 120억개 파라미터 버전의 GPT-3
- 텍스트-이미지 쌍으로 된 데이터 셋을 이용해서 텍스트 설명으로 부터 이미지를 생성하도록 훈련시킨 것
- 동물과 물체의 의인화된 버전을 만들거나, 관련없는 개념을 그럴듯하게 결합하거나, 텍스트 렌더링 또는 기존 이미지에 변형을 가하는 등 다양한 기능을 보여줌
ㅤ→ 속성 제어 : 형태, 색상, 재질, 나오는 횟수등
ㅤ→ 여러개의 객체 동시 그리기 및 관계를 표현
ㅤ→ 원근감 표현 및 3차원 시각화
ㅤ→ 내부 외부의 구조 표현 : 호두 내부, 뇌산호 등
ㅤ→ 상황별 세부 정보를 추론 : 상황에 맞는 그림자 표시 처럼 스타일/설정/시간을 바꿔서 표현
ㅤ→ 패션 및 인테리어 디자인
ㅤ→ 전혀 관련 없는 개념들을 조합 : 하프로 만들어진 달팽이, 아보카도 모양 의자
ㅤ→ Zero-shot visual reasoning
ㅤ→ 지리/시간정보에 기반한 이미지 생성
- DALL·E 는 텍스트 256, 이미지 1024개의 토큰을 단일 스트림으로 받아서 자동회귀방식으로 모델링하는 간단한 Decoder-only transformer