# COYO-700M - 카카오브레인이 공개한 7억 4천만개 이미지-텍스트 쌍 데이터셋

> Clean Markdown view of GeekNews topic #7302. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=7302](https://news.hada.io/topic?id=7302)
- GeekNews Markdown: [https://news.hada.io/topic/7302.md](https://news.hada.io/topic/7302.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2022-09-01T09:15:05+09:00
- Updated: 2022-09-01T09:15:05+09:00
- Original source: [github.com/kakaobrain](https://github.com/kakaobrain/coyo-dataset)
- Points: 8
- Comments: 1

## Topic Body

- 약 7억 4천만 개의 이미지-텍스트 쌍과 그외 많은 속성을 포함하는 대규모 학습 데이터 세트  
- HTML 문서에 있는 이미지와 alt 속성 (HTML에서 그림이 화면에 그려지지 못할 때 나타날 문자열)을 수집  
- 다른 유사한 데이터 세트를 보완하여 대규모 기초 모델을 훈련하는데 사용될 것으로 기대  
- ‘코요’는 앞서 공개한 초거대 AI 이미지 생성 모델 ‘RQ-Transformer’와 AI 아티스트 ‘칼로(Karlo)’ 개발에 적용되었음   
- 데이터 수집 프로세스 상세 내용은 차후 공개될 논문에서 확인 가능

## Comments


### Comment 12102

- Author: xguru
- Created: 2022-09-01T09:15:13+09:00
- Points: 1

[COYO-700M: Image-Text Pair Dataset](https://kakaobrain.com/contents?contentId=861c88b0-671d-4495-ac0c-1cd1d4bd6a0a)  
[카카오브레인, 글로벌 최상위급 데이터셋 ‘코요’ 공개](https://kakaobrain.com/contents/?contentId=667c6d5c-507c-4c2d-a3e5-dc227ee8c89c)