COYO-700M - 카카오브레인이 공개한 7억 4천만개 이미지-텍스트 쌍 데이터셋
(github.com/kakaobrain)- 약 7억 4천만 개의 이미지-텍스트 쌍과 그외 많은 속성을 포함하는 대규모 학습 데이터 세트
- HTML 문서에 있는 이미지와 alt 속성 (HTML에서 그림이 화면에 그려지지 못할 때 나타날 문자열)을 수집
- 다른 유사한 데이터 세트를 보완하여 대규모 기초 모델을 훈련하는데 사용될 것으로 기대
- ‘코요’는 앞서 공개한 초거대 AI 이미지 생성 모델 ‘RQ-Transformer’와 AI 아티스트 ‘칼로(Karlo)’ 개발에 적용되었음
- 데이터 수집 프로세스 상세 내용은 차후 공개될 논문에서 확인 가능