8P by xguru 25일전 | favorite | 댓글 1개
  • 약 7억 4천만 개의 이미지-텍스트 쌍과 그외 많은 속성을 포함하는 대규모 학습 데이터 세트
  • HTML 문서에 있는 이미지와 alt 속성 (HTML에서 그림이 화면에 그려지지 못할 때 나타날 문자열)을 수집
  • 다른 유사한 데이터 세트를 보완하여 대규모 기초 모델을 훈련하는데 사용될 것으로 기대
  • ‘코요’는 앞서 공개한 초거대 AI 이미지 생성 모델 ‘RQ-Transformer’와 AI 아티스트 ‘칼로(Karlo)’ 개발에 적용되었음
  • 데이터 수집 프로세스 상세 내용은 차후 공개될 논문에서 확인 가능
xguru 25일전  [-]

COYO-700M: Image-Text Pair Dataset
카카오브레인, 글로벌 최상위급 데이터셋 ‘코요’ 공개

답변달기