# LAION-400M - 4억개짜리 이미지-텍스트 쌍 데이터셋

> Clean Markdown view of GeekNews topic #5016. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=5016](https://news.hada.io/topic?id=5016)
- GeekNews Markdown: [https://news.hada.io/topic/5016.md](https://news.hada.io/topic/5016.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2021-09-15T10:26:23+09:00
- Updated: 2021-09-15T10:26:23+09:00
- Original source: [laion.ai](https://laion.ai/laion-400-open-dataset/)
- Points: 12
- Comments: 0

## Topic Body

- 무료로 공개된 것 중 세계에서 제일 큰 이미지 데이터 셋

ㅤ→ 2014~2021년간의 웹 페이지 크롤링 데이터를 덤프

- 모든 이미지/텍스트는 OpenAI의 CLIP으로 필터링 완료

ㅤ→ 이미지/텍스트간 유사도 0.3 이하를 걸러낸 뒤 수작업 검증

- 데이터셋 구조

ㅤ→ 50GB URL+캡션 메타데이터 Parquet 파일

ㅤ→ 10TB 풀버전 웹데이터셋 256x256 이미지/캡션/메타데이터로 바로 학습에 사용 가능

ㅤ→ 1TB 400M개의 텍스트/이미지 클립 임베딩. KNN indices 리빌드에 유용

ㅤ→ 데이터셋 검색을 쉽게 해주는 2개의 4GB KNN indices

SAMPLE_ID | URL | TEXT | LICENSE | NSFW | similarity | WIDTH | HEIGHT

## Comments



_No public comments on this page._
