# AI2 Dolma: 언어모델을 위한 3T 토큰 오픈 코퍼스

> Clean Markdown view of GeekNews topic #10539. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=10539](https://news.hada.io/topic?id=10539)
- GeekNews Markdown: [https://news.hada.io/topic/10539.md](https://news.hada.io/topic/10539.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2023-08-25T10:32:01+09:00
- Updated: 2023-08-25T10:32:01+09:00
- Original source: [blog.allenai.org](https://blog.allenai.org/dolma-3-trillion-tokens-open-llm-corpus-9a0ff4b8da64)
- Points: 6
- Comments: 0

## Topic Body

- Allen Institute for AI 가 만드는 데이터셋   
- 웹 콘텐츠, 학술 간행물, 코드, 서적 및 백과사전 자료의 믹스   
- 3조(Trillion)개로 현재까지 공개된 것중 가장 큰 규모의 데이터 셋   
- HuggingFace 허브에서 다운로드 가능   
- AI2 ImpACT 라이센스(Artifact의 Risk에 따라 Low/Medium/High로 구분)

## Comments



_No public comments on this page._
