# RedPajama v2 - LLM 훈련을 위한 30조(30T)개의 토큰 데이터 셋

> Clean Markdown view of GeekNews topic #11748. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=11748](https://news.hada.io/topic?id=11748)
- GeekNews Markdown: [https://news.hada.io/topic/11748.md](https://news.hada.io/topic/11748.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2023-11-09T09:46:02+09:00
- Updated: 2023-11-09T09:46:02+09:00
- Original source: [together.ai](https://together.ai/blog/redpajama-data-v2)
- Points: 5
- Comments: 1

## Topic Body

- 1조개의 토큰이었던 RedPajama-1T 에 비해 훨씬 커진 규모   
- 84개의 CommonCrawl 덤프에서 100조 개 이상의 원시 토큰이 포함된 1,000억 개 이상의 텍스트 문서  
- 중복 제거된 30조 개의 토큰 하위 집합에 대해 사전 계산된 가장 널리 사용되는 40개 이상의 품질 주석 포함   
- 5개 언어: 5개 언어: 영어, 프랑스어, 스페인어, 독일어, 이탈리아어  
- 모든 데이터 처리 스크립트는 오픈 소스이며 GitHub에서 사용할 수 있으며, 모든 데이터는 HuggingFace에서 사용할 수 있음

## Comments



### Comment 20446

- Author: xguru
- Created: 2023-11-09T09:47:01+09:00
- Points: 1

[RedPajama - LLaMA 데이터셋을 재작성하는 오픈소스 프로젝트](https://news.hada.io/topic?id=8984)  
[RedPajama 3B, 7B 모델 공개](https://news.hada.io/topic?id=9124)  
[RedPajama, HELM 벤치마크에서 공개된 다른 7B LLM 모델보다 뛰어난 성능을 갖는 7B 모델 공개](https://news.hada.io/topic?id=9339)
