# RedPajama - LLaMA 데이터셋을 재작성하는 오픈소스 프로젝트

> Clean Markdown view of GeekNews topic #8984. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=8984](https://news.hada.io/topic?id=8984)
- GeekNews Markdown: [https://news.hada.io/topic/8984.md](https://news.hada.io/topic/8984.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2023-04-19T10:03:01+09:00
- Updated: 2023-04-19T10:03:01+09:00
- Original source: [together.xyz](https://www.together.xyz/blog/redpajama)
- Points: 14
- Comments: 1

## Topic Body

- LLaMA, Alpaca, Vicuna 같은 반개방형 모델이 아니라 재현가능하고 완전한 개방형 언어 모델을 만들기 위한 프로젝트   
- 3가지 구성요소  
  - 높은 품질과 넓은 커버리지를 가진 Pre-Training 데이터   
  - 이 데이터 기반으로 대규모로 학습된 베이스 모델   
  - 베이스 보델은 안전하고 사용가능하게 만들기 위한 인스트럭션 튜닝 데이터와 모델   
- 첫번째 컴포넌트로 RedPajama-Data-1T 데이터셋을 공개   
  - LLaMA 논문에 설명된 레시피에 따라서 생성한 1.2조개의 토큰으로 구성된 완전 개방형 데이터 셋   
  - HuggingFace를 통해 다운로드 가능. 전체 5TB(3TB로 압축하여 배포)  
  - 7개의 데이터 조각으로 구성 : 각각 전처리와 필터링하여 LLaMA 논문과 비슷한 갯수로 구성(전처리 방법 및 필터 역시 GitHub에 공개)  
    - CommonCrawl (878b) - 웹 크롤링 데이터   
    - C4 (175b) - Colossal, Cleaned version of Common Crawl  
    - GitHub (59b) - 라이센스와 품질로 필터링된 GitHub의 데이터   
    - arXiv (28b) - 과학 논문과 기사들 (boilerplate 제거)  
    - Books (26b) - 콘텐츠 유사성에 따라서 중복을 제거한 공개 서적 Corpus   
    - Wikipedia (24b) - 위키피디어의 일부 페이지들 (boilerplate 제거)  
    - StackExchange (20b) - 스택익스체인지의 일부 페이지들 (boilerplate 제거)  
- 다음 단계는 강력한 베이스모델을 훈련하는 것. 몇주내로 공개 예정   
- 명령어 튜닝은 OpenChatkit을 통해서 제공된 것으로 할 예정

## Comments


### Comment 15727

- Author: xguru
- Created: 2023-04-19T10:04:02+09:00
- Points: 1

[OpenChatKit 공개 - ChatGPT를 구현 가능한 오픈소스 프로젝트](https://news.hada.io/topic?id=8681)