5P by xguru 2023-11-09 | favorite | 댓글 1개
  • 1조개의 토큰이었던 RedPajama-1T 에 비해 훨씬 커진 규모
  • 84개의 CommonCrawl 덤프에서 100조 개 이상의 원시 토큰이 포함된 1,000억 개 이상의 텍스트 문서
  • 중복 제거된 30조 개의 토큰 하위 집합에 대해 사전 계산된 가장 널리 사용되는 40개 이상의 품질 주석 포함
  • 5개 언어: 5개 언어: 영어, 프랑스어, 스페인어, 독일어, 이탈리아어
  • 모든 데이터 처리 스크립트는 오픈 소스이며 GitHub에서 사용할 수 있으며, 모든 데이터는 HuggingFace에서 사용할 수 있음