The Pile, 825기가바이트 규모의 다양한 오픈소스 언어 모델링 데이터 세트 (2020)

(pile.eleuther.ai)

1P by GN⁺ 2024-03-09 | ★ favorite | 댓글과 토론

The Pile: 언어 모델링을 위한 다양한 텍스트의 800GB 데이터셋

The Pile은 22개의 작고 고품질 데이터셋을 결합하여 만든 825 GiB 규모의 다양한 오픈 소스 언어 모델링 데이터셋임.
이 데이터셋은 Eye라는 기관에 의해 호스팅되며, jsonlines 데이터 형식으로 zstandard를 사용하여 압축됨.
The Pile을 사용하거나 평가하는 모델이 있다면 개발자에게 알릴 것을 요청함.

The Pile을 훈련 세트로 사용하는 이유

최근의 연구에 따르면, 특히 큰 모델의 경우, 데이터 소스의 다양성이 모델의 일반적인 교차 도메인 지식과 하류 일반화 능력을 향상시킴.
평가 결과, The Pile에서 훈련된 모델은 전통적인 언어 모델링 벤치마크에서 중간 정도의 개선을 보이며, Pile BPB에서는 상당한 개선을 보임.

The Pile을 벤치마크로 사용하는 이유

Pile BPB (bits per byte)에서 좋은 점수를 얻으려면, 모델은 책, GitHub 저장소, 웹페이지, 채팅 로그, 의학, 물리학, 수학, 컴퓨터 과학, 철학 논문 등 다양한 도메인을 이해할 수 있어야 함.
Pile BPB는 이러한 도메인에서의 세계 지식과 추론 능력을 측정하는 지표로, 큰 언어 모델의 일반적인 교차 도메인 텍스트 모델링 능력에 대한 강력한 벤치마크임.

인용

The Pile 또는 그 구성 요소를 사용하는 경우, 다음과 같이 인용할 것을 요청함.

@article{pile,
  title={The {P}ile: An 800GB Dataset of Diverse Text for Language Modeling},
  author={Gao, Leo and Biderman, Stella and Black, Sid and Golding, Laurence and Hoppe, Travis and Foster, Charles and Phang, Jason and He, Horace and Thite, Anish and Nabeshima, Noa and Presser, Shawn and Leahy, Connor},
  journal={arXiv preprint arXiv:2101.00027},
  year={2020}
}

리더보드

리더보드는 테스트 세트와의 중복 가능성을 나타내며, Zero-shot은 Pile의 모든 구성 요소가 훈련 데이터에 포함되지 않았음을 의미함.
GPT-3 (Zero-Shot)*와 GPT-2 (Zero-Shot)*가 각각 0.7177과 1.225의 Test BPB로 OpenAI에 의해 2021년 1월 1일에 순위가 매겨짐.
평가 코드는 EleutherAI 2021에 의해 제공됨.

GN⁺의 의견

The Pile 데이터셋은 언어 모델의 훈련과 벤치마킹에 있어서 데이터의 다양성이 중요하다는 최신 연구 결과를 반영함. 이는 언어 모델이 실제 세계의 다양한 텍스트를 이해하고 처리할 수 있도록 하는 데 기여함.
데이터셋의 크기와 다양성은 모델이 더 넓은 범위의 지식을 학습하고, 더 나은 일반화 능력을 갖출 수 있도록 함. 이는 특히 인공 지능 분야에서 중요한 진보로 볼 수 있음.
그러나 이러한 대규모 데이터셋을 효과적으로 활용하기 위해서는 상당한 컴퓨팅 자원이 필요하며, 이는 비용과 환경적 영향을 고려해야 하는 문제를 제기함.
비슷한 기능을 제공하는 다른 프로젝트로는 OpenAI의 GPT-3와 같은 대규모 언어 모델이 있으며, 이들 역시 다양한 데이터 소스로부터 학습함.
The Pile을 사용하기 전에는 데이터의 출처와 품질, 그리고 모델이 학습할 내용에 대한 충분한 이해가 필요함. 이 데이터셋을 선택함으로써 얻을 수 있는 이점은 모델의 다양한 지식 습득이지만, 데이터 처리와 저장에 대한 비용도 고려해야 함.