AI 학습용 텍스트 데이터 모음
(the-eye.eu)OpenAI의 GPT-3가 사용했던 데이터와 비슷한 자료들
- books3.tar.gz : 37GB, 약 197,000권의 책을 txt로 추출한 것
- github.tar.gz : 106G, 깃헙의 여러 repo 들을 모은 것
- stackexchange_dataset.tar : 34G, 스택익스체인지의 질답 자료들
그외 다양한 자료들 다수
OpenAI의 GPT-3가 사용했던 데이터와 비슷한 자료들
- books3.tar.gz : 37GB, 약 197,000권의 책을 txt로 추출한 것
- github.tar.gz : 106G, 깃헙의 여러 repo 들을 모은 것
- stackexchange_dataset.tar : 34G, 스택익스체인지의 질답 자료들
그외 다양한 자료들 다수