AI 학습용 텍스트 데이터 모음
(the-eye.eu)OpenAI의 GPT-3가 사용했던 데이터와 비슷한 자료들
- books3.tar.gz : 37GB, 약 197,000권의 책을 txt로 추출한 것
- github.tar.gz : 106G, 깃헙의 여러 repo 들을 모은 것
- stackexchange_dataset.tar : 34G, 스택익스체인지의 질답 자료들
그외 다양한 자료들 다수
조금 뜬금 없지만, 저런 학습용 아카이브와 아카이브들을 보면 디지털 세상에서는 잊힐 자유는 없다는 걸 세삼스래 꺠닫게 되는 것 같습니다.
이 자료에 대한 설명은 아래 트위터 쓰레드 참조
https://threadreaderapp.com/thread/1320282149329784833.html