# AI 학습용 텍스트 데이터 모음

> Clean Markdown view of GeekNews topic #3087. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=3087](https://news.hada.io/topic?id=3087)
- GeekNews Markdown: [https://news.hada.io/topic/3087.md](https://news.hada.io/topic/3087.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2020-10-26T09:18:05+09:00
- Updated: 2020-10-26T09:18:05+09:00
- Original source: [the-eye.eu](https://the-eye.eu/public/AI/pile_preliminary_components/)
- Points: 15
- Comments: 2

## Topic Body

OpenAI의 GPT-3가 사용했던 데이터와 비슷한 자료들

- books3.tar.gz : 37GB, 약 197,000권의 책을 txt로 추출한 것

- github.tar.gz : 106G, 깃헙의 여러 repo 들을 모은 것

- stackexchange_dataset.tar : 34G, 스택익스체인지의 질답 자료들

그외 다양한 자료들 다수

## Comments



### Comment 3307

- Author: ffdd270
- Created: 2020-10-27T01:02:56+09:00
- Points: 1

조금 뜬금 없지만, 저런 학습용 아카이브와 아카이브들을 보면 디지털 세상에서는 잊힐 자유는 없다는 걸 세삼스래 꺠닫게 되는 것 같습니다.

### Comment 3299

- Author: xguru
- Created: 2020-10-26T09:18:07+09:00
- Points: 1

이 자료에 대한 설명은 아래 트위터 쓰레드 참조

https://threadreaderapp.com/thread/1320282149329784833.html
