# The General Index - 백만개 저널의 n-gram 인덱스를 무료로 공개

> Clean Markdown view of GeekNews topic #5268. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=5268](https://news.hada.io/topic?id=5268)
- GeekNews Markdown: [https://news.hada.io/topic/5268.md](https://news.hada.io/topic/5268.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2021-10-28T09:04:01+09:00
- Updated: 2021-10-28T09:04:01+09:00
- Original source: [archive.org](https://archive.org/details/GeneralIndex)
- Points: 13
- Comments: 1

## Topic Body

- 연구자 Carl Malamud가 유료 논문을 포함한 107,233,728개의 저널에서 SpaCy로 추출한 n-gram 인덱스를 공개

- 전체 텍스트가 아닌 1단어부터 최대 5단어 길이의 문장 스니펫만 포함한 인덱스라서 저작권 제한을 회피

- 다양한 연구 분야에 사용할 수 있게 웹 아카이브에 무료로 공개

ㅤ→ 예) 특정 화학 물질이 논문에 몇 번이나 사용되었는가

- 3개의 테이블로 구성

ㅤ→ 3500억 개의 n-gram 과 저널 id

ㅤ→ 197억 개의 키워드 와 저널 id

ㅤ→ 저널 id 와 메타 데이터 : 논문제목, 저자, DOI(논문 고유 식별 번호)

- 카탈로그는 5TB의 압축파일로 해제시 38TB

## Comments



### Comment 7380

- Author: xguru
- Created: 2021-10-28T09:05:01+09:00
- Points: 2

네이처의 소개 기사

- Giant, free index to world’s research papers released online https://www.nature.com/articles/d41586-021-02895-8

실제 전문이 아닌 인덱스만 공개함으로써 저작권 문제를 독특하게 회피한거네요

네이처 기사에도 있지만, 인덱스 생성한 Carl이 어떻게 원래 유료 페이퍼를 입수했는지만 문제가 되고 이 인덱스 자체를 연구에 활용하는 것은 문제가 안될 듯 합니다.

이거 보고 Aaron Swartz가 생각났는데.. 자료 하단에 명시도 되어있네요

실제로 Carl Malamud가 Aaron Swartz Memorial 에서 연설한 영상도 같이 보세요

- https://www.youtube.com/watch?v=VllJDnMcTzM
