13P by xguru 2021-10-28 | favorite | 댓글 1개

- 연구자 Carl Malamud가 유료 논문을 포함한 107,233,728개의 저널에서 SpaCy로 추출한 n-gram 인덱스를 공개
- 전체 텍스트가 아닌 1단어부터 최대 5단어 길이의 문장 스니펫만 포함한 인덱스라서 저작권 제한을 회피
- 다양한 연구 분야에 사용할 수 있게 웹 아카이브에 무료로 공개
ㅤ→ 예) 특정 화학 물질이 논문에 몇 번이나 사용되었는가
- 3개의 테이블로 구성
ㅤ→ 3500억 개의 n-gram 과 저널 id
ㅤ→ 197억 개의 키워드 와 저널 id
ㅤ→ 저널 id 와 메타 데이터 : 논문제목, 저자, DOI(논문 고유 식별 번호)
- 카탈로그는 5TB의 압축파일로 해제시 38TB

네이처의 소개 기사
- Giant, free index to world’s research papers released online https://www.nature.com/articles/d41586-021-02895-8

실제 전문이 아닌 인덱스만 공개함으로써 저작권 문제를 독특하게 회피한거네요
네이처 기사에도 있지만, 인덱스 생성한 Carl이 어떻게 원래 유료 페이퍼를 입수했는지만 문제가 되고 이 인덱스 자체를 연구에 활용하는 것은 문제가 안될 듯 합니다.

이거 보고 Aaron Swartz가 생각났는데.. 자료 하단에 명시도 되어있네요
실제로 Carl Malamud가 Aaron Swartz Memorial 에서 연설한 영상도 같이 보세요
- https://www.youtube.com/watch?v=VllJDnMcTzM