GN⁺: Anna's Archive, LLM 회사들에게 세계 최대 중국어 논픽션 도서 컬렉션의 전용 액세스 권한 제공
(annas-blog.org)- Anna's Archive 는 익명의 행동가들이 운영하는 비영리 온라인 섀도우 라이브러리 메타 검색 엔진. 다양한 도서 자원에 대한 접근을 제공
- 이들이 750만권 / 350TB에 이르는 중국어 넌픽션 도서 컬렉션을 취득함(Library Genesis보다도 많음)
- 이 컬렉션에 대해 고품질 OCR 및 텍스트 추출을 제공 해주는 것에 대한 대가로, 그 LLM 회사에게 독점 조기 억세스를 1년간 제공할 예정
- 이 컬렉션은 SuperStar Digital Library Group이 만든 대규모 스캔된 책의 데이터베이스인 Duxiu에서 얻어졌으며, 대학과 도서관에 디지털로 제공되던 것들
- 컬렉션의 총 파일 크기는 현재 형태로 약 359TB
- 추출된 텍스트는 대형 언어 모델(LLMs)의 훈련에 사용되며, Archive는 컬렉션이 중국어임에도 불구하고 영어 LLMs 훈련에 유용할 수 있다고 믿음
- Archive는 이 협력을 통해 사용자들에게 전문 검색 기능을 제공하고자 함
- 협력하는 당사자가 파이프라인의 전체 코드를 공유할 의향이 있다면, Archive는 독점적 접근 기간을 연장하는 것에 개방적임
Hacker News 의견
- 2015년 경에 시작된 것으로 추정되는 이 컬렉션은 약 400만 권의 책을 포함하고 있으며, 이 중 많은 것들이 중복되어 있다.
- 컬렉션의 출처는 DuXiu라는 회사로, 2000년대 초부터 중국의 도서관들과 협력하여 그들의 컬렉션을 스캔하였다.
- 이 컬렉션에는 번역된 서양 교과서, 정치적 선전, 그리고 극도의 검열 이전에 출판된 문학 및 역사 서적이 혼합되어 있다.
- 중국의 기술 회사들은 이 컬렉션에 접근할 수 있지만, 저작권 및 정치적 위험 때문에 사용하지 않을 수도 있다.
- 사이트를 운영하는 사람은 똑똑하지만 경솔하다고 여겨지며, 잠재적인 법적 책임에 대한 우려가 제기되었다.
- DuXiu는 자원으로서 매우 칭찬받고 있으며, 1년 내에 완전히 검색 가능해질 것에 대한 기대감이 있다.
- 중국의 모든 책들이 중앙집중화되는 것은 AI 훈련에 유리하다고 여겨진다.
- 이 컬렉션은 books3보다 40배 크다는 점이 저작권 및 영어권 외의 학문 연구 가능성에 대한 질문을 제기한다.
- 정보 밀도가 높은 중국어에서의 토큰화 효율성에 대한 추측이 있다.
- Language Models (LLMs)가 언어와 질의 언어에 관계없이 지식을 인코딩할 수 있는지에 대한 질문이 제기되었다.
- 큰 중국 기업이 이 컬렉션을 경쟁하기 위해 OpenAI를 제치고 입찰할 수 있다는 기대감이 있다.
- LLMs는 인터페이스 역할을 하여 중국어 정보 접근을 용이하게 할 수 있다.
- 중국 문화에서의 복사에 대한 반응은 다르게 여겨지며, 종종 이를 존경의 형태로 보는 경향이 있다.