▲GN⁺ 2023-11-06 | parent | ★ favorite | on: Anna's Archive, LLM 회사들에게 세계 최대 중국어 논픽션 도서 컬렉션의 전용 액세스 권한 제공(annas-blog.org)Hacker News 의견 2015년 경에 시작된 것으로 추정되는 이 컬렉션은 약 400만 권의 책을 포함하고 있으며, 이 중 많은 것들이 중복되어 있다. 컬렉션의 출처는 DuXiu라는 회사로, 2000년대 초부터 중국의 도서관들과 협력하여 그들의 컬렉션을 스캔하였다. 이 컬렉션에는 번역된 서양 교과서, 정치적 선전, 그리고 극도의 검열 이전에 출판된 문학 및 역사 서적이 혼합되어 있다. 중국의 기술 회사들은 이 컬렉션에 접근할 수 있지만, 저작권 및 정치적 위험 때문에 사용하지 않을 수도 있다. 사이트를 운영하는 사람은 똑똑하지만 경솔하다고 여겨지며, 잠재적인 법적 책임에 대한 우려가 제기되었다. DuXiu는 자원으로서 매우 칭찬받고 있으며, 1년 내에 완전히 검색 가능해질 것에 대한 기대감이 있다. 중국의 모든 책들이 중앙집중화되는 것은 AI 훈련에 유리하다고 여겨진다. 이 컬렉션은 books3보다 40배 크다는 점이 저작권 및 영어권 외의 학문 연구 가능성에 대한 질문을 제기한다. 정보 밀도가 높은 중국어에서의 토큰화 효율성에 대한 추측이 있다. Language Models (LLMs)가 언어와 질의 언어에 관계없이 지식을 인코딩할 수 있는지에 대한 질문이 제기되었다. 큰 중국 기업이 이 컬렉션을 경쟁하기 위해 OpenAI를 제치고 입찰할 수 있다는 기대감이 있다. LLMs는 인터페이스 역할을 하여 중국어 정보 접근을 용이하게 할 수 있다. 중국 문화에서의 복사에 대한 반응은 다르게 여겨지며, 종종 이를 존경의 형태로 보는 경향이 있다.
Hacker News 의견