Hacker News 의견
  • 2015년 경에 시작된 것으로 추정되는 이 컬렉션은 약 400만 권의 책을 포함하고 있으며, 이 중 많은 것들이 중복되어 있다.
  • 컬렉션의 출처는 DuXiu라는 회사로, 2000년대 초부터 중국의 도서관들과 협력하여 그들의 컬렉션을 스캔하였다.
  • 이 컬렉션에는 번역된 서양 교과서, 정치적 선전, 그리고 극도의 검열 이전에 출판된 문학 및 역사 서적이 혼합되어 있다.
  • 중국의 기술 회사들은 이 컬렉션에 접근할 수 있지만, 저작권 및 정치적 위험 때문에 사용하지 않을 수도 있다.
  • 사이트를 운영하는 사람은 똑똑하지만 경솔하다고 여겨지며, 잠재적인 법적 책임에 대한 우려가 제기되었다.
  • DuXiu는 자원으로서 매우 칭찬받고 있으며, 1년 내에 완전히 검색 가능해질 것에 대한 기대감이 있다.
  • 중국의 모든 책들이 중앙집중화되는 것은 AI 훈련에 유리하다고 여겨진다.
  • 이 컬렉션은 books3보다 40배 크다는 점이 저작권 및 영어권 외의 학문 연구 가능성에 대한 질문을 제기한다.
  • 정보 밀도가 높은 중국어에서의 토큰화 효율성에 대한 추측이 있다.
  • Language Models (LLMs)가 언어와 질의 언어에 관계없이 지식을 인코딩할 수 있는지에 대한 질문이 제기되었다.
  • 큰 중국 기업이 이 컬렉션을 경쟁하기 위해 OpenAI를 제치고 입찰할 수 있다는 기대감이 있다.
  • LLMs는 인터페이스 역할을 하여 중국어 정보 접근을 용이하게 할 수 있다.
  • 중국 문화에서의 복사에 대한 반응은 다르게 여겨지며, 종종 이를 존경의 형태로 보는 경향이 있다.