Google Books 또는 유사한 전체 도서 스캔에 20만 달러 보상금 제시(2025)

(software.annas-archive.gl)

1P by GN⁺ 3시간전 | ★ favorite | 댓글 1개

Anna’s Archive가 Google Books 전체 도서 스캔 또는 비슷한 규모의 컬렉션 확보에 20만 달러 보상금을 걸었음
현재 Google Books 접근은 검색 결과 주변의 작은 스니펫 중심이라, 전체 스캔 확보가 아카이브 관점에서 핵심 과제로 다뤄짐
확장 가능한 방법을 찾았다면 완성본을 기다리지 말고 프로토타입 단계에서 연락하라고 안내함
Google 내부 접근권한이 있는 사람도 대상이며, 이미지 없이 OCR 텍스트만 확보해도 보상금의 절반을 지급할 수 있음
대상은 Google Books에만 묶이지 않고, AI 기업 등이 모은 희귀 도서 포함 대규모 컬렉션에도 적용됨

보상금 대상과 참여 조건

Anna’s Archive는 Google Books 또는 유사한 전체 도서 스캔 확보에 $200,000 보상금을 제시함
작업 전에는 Anna’s Archive의 bounties 안내를 주의 깊게 읽어야 함
Google Books는 많은 스캔 도서를 보유하지만, 검색으로 접근할 때 결과 주변의 작은 스니펫만 보이는 상태임
확장 가능성이 있는 방법을 찾았다면 완성본까지 기다리지 말고 프로토타입으로 일찍 연락하라고 안내함
- Anna’s Archive가 이후 확장 작업을 도울 수 있음
Google에서 일하며 해당 데이터에 접근할 수 있는 사람도 보상 대상에 포함됨
- $200,000이 큰 금액이 아닐 수 있지만, 데이터를 반출할 수 있다면 “전설적인 아키비스트”로 불릴 것이라고 적었음
보상금은 Google Books 외의 비슷한 규모 컬렉션에도 적용됨
- 예시로 AI 기업들이 수집한 컬렉션을 들었음
- 특히 희귀 도서를 상당히 포함한 컬렉션이면 대상이 됨

댓글에서 정리된 규모와 전달 방식

한 댓글은 전체 아카이브가 저작권 자료를 포함해 약 7PB라고 썼지만, 이후 약 1.5PB이며 IUPUI 사이트의 복제를 포함한 수치라고 정정함
공개 도메인 및 저자 공개 자료는 약 300TB 규모로 언급됨
Anna’s Archive는 공개 도메인 및 저자 공개 자료에 아직 스크랩이 없다면 별도 보상금을 추가할 의향이 있다고 답함
전체 이미지가 아니라 OCR 텍스트만 반출하는 경우에도 이 보상금 목적상 절반을 지급할 수 있음
대량 데이터를 확보했을 때의 전달 방식으로는 SFTP 또는 유사한 방식이 언급됨
이슈 제목은 2025년 6월 7일 Google Books (or similar) all book scans — $200,000 bounty로 변경됨

GN⁺ 3시간전 [-]

Hacker News 의견들

영어 책을 구하기 어려운 나라에 살고 있어서, 해외 온라인 구매는 행정 절차와 제한이 너무 많음
Anna's Archive와 Z-Library가 없었다면 지금의 나를 만든 책들을 읽지도 못했고, 배움에 대한 열정도 유지하기 어려웠을 것임
책값을 갚지 못한 채 지식을 얻은 저자들에게도 고마움
- 농담 반 진담 반으로, 그럼 지금 삶 전체가 범죄 수익 덕분이라는 뜻이냐고 할 수도 있겠지만, 지식은 자유로워야 함
  지식은 진공 속에서 만들어진 게 아니고 모두의 것임
- 그 입장은 이해하지만, 저자가 돈을 벌 수 없었다면 그 책들 중 상당수는 애초에 존재하지 않았을 가능성이 큼
  예전에 Reddit에서 어떤 저자가 자기 책이 불법 공유 사이트에 올라간 뒤 실제 판매가 무너졌다는 통계를 올린 적이 있었음
  그래서 특히 프로그래밍 책은 되도록 구매하려고 하고, PDF는 미리보기처럼 씀. 오히려 그 덕분에 예전보다 훨씬 많이 샀음
  물론 구매 자체가 불가능한 지역에 산다면 얘기가 다르지만, 이런 사이트를 칭찬할 때는 긍정적인 면만 보는 경향이 있음
- 사용자명에 위치가 적혀 있어서 다행임. 요즘 온라인에서 “우리나라에서는”이라고 말하면서 어느 나라인지 끝까지 안 밝히는 게 가장 거슬림
- https://send.djazz.se/
  Kobo로 EPUB를 보내는 데 핵심적인 도구임
https://SourceLibrary.org에는 희귀 도서 약 16,000권 번역본이 있고, 대부분은 최초 번역임
보관된 책은 50,000권이며 자금이 생기면 번역할 예정이고, 토큰 수는 영어 Wikipedia보다 많으며 규모는 약 0.75PB임
포상 대상이 될지는 모르겠지만 공유하고 싶고, 르네상스 문헌 번역을 도울 소액·대형 후원자를 찾고 있음
- 결과물이 아름답고 답변도 적절하고 울림이 있음. 자금 조달은 유료 연구 API 같은 방식도 가능해 보임
- 흥미로워 보임
  무엇을 전부 보관했는지는 바로 파악하기 어렵지만, 학계 역사학자 친구들 중 특정 분야에 관심을 가질 사람이 있고 일부 난해한 언어 검증도 도울 수 있을 듯함
  지역이나 언어별 검색이 가능한지 궁금함
  역사학자 쪽과 프로젝트를 두고 접촉해 봤는지도 궁금함. 박사과정 학생들이 여기서 연구 주제를 찾을 수도 있어 보임
  타임라인 https://sourcelibrary.org/timeline을 봤을 때는 오류가 났음
- 지금까지 도달하는 데 예산이 얼마나 들었는지 궁금함. 토큰 수가 엄청난데, 아마 Gemini Flash를 쓰는 것으로 보임
어제 Anna's Archive가 제대로 도움이 됐음
2000년대 초 프로그래밍 책에 딸려 있던 CD의 ZIP 파일을 며칠 동안 찾았는데, 중고 매물은 전부 CD가 없다고 했고 검색해도 없었으며 LLM도 못 찾았음
ChatGPT는 archive에 있다고 계속 말했지만 실제로는 없었고, 혹시나 해서 AA에 가 보니 1판과 2판용 ZIP 파일이 모두 있었음. 정말 구세주 같았음
인터넷 스크랩에도 포상금을 걸기까지 얼마나 걸릴지 궁금함
Cloudflare CAPTCHA 때문에 내게는 인터넷이 거의 못 쓰는 수준이 됐고, 앞으로 더 나빠질 것 같음
차라리 archive.is 같은 사이트의 복사본을 둘러보거나 토렌트로 받는 편이 낫겠음. 후자는 프라이버시에도 훨씬 좋고, 어차피 광고 차단기도 쓰고 있음
- 같은 네트워크의 누군가가 Bright Data 프록시로 수익화되는 게임을 돌리고 있을 가능성이 큼. 며칠 전에도 관련 스레드가 있었음
  스마트 TV일 수도 있음. 원인을 찾아 제거하면 IP 평판이 개선되어 CAPTCHA를 덜 보게 될 가능성이 있음
- https://x.com/CloudflareDev/status/2031488099725754821
  이런 작은 이해상충이 있음
Anna's Archive 뒤에 누가 있는지 궁금함. 팀과 포럼에 영어권 사람들이 많이 보임
어쨌든 구매가 소유가 아닌 한 문제될 건 없다고 봄
- Anna가 뒤에 있는 것 같음
  https://redlib.catsarch.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
  https://reddit.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
- 거기에 있는 책 중 상당수는 원래도 DRM 없는 형태로 구매 가능할 것임. 생각보다 DRM을 신경 쓰지 않는 저자가 많음
  그리고 종이책으로 사면 구매가 확실히 소유가 되니, 책에 대해서는 그 문장이 조금 부적절하게 느껴짐
- 주된 출처가 러시아였던 것 같고, 아니면 그건 LibGen이었을 수도 있음
  다만 이렇게 대안이 적다는 점이 더 놀라움. Facebook 등이 LibGen과 전쟁을 벌이고 LibGen이 내려간 뒤에도 대안이 의외로 거의 없었고, Anna's Archive가 몇 안 되는 선택지였음
  LibGen에 정확히 무슨 일이 있었는지는 아직 모르지만, 그 공격 이후로는 사실상 반쯤 사라진 상태처럼 보임
- 정말 문제가 없다고 생각한다면 왜 공개 포럼에서 누가 뒤에 있는지 묻는지 의문임
“포상 작업을 하기 전에 [this]를 주의 깊게 읽으라”는 문구에서 [this]가 .li 주소로 연결되는데, 위험한 곳으로 감
올바른 주소는 https://annas-archive.gl/volunteering#bounties여야 함
지금 Google에서 해고될까 봐 걱정하는 사람이 있다면, 이게 백업 플랜일지도 모르겠음
- 데이터를 빼내다 걸리면 20만 달러보다 훨씬 큰 금액으로 소송당할 것임
- 일반 직원이 전체 아카이브에 접근할 수 있을 가능성은 낮음
  접근 권한이 있는 극소수 중에서도, 콘텐츠의 아주 작은 비율만 내려받기 시작해도 자동 시스템이 잡아낼 가능성이 큼
- 더 큰 문제는 이로 인해 금전적 피해가 발생한다는 점임. 아마 다른 나라로 이주할 준비까지 해야 할 수 있음
그들이 제공하는 다른 흥미로운 포상 작업들: https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items?label_name%5B%5D=2-Bounty
Library of Congress MARC 데이터셋 전체 구매 — 포상금 3,000달러
관련 기관에 대한 영어 Wikipedia 페이지 — 새 페이지당 최대 100달러
Internet Archive Digital Lending — PDF 100만 개당 5,000달러
전체 라이브러리의 텍스트 버전 — 20,000달러 등
- 운영 보안 실패에 최대 50만 달러를 건 것도 흥미로움. 책 공유에 기여하는 부유한 개인들이 있거나, 많은 소액 후원이 있다는 희망을 줌
  https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items/194
불법 복제와 저작권은 앞으로 어떻게 될까 궁금함
지금처럼 대여 중심인 상황은 지속 불가능해 보임. 주변의 평범한 사람들도 VPN과 NAS 같은 걸 많이 알게 됐음
- 실제 작품을 만드는 저자와 예술가들이 얼마나 적게 받는지 찾아보면, 단두대가 답이길 바라게 됨
- 애초에 지속 가능한 구조가 아니라, 대형 지식재산권 보유자들의 규제 포획이었음
  Spotify, Netflix, Amazon 등이 한동안 괜찮은 가치를 제공했지만 이제 서비스 악화가 본격화되면서 대규모 복귀가 일어날 때가 됐음
Gemini는 이미 저 책들로 학습됐을 가능성이 높으니, 이론적으로는 일부 문장을 그대로 뱉어낼 수도 있음
예전에 NYT가 OpenAI를 상대로 낸 소송에서도 그런 식의 사례가 드러났음
- Gemini, GPT, Fable은 사실상 인터넷 콘텐츠의 매우 좋은 압축본임
  다만 무손실 압축은 아니고, 다음 토큰 예측 과제를 수행하는 데 중요한 부분은 남기고 나머지는 흉내 내는 방식을 찾은 것임

답변달기

Google Books 또는 유사한 전체 도서 스캔에 20만 달러 보상금 제시(2025)

보상금 대상과 참여 조건

댓글에서 정리된 규모와 전달 방식

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들