Google Books 또는 유사한 전체 도서 스캔에 20만 달러 보상금 제시(2025)
(software.annas-archive.gl)- Anna’s Archive가 Google Books 전체 도서 스캔 또는 비슷한 규모의 컬렉션 확보에 20만 달러 보상금을 걸었음
- 현재 Google Books 접근은 검색 결과 주변의 작은 스니펫 중심이라, 전체 스캔 확보가 아카이브 관점에서 핵심 과제로 다뤄짐
- 확장 가능한 방법을 찾았다면 완성본을 기다리지 말고 프로토타입 단계에서 연락하라고 안내함
- Google 내부 접근권한이 있는 사람도 대상이며, 이미지 없이 OCR 텍스트만 확보해도 보상금의 절반을 지급할 수 있음
- 대상은 Google Books에만 묶이지 않고, AI 기업 등이 모은 희귀 도서 포함 대규모 컬렉션에도 적용됨
보상금 대상과 참여 조건
- Anna’s Archive는 Google Books 또는 유사한 전체 도서 스캔 확보에 $200,000 보상금을 제시함
- 작업 전에는 Anna’s Archive의 bounties 안내를 주의 깊게 읽어야 함
- Google Books는 많은 스캔 도서를 보유하지만, 검색으로 접근할 때 결과 주변의 작은 스니펫만 보이는 상태임
- 확장 가능성이 있는 방법을 찾았다면 완성본까지 기다리지 말고 프로토타입으로 일찍 연락하라고 안내함
- Anna’s Archive가 이후 확장 작업을 도울 수 있음
- Google에서 일하며 해당 데이터에 접근할 수 있는 사람도 보상 대상에 포함됨
- $200,000이 큰 금액이 아닐 수 있지만, 데이터를 반출할 수 있다면 “전설적인 아키비스트”로 불릴 것이라고 적었음
- 보상금은 Google Books 외의 비슷한 규모 컬렉션에도 적용됨
- 예시로 AI 기업들이 수집한 컬렉션을 들었음
- 특히 희귀 도서를 상당히 포함한 컬렉션이면 대상이 됨
댓글에서 정리된 규모와 전달 방식
- 한 댓글은 전체 아카이브가 저작권 자료를 포함해 약 7PB라고 썼지만, 이후 약 1.5PB이며 IUPUI 사이트의 복제를 포함한 수치라고 정정함
- 공개 도메인 및 저자 공개 자료는 약 300TB 규모로 언급됨
- Anna’s Archive는 공개 도메인 및 저자 공개 자료에 아직 스크랩이 없다면 별도 보상금을 추가할 의향이 있다고 답함
- 전체 이미지가 아니라 OCR 텍스트만 반출하는 경우에도 이 보상금 목적상 절반을 지급할 수 있음
- 대량 데이터를 확보했을 때의 전달 방식으로는 SFTP 또는 유사한 방식이 언급됨
- 이슈 제목은 2025년 6월 7일
Google Books (or similar) all book scans — $200,000 bounty로 변경됨
댓글과 토론
Hacker News 의견들
-
영어 책을 구하기 어려운 나라에 살고 있어서, 해외 온라인 구매는 행정 절차와 제한이 너무 많음
Anna's Archive와 Z-Library가 없었다면 지금의 나를 만든 책들을 읽지도 못했고, 배움에 대한 열정도 유지하기 어려웠을 것임
책값을 갚지 못한 채 지식을 얻은 저자들에게도 고마움- 농담 반 진담 반으로, 그럼 지금 삶 전체가 범죄 수익 덕분이라는 뜻이냐고 할 수도 있겠지만, 지식은 자유로워야 함
지식은 진공 속에서 만들어진 게 아니고 모두의 것임 - 그 입장은 이해하지만, 저자가 돈을 벌 수 없었다면 그 책들 중 상당수는 애초에 존재하지 않았을 가능성이 큼
예전에 Reddit에서 어떤 저자가 자기 책이 불법 공유 사이트에 올라간 뒤 실제 판매가 무너졌다는 통계를 올린 적이 있었음
그래서 특히 프로그래밍 책은 되도록 구매하려고 하고, PDF는 미리보기처럼 씀. 오히려 그 덕분에 예전보다 훨씬 많이 샀음
물론 구매 자체가 불가능한 지역에 산다면 얘기가 다르지만, 이런 사이트를 칭찬할 때는 긍정적인 면만 보는 경향이 있음 - 사용자명에 위치가 적혀 있어서 다행임. 요즘 온라인에서 “우리나라에서는”이라고 말하면서 어느 나라인지 끝까지 안 밝히는 게 가장 거슬림
- https://send.djazz.se/
Kobo로 EPUB를 보내는 데 핵심적인 도구임
- 농담 반 진담 반으로, 그럼 지금 삶 전체가 범죄 수익 덕분이라는 뜻이냐고 할 수도 있겠지만, 지식은 자유로워야 함
-
https://SourceLibrary.org에는 희귀 도서 약 16,000권 번역본이 있고, 대부분은 최초 번역임
보관된 책은 50,000권이며 자금이 생기면 번역할 예정이고, 토큰 수는 영어 Wikipedia보다 많으며 규모는 약 0.75PB임
포상 대상이 될지는 모르겠지만 공유하고 싶고, 르네상스 문헌 번역을 도울 소액·대형 후원자를 찾고 있음- 결과물이 아름답고 답변도 적절하고 울림이 있음. 자금 조달은 유료 연구 API 같은 방식도 가능해 보임
- 흥미로워 보임
무엇을 전부 보관했는지는 바로 파악하기 어렵지만, 학계 역사학자 친구들 중 특정 분야에 관심을 가질 사람이 있고 일부 난해한 언어 검증도 도울 수 있을 듯함
지역이나 언어별 검색이 가능한지 궁금함
역사학자 쪽과 프로젝트를 두고 접촉해 봤는지도 궁금함. 박사과정 학생들이 여기서 연구 주제를 찾을 수도 있어 보임
타임라인 https://sourcelibrary.org/timeline을 봤을 때는 오류가 났음 - 지금까지 도달하는 데 예산이 얼마나 들었는지 궁금함. 토큰 수가 엄청난데, 아마 Gemini Flash를 쓰는 것으로 보임
-
어제 Anna's Archive가 제대로 도움이 됐음
2000년대 초 프로그래밍 책에 딸려 있던 CD의 ZIP 파일을 며칠 동안 찾았는데, 중고 매물은 전부 CD가 없다고 했고 검색해도 없었으며 LLM도 못 찾았음
ChatGPT는 archive에 있다고 계속 말했지만 실제로는 없었고, 혹시나 해서 AA에 가 보니 1판과 2판용 ZIP 파일이 모두 있었음. 정말 구세주 같았음 -
인터넷 스크랩에도 포상금을 걸기까지 얼마나 걸릴지 궁금함
Cloudflare CAPTCHA 때문에 내게는 인터넷이 거의 못 쓰는 수준이 됐고, 앞으로 더 나빠질 것 같음
차라리 archive.is 같은 사이트의 복사본을 둘러보거나 토렌트로 받는 편이 낫겠음. 후자는 프라이버시에도 훨씬 좋고, 어차피 광고 차단기도 쓰고 있음- 같은 네트워크의 누군가가 Bright Data 프록시로 수익화되는 게임을 돌리고 있을 가능성이 큼. 며칠 전에도 관련 스레드가 있었음
스마트 TV일 수도 있음. 원인을 찾아 제거하면 IP 평판이 개선되어 CAPTCHA를 덜 보게 될 가능성이 있음 - https://x.com/CloudflareDev/status/2031488099725754821
이런 작은 이해상충이 있음
- 같은 네트워크의 누군가가 Bright Data 프록시로 수익화되는 게임을 돌리고 있을 가능성이 큼. 며칠 전에도 관련 스레드가 있었음
-
Anna's Archive 뒤에 누가 있는지 궁금함. 팀과 포럼에 영어권 사람들이 많이 보임
어쨌든 구매가 소유가 아닌 한 문제될 건 없다고 봄- Anna가 뒤에 있는 것 같음
https://redlib.catsarch.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
https://reddit.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/ - 거기에 있는 책 중 상당수는 원래도 DRM 없는 형태로 구매 가능할 것임. 생각보다 DRM을 신경 쓰지 않는 저자가 많음
그리고 종이책으로 사면 구매가 확실히 소유가 되니, 책에 대해서는 그 문장이 조금 부적절하게 느껴짐 - 주된 출처가 러시아였던 것 같고, 아니면 그건 LibGen이었을 수도 있음
다만 이렇게 대안이 적다는 점이 더 놀라움. Facebook 등이 LibGen과 전쟁을 벌이고 LibGen이 내려간 뒤에도 대안이 의외로 거의 없었고, Anna's Archive가 몇 안 되는 선택지였음
LibGen에 정확히 무슨 일이 있었는지는 아직 모르지만, 그 공격 이후로는 사실상 반쯤 사라진 상태처럼 보임 - 정말 문제가 없다고 생각한다면 왜 공개 포럼에서 누가 뒤에 있는지 묻는지 의문임
- Anna가 뒤에 있는 것 같음
-
“포상 작업을 하기 전에 [this]를 주의 깊게 읽으라”는 문구에서 [this]가 .li 주소로 연결되는데, 위험한 곳으로 감
올바른 주소는 https://annas-archive.gl/volunteering#bounties여야 함 -
지금 Google에서 해고될까 봐 걱정하는 사람이 있다면, 이게 백업 플랜일지도 모르겠음
- 데이터를 빼내다 걸리면 20만 달러보다 훨씬 큰 금액으로 소송당할 것임
- 일반 직원이 전체 아카이브에 접근할 수 있을 가능성은 낮음
접근 권한이 있는 극소수 중에서도, 콘텐츠의 아주 작은 비율만 내려받기 시작해도 자동 시스템이 잡아낼 가능성이 큼 - 더 큰 문제는 이로 인해 금전적 피해가 발생한다는 점임. 아마 다른 나라로 이주할 준비까지 해야 할 수 있음
-
그들이 제공하는 다른 흥미로운 포상 작업들: https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items?label_name%5B%5D=2-Bounty
Library of Congress MARC 데이터셋 전체 구매 — 포상금 3,000달러
관련 기관에 대한 영어 Wikipedia 페이지 — 새 페이지당 최대 100달러
Internet Archive Digital Lending — PDF 100만 개당 5,000달러
전체 라이브러리의 텍스트 버전 — 20,000달러 등- 운영 보안 실패에 최대 50만 달러를 건 것도 흥미로움. 책 공유에 기여하는 부유한 개인들이 있거나, 많은 소액 후원이 있다는 희망을 줌
https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items/194
- 운영 보안 실패에 최대 50만 달러를 건 것도 흥미로움. 책 공유에 기여하는 부유한 개인들이 있거나, 많은 소액 후원이 있다는 희망을 줌
-
불법 복제와 저작권은 앞으로 어떻게 될까 궁금함
지금처럼 대여 중심인 상황은 지속 불가능해 보임. 주변의 평범한 사람들도 VPN과 NAS 같은 걸 많이 알게 됐음- 실제 작품을 만드는 저자와 예술가들이 얼마나 적게 받는지 찾아보면, 단두대가 답이길 바라게 됨
- 애초에 지속 가능한 구조가 아니라, 대형 지식재산권 보유자들의 규제 포획이었음
Spotify, Netflix, Amazon 등이 한동안 괜찮은 가치를 제공했지만 이제 서비스 악화가 본격화되면서 대규모 복귀가 일어날 때가 됐음
-
Gemini는 이미 저 책들로 학습됐을 가능성이 높으니, 이론적으로는 일부 문장을 그대로 뱉어낼 수도 있음
예전에 NYT가 OpenAI를 상대로 낸 소송에서도 그런 식의 사례가 드러났음- Gemini, GPT, Fable은 사실상 인터넷 콘텐츠의 매우 좋은 압축본임
다만 무손실 압축은 아니고, 다음 토큰 예측 과제를 수행하는 데 중요한 부분은 남기고 나머지는 흉내 내는 방식을 찾은 것임
- Gemini, GPT, Fable은 사실상 인터넷 콘텐츠의 매우 좋은 압축본임