Google이 검색 결과에서 Anna’s Archive 관련 7억4900만 개 URL 삭제

(torrentfreak.com)

4P by GN⁺ 9달전 | ★ favorite | 댓글 1개

Anna’s Archive는 해적판 전자책과 자료를 찾을 수 있는 섀도 라이브러리 메타검색 엔진으로, 2022년 가을에 개설됨
지난 3년간 출판사와 저자들의 저작권 신고로 인해 Google이 이 사이트의 7억4900만 개 URL을 검색 결과에서 삭제함
이는 Google이 지금까지 처리한 모든 저작권 관련 URL의 5% 에 해당하며, The Pirate Bay보다 훨씬 많은 규모
Penguin Random House, John Wiley & Sons 등 1000여 개 이상의 권리자가 DMCA 요청을 제출했으며, 매주 약 1000만 개의 신규 URL이 신고되고 있음
대규모 삭제에도 불구하고 Anna’s Archive의 주요 도메인은 여전히 접근 가능하며, Google 검색에서도 사이트명으로는 쉽게 찾을 수 있음

Anna’s Archive 개요

Anna’s Archive는 여러 섀도 라이브러리를 통합 검색할 수 있는 메타검색 엔진으로, 불법 복제된 책과 자료를 찾는 기능 제공
- 2022년 가을, Z-Library가 미국 당국의 단속을 받은 직후 개설됨
- ‘무료’ 도서와 논문을 대중에게 계속 제공하기 위한 목적에서 출발
개설 이후 3년간 여러 국가에서 차단 조치를 받았으며, WorldCat 데이터 2.2TB 무단 수집 혐의로 미국에서 소송 제기됨
또한 AI 연구자들에게 데이터 접근을 지원하는 활동도 진행 중임

Google의 대규모 삭제 조치

Google은 저작권 침해가 의심되는 URL을 권리자 요청에 따라 검색 결과에서 제거함
Anna’s Archive 관련해서는 총 7억8400만 개 URL이 신고되었으며, 이 중 7억4900만 개가 실제 삭제됨
- 일부 링크는 Google이 색인하지 않아 삭제 대상에서 제외됨
비교 사례로 The Pirate Bay는 420만 개 URL이 삭제되어, Anna’s Archive의 규모가 훨씬 큼
사이트가 여러 국가별 서브도메인을 운영하고 방대한 페이지를 보유해 삭제 대상 URL 수가 많음

전체 Google 저작권 삭제의 5% 차지

Google의 투명성 보고서에 따르면, 2012년 이후 총 151억 개의 저작권 침해 URL이 신고됨
- 이 중 Anna’s Archive 관련 URL이 전체의 5% 를 차지
Penguin Random House와 John Wiley & Sons가 주요 신고 주체이며, 1000개 이상의 출판사 및 저자가 DMCA 요청을 제출
현재도 매주 약 1000만 개의 신규 URL이 추가로 신고되고 있음

검색 결과에서의 가시성

대규모 삭제로 인해 도서 관련 검색어에서 사이트 노출이 감소함
- 많은 URL이 비표시 처리되거나 검색 순위가 하락
그러나 ‘Anna’s Archive’라는 이름으로 직접 검색하면 여전히 주요 도메인이 상위에 표시됨
Google의 조치에도 불구하고 사이트 접근 자체는 차단되지 않음

출판업계의 대응과 한계

출판사들은 사이트를 직접 차단하기 어려워 Google 등 제3자 플랫폼에 삭제 요청을 지속적으로 제출
법적 압박에도 불구하고 annas-archive.org, .li, .se 등 주요 도메인은 여전히 운영 중
원문에 추가적인 향후 조치나 정책 변화에 대한 언급은 없음

GN⁺ 9달전 [-]

Hacker News 의견

이상하게 들릴 수도 있지만, Yandex가 DMCA 요청으로 내려간 콘텐츠를 찾을 때 꽤 훌륭한 검색엔진임을 알게 되었음
예를 들어 Netflix에 없는 영화를 웹 스트리밍으로 보고 싶을 때, 검색 결과가 훨씬 나음
마치 2005년의 Google을 다시 쓰는 느낌임
- 나는 몇 년 전부터 bittorrent infohash를 찾을 때 Yandex를 쓰기 시작했음
  Google, Bing, DuckDuckGo가 더 이상 제대로 된 결과를 주지 않아서였음
  요즘은 블록체인 탐색기 같은 곳에서 짧은 부분 일치만 보이는데, 이건 의도된 건지 아니면 퍼지 매칭(fuzzy matching) 시도 때문인지는 모르겠음
  어쨌든 이 용도에서는 완전히 실패임
- 나는 Kagi, Startpage, Ecosia, DDG 등 여러 검색엔진을 써봤는데, 전부 Google보다 관련성 높은 결과를 줌
  Google은 너무 개인화되어 있음
- 우크라이나인으로서 Yandex가 선전 도구로 변한 것에 분노를 느끼지만, 엔지니어로서는 그들의 수십 년간의 연구 유산과 뛰어난 검색 기술에 존경심을 가짐
- 나는 오랫동안 검색엔진 품질을 이렇게 테스트해왔음
  좋은 엔진은 해적 사이트를 보여주고, 훌륭한 엔진은 그것들을 가짜 결과보다 위에 올려줌
  하지만 훌륭한 엔진일수록 결국 주목을 받아 그 결과를 삭제당하게 됨
  그 시점이 되면 다른 곳을 찾아야 할 때임
- 재미있게도 며칠 전 아내가 자기 나라의 역사 이야기를 하며 관련 영화를 추천했는데, Google, DDG, Bing, Brave 어디에서도 안 나왔음
  그런데 Yandex에서는 상위 3위 안에 바로 떴음
  참고로 DDG는 이제 Google이랑 거의 똑같고, 스폰서 결과까지 붙었음
Anna’s Archive는 이미 Google의 Gemini 학습에 필요한 데이터를 다 제공했으니, 이제는 존재하지 않는 척하는 것 같음
- Anna’s Archive가 한때 세상의 정보를 정리하고 보편적으로 접근 가능하게 만든 적이 있었는지 궁금함
- Google은 투명성 로그를 자발적으로 운영하고 있고, DMCA 준수는 법적 해석의 문제일 뿐임
  온라인 커뮤니티가 이를 두고 악의적인 음모론을 만들어내는 건 이해하기 어려움
Google이 이제 다시 검색을 한다고?
요즘은 내가 쓰는 챗봇 브랜드가 SEO 스팸 사이트 100개를 피해서 같은 정보를 찾아주는데, 그 편리함을 어떻게 이길 수 있을지 모르겠음
- 챗봇이 Google보다 스팸에 덜 영향받는다는 얘기를 들었는데, 사실인지 궁금함
- 예전에는 Google이 검색을 하던 시절이 있었던 걸로 기억함
  (닉네임 멋짐)
- 챗봇이 자체적인 인터넷 규모의 인덱스를 가진 건 아님
  결국 정보의 출처를 직접 확인할 판단력을 포기한 셈임
- 챗봇이 제공하는 링크의 25~90%는 환각(hallucination) 임
  아니면 결국 Google 검색을 대신해주는 것뿐임
- LLM 기반 AI는 본질적으로 데이터 조작 공격에 취약함
  진짜 인간 수준의 AGI라면 이런 시도를 감지하겠지만, 현재의 챗봇은 그렇지 못함
  관련 기사: NYTimes - AI Chatbot Prompts and Manipulation
나는 Google이 불편해할 만한 검색은 전혀 하지 않음
일련번호, 기업 전화번호, 논문, 책 같은 건 전부 Yandex나 Brave로 찾음
Google이 뭘 하든 상관없음, 어차피 안 씀
Anna’s Archive가 사라지기 전에 z-archive 토렌트를 다 받아야겠다고 생각 중임
큰 PDF랑 비영어권 책을 빼면 32TB 드라이브 두 개에 압축해서 넣을 수 있을 듯함
https://annas-archive.org/torrents
- 큰 PDF를 제거한다는 게 너무 임의적인 기준 아닐까 함
  PDF가 큰 이유는 종종 색상이나 해상도 문제 때문이지, 내용 때문은 아님
- 나는 예전에 DPI와 색상 깊이를 줄이고 다시 PDF로 합치는 방식으로 용량을 줄였음
  같은 책의 여러 판본을 자동으로 식별해서 epub 하나만 남기고 나머지를 제거하는 것도 가능함
- 나도 영어/독일어/프랑스어 버전 백업을 만들고 싶음
  다만 HDD와 파일시스템이 문제라서, 토렌트 분할기 같은 걸 직접 만들어야 할지도 모르겠음
- 나는 작은 파일부터 채워나가는 방식으로 리스트를 뒤집어 정리함
https://annas-archive.org
나는 이런 사이트의 콘텐츠를 Google에 의존해 찾은 적이 거의 없음
사이트 자체가 제목, 저자, 형식, 날짜로 잘 인덱싱되어 있어서 자유 검색이 충분히 가능함
- Google 같은 웹 검색은 유사어 검색에 강점이 있음
  예를 들어 “a a a a ah ah ah ah dance song”으로 검색해도 Otto Knows의 “Million Voices”를 찾아줌
- 하지만 이런 사이트들은 본문 전체 검색(full-text search) 기능은 없지 않나 궁금함
  Google도 Anna’s Archive 페이지의 본문까지는 색인하지 않을 것 같음
최근 Library Genesis가 폐쇄된 후, Anna’s Archive가 마지막 남은 책 저장소인 듯함
다른 대안이 있는지 궁금함
- Anna’s Archive에서 연결된 Open-Slum.org이 있음
- 책은 WeLib.org, 오디오북은 AudiobookBay를 추천함
Google의 무의미함으로의 행진이 계속되고 있음
- 그래도 아직 전 세계 검색 쿼리의 97% 는 Google이 차지하고 있음
웹 검색 환경이 완전히 달라졌음
- 폐쇄형 플랫폼(walled garden) 이 늘어나서 검색엔진이 접근할 수 없는 영역이 많아졌음
- 법적 제약으로 접근 불가능한 데이터도 많아졌음
- 이제는 Google뿐 아니라 Yandex, Kagi, ChatGPT까지 함께 써야 함
- 나는 직접 만든 인덱스 Internet Places Database도 함께 활용함

답변달기

Google이 검색 결과에서 Anna’s Archive 관련 7억4900만 개 URL 삭제

Anna’s Archive 개요

Google의 대규모 삭제 조치

전체 Google 저작권 삭제의 5% 차지

검색 결과에서의 가시성

출판업계의 대응과 한계

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견