Google이 검색 결과에서 Anna’s Archive 관련 7억4900만 개 URL 삭제
(torrentfreak.com)- Anna’s Archive는 해적판 전자책과 자료를 찾을 수 있는 섀도 라이브러리 메타검색 엔진으로, 2022년 가을에 개설됨
- 지난 3년간 출판사와 저자들의 저작권 신고로 인해 Google이 이 사이트의 7억4900만 개 URL을 검색 결과에서 삭제함
- 이는 Google이 지금까지 처리한 모든 저작권 관련 URL의 5% 에 해당하며, The Pirate Bay보다 훨씬 많은 규모
- Penguin Random House, John Wiley & Sons 등 1000여 개 이상의 권리자가 DMCA 요청을 제출했으며, 매주 약 1000만 개의 신규 URL이 신고되고 있음
- 대규모 삭제에도 불구하고 Anna’s Archive의 주요 도메인은 여전히 접근 가능하며, Google 검색에서도 사이트명으로는 쉽게 찾을 수 있음
Anna’s Archive 개요
-
Anna’s Archive는 여러 섀도 라이브러리를 통합 검색할 수 있는 메타검색 엔진으로, 불법 복제된 책과 자료를 찾는 기능 제공
- 2022년 가을, Z-Library가 미국 당국의 단속을 받은 직후 개설됨
- ‘무료’ 도서와 논문을 대중에게 계속 제공하기 위한 목적에서 출발
- 개설 이후 3년간 여러 국가에서 차단 조치를 받았으며, WorldCat 데이터 2.2TB 무단 수집 혐의로 미국에서 소송 제기됨
- 또한 AI 연구자들에게 데이터 접근을 지원하는 활동도 진행 중임
Google의 대규모 삭제 조치
- Google은 저작권 침해가 의심되는 URL을 권리자 요청에 따라 검색 결과에서 제거함
-
Anna’s Archive 관련해서는 총 7억8400만 개 URL이 신고되었으며, 이 중 7억4900만 개가 실제 삭제됨
- 일부 링크는 Google이 색인하지 않아 삭제 대상에서 제외됨
- 비교 사례로 The Pirate Bay는 420만 개 URL이 삭제되어, Anna’s Archive의 규모가 훨씬 큼
- 사이트가 여러 국가별 서브도메인을 운영하고 방대한 페이지를 보유해 삭제 대상 URL 수가 많음
전체 Google 저작권 삭제의 5% 차지
- Google의 투명성 보고서에 따르면, 2012년 이후 총 151억 개의 저작권 침해 URL이 신고됨
- 이 중 Anna’s Archive 관련 URL이 전체의 5% 를 차지
- Penguin Random House와 John Wiley & Sons가 주요 신고 주체이며, 1000개 이상의 출판사 및 저자가 DMCA 요청을 제출
- 현재도 매주 약 1000만 개의 신규 URL이 추가로 신고되고 있음
검색 결과에서의 가시성
- 대규모 삭제로 인해 도서 관련 검색어에서 사이트 노출이 감소함
- 많은 URL이 비표시 처리되거나 검색 순위가 하락
- 그러나 ‘Anna’s Archive’라는 이름으로 직접 검색하면 여전히 주요 도메인이 상위에 표시됨
- Google의 조치에도 불구하고 사이트 접근 자체는 차단되지 않음
출판업계의 대응과 한계
- 출판사들은 사이트를 직접 차단하기 어려워 Google 등 제3자 플랫폼에 삭제 요청을 지속적으로 제출
- 법적 압박에도 불구하고 annas-archive.org, .li, .se 등 주요 도메인은 여전히 운영 중
- 원문에 추가적인 향후 조치나 정책 변화에 대한 언급은 없음
Hacker News 의견
-
이상하게 들릴 수도 있지만, Yandex가 DMCA 요청으로 내려간 콘텐츠를 찾을 때 꽤 훌륭한 검색엔진임을 알게 되었음
예를 들어 Netflix에 없는 영화를 웹 스트리밍으로 보고 싶을 때, 검색 결과가 훨씬 나음
마치 2005년의 Google을 다시 쓰는 느낌임- 나는 몇 년 전부터 bittorrent infohash를 찾을 때 Yandex를 쓰기 시작했음
Google, Bing, DuckDuckGo가 더 이상 제대로 된 결과를 주지 않아서였음
요즘은 블록체인 탐색기 같은 곳에서 짧은 부분 일치만 보이는데, 이건 의도된 건지 아니면 퍼지 매칭(fuzzy matching) 시도 때문인지는 모르겠음
어쨌든 이 용도에서는 완전히 실패임 - 나는 Kagi, Startpage, Ecosia, DDG 등 여러 검색엔진을 써봤는데, 전부 Google보다 관련성 높은 결과를 줌
Google은 너무 개인화되어 있음 - 우크라이나인으로서 Yandex가 선전 도구로 변한 것에 분노를 느끼지만, 엔지니어로서는 그들의 수십 년간의 연구 유산과 뛰어난 검색 기술에 존경심을 가짐
- 나는 오랫동안 검색엔진 품질을 이렇게 테스트해왔음
좋은 엔진은 해적 사이트를 보여주고, 훌륭한 엔진은 그것들을 가짜 결과보다 위에 올려줌
하지만 훌륭한 엔진일수록 결국 주목을 받아 그 결과를 삭제당하게 됨
그 시점이 되면 다른 곳을 찾아야 할 때임 - 재미있게도 며칠 전 아내가 자기 나라의 역사 이야기를 하며 관련 영화를 추천했는데, Google, DDG, Bing, Brave 어디에서도 안 나왔음
그런데 Yandex에서는 상위 3위 안에 바로 떴음
참고로 DDG는 이제 Google이랑 거의 똑같고, 스폰서 결과까지 붙었음
- 나는 몇 년 전부터 bittorrent infohash를 찾을 때 Yandex를 쓰기 시작했음
-
Anna’s Archive는 이미 Google의 Gemini 학습에 필요한 데이터를 다 제공했으니, 이제는 존재하지 않는 척하는 것 같음
- Anna’s Archive가 한때 세상의 정보를 정리하고 보편적으로 접근 가능하게 만든 적이 있었는지 궁금함
- Google은 투명성 로그를 자발적으로 운영하고 있고, DMCA 준수는 법적 해석의 문제일 뿐임
온라인 커뮤니티가 이를 두고 악의적인 음모론을 만들어내는 건 이해하기 어려움
-
Google이 이제 다시 검색을 한다고?
요즘은 내가 쓰는 챗봇 브랜드가 SEO 스팸 사이트 100개를 피해서 같은 정보를 찾아주는데, 그 편리함을 어떻게 이길 수 있을지 모르겠음- 챗봇이 Google보다 스팸에 덜 영향받는다는 얘기를 들었는데, 사실인지 궁금함
- 예전에는 Google이 검색을 하던 시절이 있었던 걸로 기억함
(닉네임 멋짐) - 챗봇이 자체적인 인터넷 규모의 인덱스를 가진 건 아님
결국 정보의 출처를 직접 확인할 판단력을 포기한 셈임 - 챗봇이 제공하는 링크의 25~90%는 환각(hallucination) 임
아니면 결국 Google 검색을 대신해주는 것뿐임 - LLM 기반 AI는 본질적으로 데이터 조작 공격에 취약함
진짜 인간 수준의 AGI라면 이런 시도를 감지하겠지만, 현재의 챗봇은 그렇지 못함
관련 기사: NYTimes - AI Chatbot Prompts and Manipulation
-
나는 Google이 불편해할 만한 검색은 전혀 하지 않음
일련번호, 기업 전화번호, 논문, 책 같은 건 전부 Yandex나 Brave로 찾음
Google이 뭘 하든 상관없음, 어차피 안 씀 -
Anna’s Archive가 사라지기 전에 z-archive 토렌트를 다 받아야겠다고 생각 중임
큰 PDF랑 비영어권 책을 빼면 32TB 드라이브 두 개에 압축해서 넣을 수 있을 듯함
https://annas-archive.org/torrents- 큰 PDF를 제거한다는 게 너무 임의적인 기준 아닐까 함
PDF가 큰 이유는 종종 색상이나 해상도 문제 때문이지, 내용 때문은 아님 - 나는 예전에 DPI와 색상 깊이를 줄이고 다시 PDF로 합치는 방식으로 용량을 줄였음
같은 책의 여러 판본을 자동으로 식별해서 epub 하나만 남기고 나머지를 제거하는 것도 가능함 - 나도 영어/독일어/프랑스어 버전 백업을 만들고 싶음
다만 HDD와 파일시스템이 문제라서, 토렌트 분할기 같은 걸 직접 만들어야 할지도 모르겠음 - 나는 작은 파일부터 채워나가는 방식으로 리스트를 뒤집어 정리함
- 큰 PDF를 제거한다는 게 너무 임의적인 기준 아닐까 함
-
나는 이런 사이트의 콘텐츠를 Google에 의존해 찾은 적이 거의 없음
사이트 자체가 제목, 저자, 형식, 날짜로 잘 인덱싱되어 있어서 자유 검색이 충분히 가능함- Google 같은 웹 검색은 유사어 검색에 강점이 있음
예를 들어 “a a a a ah ah ah ah dance song”으로 검색해도 Otto Knows의 “Million Voices”를 찾아줌 - 하지만 이런 사이트들은 본문 전체 검색(full-text search) 기능은 없지 않나 궁금함
Google도 Anna’s Archive 페이지의 본문까지는 색인하지 않을 것 같음
- Google 같은 웹 검색은 유사어 검색에 강점이 있음
-
최근 Library Genesis가 폐쇄된 후, Anna’s Archive가 마지막 남은 책 저장소인 듯함
다른 대안이 있는지 궁금함- Anna’s Archive에서 연결된 Open-Slum.org이 있음
- 책은 WeLib.org, 오디오북은 AudiobookBay를 추천함
-
Google의 무의미함으로의 행진이 계속되고 있음
- 그래도 아직 전 세계 검색 쿼리의 97% 는 Google이 차지하고 있음
-
웹 검색 환경이 완전히 달라졌음
- 폐쇄형 플랫폼(walled garden) 이 늘어나서 검색엔진이 접근할 수 없는 영역이 많아졌음
- 법적 제약으로 접근 불가능한 데이터도 많아졌음
- 이제는 Google뿐 아니라 Yandex, Kagi, ChatGPT까지 함께 써야 함
- 나는 직접 만든 인덱스 Internet Places Database도 함께 활용함