# Google이 검색 결과에서 Anna’s Archive 관련 7억4900만 개 URL 삭제

> Clean Markdown view of GeekNews topic #24165. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=24165](https://news.hada.io/topic?id=24165)
- GeekNews Markdown: [https://news.hada.io/topic/24165.md](https://news.hada.io/topic/24165.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-11-06T02:33:09+09:00
- Updated: 2025-11-06T02:33:09+09:00
- Original source: [torrentfreak.com](https://torrentfreak.com/google-removed-749-million-annas-archive-urls-from-its-search-results/)
- Points: 4
- Comments: 1

## Topic Body

- **Anna’s Archive**는 해적판 전자책과 자료를 찾을 수 있는 **섀도 라이브러리 메타검색 엔진**으로, 2022년 가을에 개설됨  
- 지난 3년간 **출판사와 저자들의 저작권 신고**로 인해 Google이 이 사이트의 **7억4900만 개 URL을 검색 결과에서 삭제**함  
- 이는 Google이 지금까지 처리한 **모든 저작권 관련 URL의 5%** 에 해당하며, **The Pirate Bay**보다 훨씬 많은 규모  
- Penguin Random House, John Wiley & Sons 등 **1000여 개 이상의 권리자**가 DMCA 요청을 제출했으며, 매주 약 **1000만 개의 신규 URL**이 신고되고 있음  
- 대규모 삭제에도 불구하고 **Anna’s Archive의 주요 도메인은 여전히 접근 가능**하며, Google 검색에서도 사이트명으로는 쉽게 찾을 수 있음  

---

### Anna’s Archive 개요
- **Anna’s Archive**는 여러 섀도 라이브러리를 통합 검색할 수 있는 **메타검색 엔진**으로, 불법 복제된 책과 자료를 찾는 기능 제공  
  - 2022년 가을, **Z-Library**가 미국 당국의 단속을 받은 직후 개설됨  
  - ‘무료’ 도서와 논문을 대중에게 계속 제공하기 위한 목적에서 출발  
- 개설 이후 3년간 **여러 국가에서 차단 조치**를 받았으며, **WorldCat 데이터 2.2TB 무단 수집** 혐의로 미국에서 소송 제기됨  
- 또한 **AI 연구자들에게 데이터 접근을 지원**하는 활동도 진행 중임  

### Google의 대규모 삭제 조치
- Google은 저작권 침해가 의심되는 URL을 **권리자 요청에 따라 검색 결과에서 제거**함  
- **Anna’s Archive** 관련해서는 총 **7억8400만 개 URL**이 신고되었으며, 이 중 **7억4900만 개가 실제 삭제**됨  
  - 일부 링크는 Google이 색인하지 않아 삭제 대상에서 제외됨  
- 비교 사례로 **The Pirate Bay**는 420만 개 URL이 삭제되어, Anna’s Archive의 규모가 훨씬 큼  
- 사이트가 여러 국가별 서브도메인을 운영하고 방대한 페이지를 보유해 **삭제 대상 URL 수가 많음**  

### 전체 Google 저작권 삭제의 5% 차지
- Google의 투명성 보고서에 따르면, 2012년 이후 총 **151억 개의 저작권 침해 URL**이 신고됨  
  - 이 중 **Anna’s Archive 관련 URL이 전체의 5%** 를 차지  
- **Penguin Random House**와 **John Wiley & Sons**가 주요 신고 주체이며, **1000개 이상의 출판사 및 저자**가 DMCA 요청을 제출  
- 현재도 매주 약 **1000만 개의 신규 URL**이 추가로 신고되고 있음  

### 검색 결과에서의 가시성
- 대규모 삭제로 인해 **도서 관련 검색어에서 사이트 노출이 감소**함  
  - 많은 URL이 비표시 처리되거나 검색 순위가 하락  
- 그러나 **‘Anna’s Archive’라는 이름으로 직접 검색하면 여전히 주요 도메인이 상위에 표시**됨  
- Google의 조치에도 불구하고 **사이트 접근 자체는 차단되지 않음**  

### 출판업계의 대응과 한계
- 출판사들은 사이트를 직접 차단하기 어려워 **Google 등 제3자 플랫폼에 삭제 요청**을 지속적으로 제출  
- **법적 압박에도 불구하고** annas-archive.org, .li, .se 등 주요 도메인은 여전히 운영 중  
- 원문에 추가적인 향후 조치나 정책 변화에 대한 언급은 없음

## Comments


### Comment 45949

- Author: neo
- Created: 2025-11-06T02:33:10+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=45816968) 
- 이상하게 들릴 수도 있지만, **Yandex**가 DMCA 요청으로 내려간 콘텐츠를 찾을 때 꽤 훌륭한 검색엔진임을 알게 되었음  
  예를 들어 Netflix에 없는 영화를 웹 스트리밍으로 보고 싶을 때, 검색 결과가 훨씬 나음  
  마치 **2005년의 Google**을 다시 쓰는 느낌임
  - 나는 몇 년 전부터 **bittorrent infohash**를 찾을 때 Yandex를 쓰기 시작했음  
    Google, Bing, DuckDuckGo가 더 이상 제대로 된 결과를 주지 않아서였음  
    요즘은 블록체인 탐색기 같은 곳에서 짧은 부분 일치만 보이는데, 이건 의도된 건지 아니면 **퍼지 매칭(fuzzy matching)** 시도 때문인지는 모르겠음  
    어쨌든 이 용도에서는 완전히 실패임
  - 나는 Kagi, Startpage, Ecosia, DDG 등 여러 검색엔진을 써봤는데, 전부 Google보다 **관련성 높은 결과**를 줌  
    Google은 너무 개인화되어 있음
  - 우크라이나인으로서 Yandex가 **선전 도구**로 변한 것에 분노를 느끼지만, 엔지니어로서는 그들의 **수십 년간의 연구 유산**과 뛰어난 검색 기술에 존경심을 가짐
  - 나는 오랫동안 검색엔진 품질을 이렇게 테스트해왔음  
    좋은 엔진은 해적 사이트를 보여주고, 훌륭한 엔진은 그것들을 **가짜 결과보다 위에** 올려줌  
    하지만 훌륭한 엔진일수록 결국 주목을 받아 그 결과를 삭제당하게 됨  
    그 시점이 되면 다른 곳을 찾아야 할 때임
  - 재미있게도 며칠 전 아내가 자기 나라의 역사 이야기를 하며 관련 영화를 추천했는데, Google, DDG, Bing, Brave 어디에서도 안 나왔음  
    그런데 Yandex에서는 **상위 3위 안에** 바로 떴음  
    참고로 DDG는 이제 Google이랑 거의 똑같고, **스폰서 결과**까지 붙었음

- **Anna’s Archive**는 이미 Google의 Gemini 학습에 필요한 데이터를 다 제공했으니, 이제는 존재하지 않는 척하는 것 같음
  - Anna’s Archive가 한때 세상의 정보를 정리하고 **보편적으로 접근 가능하게** 만든 적이 있었는지 궁금함
  - Google은 투명성 로그를 자발적으로 운영하고 있고, DMCA 준수는 법적 해석의 문제일 뿐임  
    온라인 커뮤니티가 이를 두고 **악의적인 음모론**을 만들어내는 건 이해하기 어려움

- Google이 이제 다시 검색을 한다고?  
  요즘은 내가 쓰는 **챗봇 브랜드**가 SEO 스팸 사이트 100개를 피해서 같은 정보를 찾아주는데, 그 편리함을 어떻게 이길 수 있을지 모르겠음
  - 챗봇이 Google보다 **스팸에 덜 영향받는다**는 얘기를 들었는데, 사실인지 궁금함
  - 예전에는 Google이 검색을 하던 시절이 있었던 걸로 기억함  
    (닉네임 멋짐)
  - 챗봇이 자체적인 **인터넷 규모의 인덱스**를 가진 건 아님  
    결국 정보의 출처를 직접 확인할 **판단력**을 포기한 셈임
  - 챗봇이 제공하는 링크의 25~90%는 **환각(hallucination)** 임  
    아니면 결국 Google 검색을 대신해주는 것뿐임
  - LLM 기반 AI는 본질적으로 **데이터 조작 공격**에 취약함  
    진짜 인간 수준의 AGI라면 이런 시도를 감지하겠지만, 현재의 챗봇은 그렇지 못함  
    관련 기사: [NYTimes - AI Chatbot Prompts and Manipulation](https://www.nytimes.com/2025/10/07/business/ai-chatbot-prompts-resumes.html)

- 나는 Google이 불편해할 만한 검색은 전혀 하지 않음  
  **일련번호, 기업 전화번호, 논문, 책** 같은 건 전부 Yandex나 Brave로 찾음  
  Google이 뭘 하든 상관없음, 어차피 안 씀

- Anna’s Archive가 사라지기 전에 **z-archive 토렌트**를 다 받아야겠다고 생각 중임  
  큰 PDF랑 비영어권 책을 빼면 **32TB 드라이브 두 개**에 압축해서 넣을 수 있을 듯함  
  [https://annas-archive.org/torrents](https://annas-archive.org/torrents)
  - 큰 PDF를 제거한다는 게 너무 임의적인 기준 아닐까 함  
    PDF가 큰 이유는 종종 **색상이나 해상도 문제** 때문이지, 내용 때문은 아님
  - 나는 예전에 **DPI와 색상 깊이**를 줄이고 다시 PDF로 합치는 방식으로 용량을 줄였음  
    같은 책의 여러 판본을 자동으로 식별해서 **epub 하나만 남기고 나머지를 제거**하는 것도 가능함
  - 나도 영어/독일어/프랑스어 버전 백업을 만들고 싶음  
    다만 HDD와 파일시스템이 문제라서, **토렌트 분할기** 같은 걸 직접 만들어야 할지도 모르겠음
  - 나는 **작은 파일부터 채워나가는 방식**으로 리스트를 뒤집어 정리함

- [https://annas-archive.org](https://annas-archive.org)

- 나는 이런 사이트의 콘텐츠를 Google에 의존해 찾은 적이 거의 없음  
  사이트 자체가 **제목, 저자, 형식, 날짜**로 잘 인덱싱되어 있어서 자유 검색이 충분히 가능함
  - Google 같은 웹 검색은 **유사어 검색**에 강점이 있음  
    예를 들어 “a a a a ah ah ah ah dance song”으로 검색해도 Otto Knows의 “Million Voices”를 찾아줌
  - 하지만 이런 사이트들은 **본문 전체 검색(full-text search)** 기능은 없지 않나 궁금함  
    Google도 Anna’s Archive 페이지의 본문까지는 색인하지 않을 것 같음

- 최근 **Library Genesis**가 폐쇄된 후, Anna’s Archive가 마지막 남은 책 저장소인 듯함  
  다른 대안이 있는지 궁금함
  - Anna’s Archive에서 연결된 [Open-Slum.org](https://open-slum.org/)이 있음
  - 책은 **WeLib.org**, 오디오북은 **AudiobookBay**를 추천함

- Google의 **무의미함으로의 행진**이 계속되고 있음
  - 그래도 아직 전 세계 검색 쿼리의 **97%** 는 Google이 차지하고 있음

- 웹 검색 환경이 완전히 달라졌음  
  - **폐쇄형 플랫폼(walled garden)** 이 늘어나서 검색엔진이 접근할 수 없는 영역이 많아졌음  
  - **법적 제약**으로 접근 불가능한 데이터도 많아졌음  
  - 이제는 Google뿐 아니라 Yandex, Kagi, ChatGPT까지 함께 써야 함  
  - 나는 직접 만든 인덱스 [Internet Places Database](https://github.com/rumca-js/Internet-Places-Database)도 함께 활용함