4P by GN⁺ 4일전 | ★ favorite | 댓글 1개
  • Anna’s Archive는 해적판 전자책과 자료를 찾을 수 있는 섀도 라이브러리 메타검색 엔진으로, 2022년 가을에 개설됨
  • 지난 3년간 출판사와 저자들의 저작권 신고로 인해 Google이 이 사이트의 7억4900만 개 URL을 검색 결과에서 삭제
  • 이는 Google이 지금까지 처리한 모든 저작권 관련 URL의 5% 에 해당하며, The Pirate Bay보다 훨씬 많은 규모
  • Penguin Random House, John Wiley & Sons 등 1000여 개 이상의 권리자가 DMCA 요청을 제출했으며, 매주 약 1000만 개의 신규 URL이 신고되고 있음
  • 대규모 삭제에도 불구하고 Anna’s Archive의 주요 도메인은 여전히 접근 가능하며, Google 검색에서도 사이트명으로는 쉽게 찾을 수 있음

Anna’s Archive 개요

  • Anna’s Archive는 여러 섀도 라이브러리를 통합 검색할 수 있는 메타검색 엔진으로, 불법 복제된 책과 자료를 찾는 기능 제공
    • 2022년 가을, Z-Library가 미국 당국의 단속을 받은 직후 개설됨
    • ‘무료’ 도서와 논문을 대중에게 계속 제공하기 위한 목적에서 출발
  • 개설 이후 3년간 여러 국가에서 차단 조치를 받았으며, WorldCat 데이터 2.2TB 무단 수집 혐의로 미국에서 소송 제기됨
  • 또한 AI 연구자들에게 데이터 접근을 지원하는 활동도 진행 중임

Google의 대규모 삭제 조치

  • Google은 저작권 침해가 의심되는 URL을 권리자 요청에 따라 검색 결과에서 제거
  • Anna’s Archive 관련해서는 총 7억8400만 개 URL이 신고되었으며, 이 중 7억4900만 개가 실제 삭제
    • 일부 링크는 Google이 색인하지 않아 삭제 대상에서 제외됨
  • 비교 사례로 The Pirate Bay는 420만 개 URL이 삭제되어, Anna’s Archive의 규모가 훨씬 큼
  • 사이트가 여러 국가별 서브도메인을 운영하고 방대한 페이지를 보유해 삭제 대상 URL 수가 많음

전체 Google 저작권 삭제의 5% 차지

  • Google의 투명성 보고서에 따르면, 2012년 이후 총 151억 개의 저작권 침해 URL이 신고됨
    • 이 중 Anna’s Archive 관련 URL이 전체의 5% 를 차지
  • Penguin Random HouseJohn Wiley & Sons가 주요 신고 주체이며, 1000개 이상의 출판사 및 저자가 DMCA 요청을 제출
  • 현재도 매주 약 1000만 개의 신규 URL이 추가로 신고되고 있음

검색 결과에서의 가시성

  • 대규모 삭제로 인해 도서 관련 검색어에서 사이트 노출이 감소
    • 많은 URL이 비표시 처리되거나 검색 순위가 하락
  • 그러나 ‘Anna’s Archive’라는 이름으로 직접 검색하면 여전히 주요 도메인이 상위에 표시
  • Google의 조치에도 불구하고 사이트 접근 자체는 차단되지 않음

출판업계의 대응과 한계

  • 출판사들은 사이트를 직접 차단하기 어려워 Google 등 제3자 플랫폼에 삭제 요청을 지속적으로 제출
  • 법적 압박에도 불구하고 annas-archive.org, .li, .se 등 주요 도메인은 여전히 운영 중
  • 원문에 추가적인 향후 조치나 정책 변화에 대한 언급은 없음
Hacker News 의견
  • 이상하게 들릴 수도 있지만, Yandex가 DMCA 요청으로 내려간 콘텐츠를 찾을 때 꽤 훌륭한 검색엔진임을 알게 되었음
    예를 들어 Netflix에 없는 영화를 웹 스트리밍으로 보고 싶을 때, 검색 결과가 훨씬 나음
    마치 2005년의 Google을 다시 쓰는 느낌임

    • 나는 몇 년 전부터 bittorrent infohash를 찾을 때 Yandex를 쓰기 시작했음
      Google, Bing, DuckDuckGo가 더 이상 제대로 된 결과를 주지 않아서였음
      요즘은 블록체인 탐색기 같은 곳에서 짧은 부분 일치만 보이는데, 이건 의도된 건지 아니면 퍼지 매칭(fuzzy matching) 시도 때문인지는 모르겠음
      어쨌든 이 용도에서는 완전히 실패임
    • 나는 Kagi, Startpage, Ecosia, DDG 등 여러 검색엔진을 써봤는데, 전부 Google보다 관련성 높은 결과를 줌
      Google은 너무 개인화되어 있음
    • 우크라이나인으로서 Yandex가 선전 도구로 변한 것에 분노를 느끼지만, 엔지니어로서는 그들의 수십 년간의 연구 유산과 뛰어난 검색 기술에 존경심을 가짐
    • 나는 오랫동안 검색엔진 품질을 이렇게 테스트해왔음
      좋은 엔진은 해적 사이트를 보여주고, 훌륭한 엔진은 그것들을 가짜 결과보다 위에 올려줌
      하지만 훌륭한 엔진일수록 결국 주목을 받아 그 결과를 삭제당하게 됨
      그 시점이 되면 다른 곳을 찾아야 할 때임
    • 재미있게도 며칠 전 아내가 자기 나라의 역사 이야기를 하며 관련 영화를 추천했는데, Google, DDG, Bing, Brave 어디에서도 안 나왔음
      그런데 Yandex에서는 상위 3위 안에 바로 떴음
      참고로 DDG는 이제 Google이랑 거의 똑같고, 스폰서 결과까지 붙었음
  • Anna’s Archive는 이미 Google의 Gemini 학습에 필요한 데이터를 다 제공했으니, 이제는 존재하지 않는 척하는 것 같음

    • Anna’s Archive가 한때 세상의 정보를 정리하고 보편적으로 접근 가능하게 만든 적이 있었는지 궁금함
    • Google은 투명성 로그를 자발적으로 운영하고 있고, DMCA 준수는 법적 해석의 문제일 뿐임
      온라인 커뮤니티가 이를 두고 악의적인 음모론을 만들어내는 건 이해하기 어려움
  • Google이 이제 다시 검색을 한다고?
    요즘은 내가 쓰는 챗봇 브랜드가 SEO 스팸 사이트 100개를 피해서 같은 정보를 찾아주는데, 그 편리함을 어떻게 이길 수 있을지 모르겠음

    • 챗봇이 Google보다 스팸에 덜 영향받는다는 얘기를 들었는데, 사실인지 궁금함
    • 예전에는 Google이 검색을 하던 시절이 있었던 걸로 기억함
      (닉네임 멋짐)
    • 챗봇이 자체적인 인터넷 규모의 인덱스를 가진 건 아님
      결국 정보의 출처를 직접 확인할 판단력을 포기한 셈임
    • 챗봇이 제공하는 링크의 25~90%는 환각(hallucination)
      아니면 결국 Google 검색을 대신해주는 것뿐임
    • LLM 기반 AI는 본질적으로 데이터 조작 공격에 취약함
      진짜 인간 수준의 AGI라면 이런 시도를 감지하겠지만, 현재의 챗봇은 그렇지 못함
      관련 기사: NYTimes - AI Chatbot Prompts and Manipulation
  • 나는 Google이 불편해할 만한 검색은 전혀 하지 않음
    일련번호, 기업 전화번호, 논문, 책 같은 건 전부 Yandex나 Brave로 찾음
    Google이 뭘 하든 상관없음, 어차피 안 씀

  • Anna’s Archive가 사라지기 전에 z-archive 토렌트를 다 받아야겠다고 생각 중임
    큰 PDF랑 비영어권 책을 빼면 32TB 드라이브 두 개에 압축해서 넣을 수 있을 듯함
    https://annas-archive.org/torrents

    • 큰 PDF를 제거한다는 게 너무 임의적인 기준 아닐까 함
      PDF가 큰 이유는 종종 색상이나 해상도 문제 때문이지, 내용 때문은 아님
    • 나는 예전에 DPI와 색상 깊이를 줄이고 다시 PDF로 합치는 방식으로 용량을 줄였음
      같은 책의 여러 판본을 자동으로 식별해서 epub 하나만 남기고 나머지를 제거하는 것도 가능함
    • 나도 영어/독일어/프랑스어 버전 백업을 만들고 싶음
      다만 HDD와 파일시스템이 문제라서, 토렌트 분할기 같은 걸 직접 만들어야 할지도 모르겠음
    • 나는 작은 파일부터 채워나가는 방식으로 리스트를 뒤집어 정리함
  • https://annas-archive.org

  • 나는 이런 사이트의 콘텐츠를 Google에 의존해 찾은 적이 거의 없음
    사이트 자체가 제목, 저자, 형식, 날짜로 잘 인덱싱되어 있어서 자유 검색이 충분히 가능함

    • Google 같은 웹 검색은 유사어 검색에 강점이 있음
      예를 들어 “a a a a ah ah ah ah dance song”으로 검색해도 Otto Knows의 “Million Voices”를 찾아줌
    • 하지만 이런 사이트들은 본문 전체 검색(full-text search) 기능은 없지 않나 궁금함
      Google도 Anna’s Archive 페이지의 본문까지는 색인하지 않을 것 같음
  • 최근 Library Genesis가 폐쇄된 후, Anna’s Archive가 마지막 남은 책 저장소인 듯함
    다른 대안이 있는지 궁금함

    • Anna’s Archive에서 연결된 Open-Slum.org이 있음
    • 책은 WeLib.org, 오디오북은 AudiobookBay를 추천함
  • Google의 무의미함으로의 행진이 계속되고 있음

    • 그래도 아직 전 세계 검색 쿼리의 97% 는 Google이 차지하고 있음
  • 웹 검색 환경이 완전히 달라졌음

    • 폐쇄형 플랫폼(walled garden) 이 늘어나서 검색엔진이 접근할 수 없는 영역이 많아졌음
    • 법적 제약으로 접근 불가능한 데이터도 많아졌음
    • 이제는 Google뿐 아니라 Yandex, Kagi, ChatGPT까지 함께 써야 함
    • 나는 직접 만든 인덱스 Internet Places Database도 함께 활용함