Google이 검색 결과에서 Anna’s Archive

▲

GN⁺ 6달전 | parent | ★ favorite | on: Google이 검색 결과에서 Anna’s Archive 관련 7억4900만 개 URL 삭제(torrentfreak.com)

Hacker News 의견

이상하게 들릴 수도 있지만, Yandex가 DMCA 요청으로 내려간 콘텐츠를 찾을 때 꽤 훌륭한 검색엔진임을 알게 되었음
예를 들어 Netflix에 없는 영화를 웹 스트리밍으로 보고 싶을 때, 검색 결과가 훨씬 나음
마치 2005년의 Google을 다시 쓰는 느낌임
- 나는 몇 년 전부터 bittorrent infohash를 찾을 때 Yandex를 쓰기 시작했음
  Google, Bing, DuckDuckGo가 더 이상 제대로 된 결과를 주지 않아서였음
  요즘은 블록체인 탐색기 같은 곳에서 짧은 부분 일치만 보이는데, 이건 의도된 건지 아니면 퍼지 매칭(fuzzy matching) 시도 때문인지는 모르겠음
  어쨌든 이 용도에서는 완전히 실패임
- 나는 Kagi, Startpage, Ecosia, DDG 등 여러 검색엔진을 써봤는데, 전부 Google보다 관련성 높은 결과를 줌
  Google은 너무 개인화되어 있음
- 우크라이나인으로서 Yandex가 선전 도구로 변한 것에 분노를 느끼지만, 엔지니어로서는 그들의 수십 년간의 연구 유산과 뛰어난 검색 기술에 존경심을 가짐
- 나는 오랫동안 검색엔진 품질을 이렇게 테스트해왔음
  좋은 엔진은 해적 사이트를 보여주고, 훌륭한 엔진은 그것들을 가짜 결과보다 위에 올려줌
  하지만 훌륭한 엔진일수록 결국 주목을 받아 그 결과를 삭제당하게 됨
  그 시점이 되면 다른 곳을 찾아야 할 때임
- 재미있게도 며칠 전 아내가 자기 나라의 역사 이야기를 하며 관련 영화를 추천했는데, Google, DDG, Bing, Brave 어디에서도 안 나왔음
  그런데 Yandex에서는 상위 3위 안에 바로 떴음
  참고로 DDG는 이제 Google이랑 거의 똑같고, 스폰서 결과까지 붙었음
Anna’s Archive는 이미 Google의 Gemini 학습에 필요한 데이터를 다 제공했으니, 이제는 존재하지 않는 척하는 것 같음
- Anna’s Archive가 한때 세상의 정보를 정리하고 보편적으로 접근 가능하게 만든 적이 있었는지 궁금함
- Google은 투명성 로그를 자발적으로 운영하고 있고, DMCA 준수는 법적 해석의 문제일 뿐임
  온라인 커뮤니티가 이를 두고 악의적인 음모론을 만들어내는 건 이해하기 어려움
Google이 이제 다시 검색을 한다고?
요즘은 내가 쓰는 챗봇 브랜드가 SEO 스팸 사이트 100개를 피해서 같은 정보를 찾아주는데, 그 편리함을 어떻게 이길 수 있을지 모르겠음
- 챗봇이 Google보다 스팸에 덜 영향받는다는 얘기를 들었는데, 사실인지 궁금함
- 예전에는 Google이 검색을 하던 시절이 있었던 걸로 기억함
  (닉네임 멋짐)
- 챗봇이 자체적인 인터넷 규모의 인덱스를 가진 건 아님
  결국 정보의 출처를 직접 확인할 판단력을 포기한 셈임
- 챗봇이 제공하는 링크의 25~90%는 환각(hallucination) 임
  아니면 결국 Google 검색을 대신해주는 것뿐임
- LLM 기반 AI는 본질적으로 데이터 조작 공격에 취약함
  진짜 인간 수준의 AGI라면 이런 시도를 감지하겠지만, 현재의 챗봇은 그렇지 못함
  관련 기사: NYTimes - AI Chatbot Prompts and Manipulation
나는 Google이 불편해할 만한 검색은 전혀 하지 않음
일련번호, 기업 전화번호, 논문, 책 같은 건 전부 Yandex나 Brave로 찾음
Google이 뭘 하든 상관없음, 어차피 안 씀
Anna’s Archive가 사라지기 전에 z-archive 토렌트를 다 받아야겠다고 생각 중임
큰 PDF랑 비영어권 책을 빼면 32TB 드라이브 두 개에 압축해서 넣을 수 있을 듯함
https://annas-archive.org/torrents
- 큰 PDF를 제거한다는 게 너무 임의적인 기준 아닐까 함
  PDF가 큰 이유는 종종 색상이나 해상도 문제 때문이지, 내용 때문은 아님
- 나는 예전에 DPI와 색상 깊이를 줄이고 다시 PDF로 합치는 방식으로 용량을 줄였음
  같은 책의 여러 판본을 자동으로 식별해서 epub 하나만 남기고 나머지를 제거하는 것도 가능함
- 나도 영어/독일어/프랑스어 버전 백업을 만들고 싶음
  다만 HDD와 파일시스템이 문제라서, 토렌트 분할기 같은 걸 직접 만들어야 할지도 모르겠음
- 나는 작은 파일부터 채워나가는 방식으로 리스트를 뒤집어 정리함
https://annas-archive.org
나는 이런 사이트의 콘텐츠를 Google에 의존해 찾은 적이 거의 없음
사이트 자체가 제목, 저자, 형식, 날짜로 잘 인덱싱되어 있어서 자유 검색이 충분히 가능함
- Google 같은 웹 검색은 유사어 검색에 강점이 있음
  예를 들어 “a a a a ah ah ah ah dance song”으로 검색해도 Otto Knows의 “Million Voices”를 찾아줌
- 하지만 이런 사이트들은 본문 전체 검색(full-text search) 기능은 없지 않나 궁금함
  Google도 Anna’s Archive 페이지의 본문까지는 색인하지 않을 것 같음
최근 Library Genesis가 폐쇄된 후, Anna’s Archive가 마지막 남은 책 저장소인 듯함
다른 대안이 있는지 궁금함
- Anna’s Archive에서 연결된 Open-Slum.org이 있음
- 책은 WeLib.org, 오디오북은 AudiobookBay를 추천함
Google의 무의미함으로의 행진이 계속되고 있음
- 그래도 아직 전 세계 검색 쿼리의 97% 는 Google이 차지하고 있음
웹 검색 환경이 완전히 달라졌음
- 폐쇄형 플랫폼(walled garden) 이 늘어나서 검색엔진이 접근할 수 없는 영역이 많아졌음
- 법적 제약으로 접근 불가능한 데이터도 많아졌음
- 이제는 Google뿐 아니라 Yandex, Kagi, ChatGPT까지 함께 써야 함
- 나는 직접 만든 인덱스 Internet Places Database도 함께 활용함