이상하게 들릴 수도 있지만, Yandex가 DMCA 요청으로 내려간 콘텐츠를 찾을 때 꽤 훌륭한 검색엔진임을 알게 되었음
예를 들어 Netflix에 없는 영화를 웹 스트리밍으로 보고 싶을 때, 검색 결과가 훨씬 나음
마치 2005년의 Google을 다시 쓰는 느낌임
나는 몇 년 전부터 bittorrent infohash를 찾을 때 Yandex를 쓰기 시작했음
Google, Bing, DuckDuckGo가 더 이상 제대로 된 결과를 주지 않아서였음
요즘은 블록체인 탐색기 같은 곳에서 짧은 부분 일치만 보이는데, 이건 의도된 건지 아니면 퍼지 매칭(fuzzy matching) 시도 때문인지는 모르겠음
어쨌든 이 용도에서는 완전히 실패임
나는 Kagi, Startpage, Ecosia, DDG 등 여러 검색엔진을 써봤는데, 전부 Google보다 관련성 높은 결과를 줌
Google은 너무 개인화되어 있음
우크라이나인으로서 Yandex가 선전 도구로 변한 것에 분노를 느끼지만, 엔지니어로서는 그들의 수십 년간의 연구 유산과 뛰어난 검색 기술에 존경심을 가짐
나는 오랫동안 검색엔진 품질을 이렇게 테스트해왔음
좋은 엔진은 해적 사이트를 보여주고, 훌륭한 엔진은 그것들을 가짜 결과보다 위에 올려줌
하지만 훌륭한 엔진일수록 결국 주목을 받아 그 결과를 삭제당하게 됨
그 시점이 되면 다른 곳을 찾아야 할 때임
재미있게도 며칠 전 아내가 자기 나라의 역사 이야기를 하며 관련 영화를 추천했는데, Google, DDG, Bing, Brave 어디에서도 안 나왔음
그런데 Yandex에서는 상위 3위 안에 바로 떴음
참고로 DDG는 이제 Google이랑 거의 똑같고, 스폰서 결과까지 붙었음
Anna’s Archive는 이미 Google의 Gemini 학습에 필요한 데이터를 다 제공했으니, 이제는 존재하지 않는 척하는 것 같음
Anna’s Archive가 한때 세상의 정보를 정리하고 보편적으로 접근 가능하게 만든 적이 있었는지 궁금함
Google은 투명성 로그를 자발적으로 운영하고 있고, DMCA 준수는 법적 해석의 문제일 뿐임
온라인 커뮤니티가 이를 두고 악의적인 음모론을 만들어내는 건 이해하기 어려움
Google이 이제 다시 검색을 한다고?
요즘은 내가 쓰는 챗봇 브랜드가 SEO 스팸 사이트 100개를 피해서 같은 정보를 찾아주는데, 그 편리함을 어떻게 이길 수 있을지 모르겠음
챗봇이 Google보다 스팸에 덜 영향받는다는 얘기를 들었는데, 사실인지 궁금함
예전에는 Google이 검색을 하던 시절이 있었던 걸로 기억함
(닉네임 멋짐)
챗봇이 자체적인 인터넷 규모의 인덱스를 가진 건 아님
결국 정보의 출처를 직접 확인할 판단력을 포기한 셈임
챗봇이 제공하는 링크의 25~90%는 환각(hallucination) 임
아니면 결국 Google 검색을 대신해주는 것뿐임
Hacker News 의견
이상하게 들릴 수도 있지만, Yandex가 DMCA 요청으로 내려간 콘텐츠를 찾을 때 꽤 훌륭한 검색엔진임을 알게 되었음
예를 들어 Netflix에 없는 영화를 웹 스트리밍으로 보고 싶을 때, 검색 결과가 훨씬 나음
마치 2005년의 Google을 다시 쓰는 느낌임
Google, Bing, DuckDuckGo가 더 이상 제대로 된 결과를 주지 않아서였음
요즘은 블록체인 탐색기 같은 곳에서 짧은 부분 일치만 보이는데, 이건 의도된 건지 아니면 퍼지 매칭(fuzzy matching) 시도 때문인지는 모르겠음
어쨌든 이 용도에서는 완전히 실패임
Google은 너무 개인화되어 있음
좋은 엔진은 해적 사이트를 보여주고, 훌륭한 엔진은 그것들을 가짜 결과보다 위에 올려줌
하지만 훌륭한 엔진일수록 결국 주목을 받아 그 결과를 삭제당하게 됨
그 시점이 되면 다른 곳을 찾아야 할 때임
그런데 Yandex에서는 상위 3위 안에 바로 떴음
참고로 DDG는 이제 Google이랑 거의 똑같고, 스폰서 결과까지 붙었음
Anna’s Archive는 이미 Google의 Gemini 학습에 필요한 데이터를 다 제공했으니, 이제는 존재하지 않는 척하는 것 같음
온라인 커뮤니티가 이를 두고 악의적인 음모론을 만들어내는 건 이해하기 어려움
Google이 이제 다시 검색을 한다고?
요즘은 내가 쓰는 챗봇 브랜드가 SEO 스팸 사이트 100개를 피해서 같은 정보를 찾아주는데, 그 편리함을 어떻게 이길 수 있을지 모르겠음
(닉네임 멋짐)
결국 정보의 출처를 직접 확인할 판단력을 포기한 셈임
아니면 결국 Google 검색을 대신해주는 것뿐임
진짜 인간 수준의 AGI라면 이런 시도를 감지하겠지만, 현재의 챗봇은 그렇지 못함
관련 기사: NYTimes - AI Chatbot Prompts and Manipulation
나는 Google이 불편해할 만한 검색은 전혀 하지 않음
일련번호, 기업 전화번호, 논문, 책 같은 건 전부 Yandex나 Brave로 찾음
Google이 뭘 하든 상관없음, 어차피 안 씀
Anna’s Archive가 사라지기 전에 z-archive 토렌트를 다 받아야겠다고 생각 중임
큰 PDF랑 비영어권 책을 빼면 32TB 드라이브 두 개에 압축해서 넣을 수 있을 듯함
https://annas-archive.org/torrents
PDF가 큰 이유는 종종 색상이나 해상도 문제 때문이지, 내용 때문은 아님
같은 책의 여러 판본을 자동으로 식별해서 epub 하나만 남기고 나머지를 제거하는 것도 가능함
다만 HDD와 파일시스템이 문제라서, 토렌트 분할기 같은 걸 직접 만들어야 할지도 모르겠음
https://annas-archive.org
나는 이런 사이트의 콘텐츠를 Google에 의존해 찾은 적이 거의 없음
사이트 자체가 제목, 저자, 형식, 날짜로 잘 인덱싱되어 있어서 자유 검색이 충분히 가능함
예를 들어 “a a a a ah ah ah ah dance song”으로 검색해도 Otto Knows의 “Million Voices”를 찾아줌
Google도 Anna’s Archive 페이지의 본문까지는 색인하지 않을 것 같음
최근 Library Genesis가 폐쇄된 후, Anna’s Archive가 마지막 남은 책 저장소인 듯함
다른 대안이 있는지 궁금함
Google의 무의미함으로의 행진이 계속되고 있음
웹 검색 환경이 완전히 달라졌음