2P by GN⁺ 2시간전 | ★ favorite | 댓글 2개
  • Pokémon Central Wiki는 15년 넘게 이탈리아어 Pokémon 정보의 주요 출처였지만, 현재 Google 검색 결과에서 거의 사라짐
  • wiki.pokemoncentral.it는 MediaWiki 기반의 대형 위키인데도 site: 검색 결과가 문자 그대로 4개만 반환됨
  • 색인 급감은 2026년 3월 core update 전후에 시작됐고, Search Console에는 "crawled - currently not indexed"가 대량으로 표시됨
  • Bing, DuckDuckGo 등은 정상 색인 중이라 Google 한정 문제로 보이며, Google-Extended 차단은 문서상 색인에 영향이 없어야 함
  • 서버·Cloudflare 설정, Open Graph와 schema.org 태그, SWR 등 최적화를 적용했지만 아직 효과가 없고 원인은 불명확함

Google 검색 색인 급감

  • Pokémon Central Wiki는 15년 넘게 이탈리아어 Pokémon 정보의 가장 잘 알려진 출처였지만, 현재 Google 검색 결과에 거의 나타나지 않음
  • wiki.pokemoncentral.it는 Wikipedia에 쓰이는 오픈소스 소프트웨어 MediaWiki로 운영되며, Wikistats 기준 전 세계 상위 500대 MediaWiki 인스턴스 중 하나임
  • PCW는 Encyclopaediae Pokémonis 국제 위키 네트워크의 일부이며, 이 네트워크에는 Bulbapedia도 포함됨
  • 많은 콘텐츠는 허가를 받아 Bulbapedia에서 번역됐고, 수천 명의 인간 자원봉사자가 작업에 참여함
  • 다른 EP 위키들은 커뮤니티 확인과 site: 검색 기준으로 정상 색인되고 있음
  • PCW에 대해 site:http://wiki.pokemoncentral.it 검색을 하면 현재 결과가 4개만 반환됨
  • 몇 주 전 2026년 3월 core update 전후로 Google Search Console에서 많은 페이지가 "crawled - currently not indexed" 상태로 나타나기 시작함
  • Google은 해당 페이지가 앞으로 색인될 수도 있고 아닐 수도 있다고만 표시하며, 구체적인 이유는 제공하지 않음

확인한 원인과 대응

  • 콘텐츠 품질 저하나 운영 문제로 보기는 어려움
    • 편집 정책 변경, 남용, 품질 저하가 없었음
    • 5xx 오류 같은 순수 기술 문제라면 Google Search Console에 다른 형태로 표시됐을 가능성이 큼
  • Google에 한정된 문제로 보임
    • Bing, DuckDuckGo, 기타 검색엔진은 PCW를 정상적으로 색인하고 있음
  • Cloudflare를 통해 AI 학습용 스크레이퍼는 차단하고 있음
    • 사용자 질의에서 PCW를 근거 자료나 참조로 쓰려는 AI 봇은 차단하지 않음
    • robots.txt에서 Google-Extended를 차단하지만, Google 문서상 이는 검색 색인에 영향을 주지 않아야 함
  • Cloudflare의 managed challenge는 페이지 이력, 기술 페이지 등 색인에 중요하지 않은 섹션에만 적용됨
    • 이 섹션들은 robots.txt에서 명시적으로 허용되지 않음
    • 해당 페이지들은 캐시하기 어렵고 서버 자원을 많이 사용함
    • 봇들이 분당 수천 건의 요청을 보내 서버에 과부하를 일으킴
  • 서버와 Cloudflare 설정을 조정해 사이트 속도를 높였음
    • 최근 몇 주 동안 적용 가능한 정직한 SEO와 최적화 모범 사례를 반영함
    • Claude Code로 Open Graph와 schema.org 태그를 반복 개선함
    • Cloudflare SWR을 동작하게 해 대부분의 요청이 서버를 거치지 않고 엣지에서 밀리초 단위로 제공되며 백그라운드에서 재검증되도록 함
  • 이런 변경은 아직 효과를 내지 못함
    • 변경 반영에는 몇 주가 걸릴 수 있고, Google은 불투명해 실제 효과 여부를 바로 확인하기 어려움
  • 가능한 추정은 Google이 알고리듬을 조정하면서 AI 시대에 PCW의 “콘텐츠 품질”을 충분하지 않다고 판단했을 가능성임
    • LLM들은 차단 이전에 이미 PCW 텍스트로 학습됐을 가능성이 있음
    • PCW 콘텐츠를 그대로 많이 복사한 다른 사이트들은 여전히 검색 결과에 남아 있음
    • PCW 콘텐츠는 CC BY-NC-SA 라이선스라 일반적으로 복사 자체가 문제가 되지는 않음
  • 충성도 높은 방문자들은 상황을 이해하지 못해 문의하고 있으며, Reddit에도 관련 글이 올라옴
  • 현재는 직접 방문할 수 있도록 wiki.pokemoncentral.it를 북마크하라고 안내하고 있음
  • Google 내부에서 확인할 수 있는 사람에게 닿아 무슨 일이 일어나는지 이해하길 바라고 있음

댓글과 토론

이거 구글쪽 문제가 맞는거 같아요. 저도 운영중인 여러 사이트에서 동일하게 일어납니다.
그냥 아무 이유없이 구글이 인덱싱을 안하고 있어요. 언젠가 할지도 모른다고 하지만, 정말 언젠가일듯

Google의 AI가 조작되고 있다. 검색 거인은 조용히 반격 중

이런거는 처리 못하고, 잘 운영되는 사이트는 인덱싱 거부하고.. 게다가 AI 결과를 더 중시한다고 하니
구글이 어디로 가는지는 저도 잘 모르겠..

Hacker News 의견들
  • Google이 우리를 싫어하는 게 아니라, 더 나쁘게도 무관심한 것에 가까움
    싫어하려면 최소한 인식은 해야 함. 이 사건 하나만으로는 별 의미가 없을 수도 있지만, 전반적으로 Google은 묘한 방향으로 가고 있음. 한때 최첨단이었지만 20년 만에 품질을 주주 이익에 희생하는 또 하나의 대기업이 된 듯함
    검색 엔진으로는 더 이상 쓸모가 없음. 실제로 찾는 것보다 위에 홍보 링크가 먼저 뜸. Kagi로 옮긴 뒤 돌아보지 않음
    AI로도 잘 맞지 않음. 5시간 뒤 초기화되는 임의의 사용 제한과, 퍼센트로 표시되는 주간 할당량이 보이는데 불투명함의 극치임. Kagi는 사용량 상세에서 남은 양이 명확히 보임. 참고로 Kagi 직원은 아니고 그냥 만족한 고객임
    클라우드 저장소로도 별로임. 같이 작업하는 공유 폴더 어딘가에 스팸 사용자나 해킹된 계정이 있는지 주기적으로 성인물 알림을 뿌림. 나만 겪는 것도 아님(https://www.reddit.com/r/techsupport/comments/1azf25v/myster...). Apple iCloud로 옮기고 끝냄
    메일은 괜찮음. 22년 동안 쓰다 보니 이제 내 삶에서 중요하지 않은 단계로 밀어뒀음. 중요한 것들은 어차피 유럽 제공업체로 옮겨둠

    • 미친 사람처럼 느껴지긴 하지만, 마지막 수단으로 Yandex를 쓰고 있는데 Google이 더 이상 보여주지 않기로 한 것 같은 자료를 찾는 데 좋은 결과가 나옴
      DDG도 써봤지만 내 용도에는 Google보다 더 나빴음
    • Google Maps에서 특정 식당을 검색하면, 그냥 전반적으로 배고픈 사람이라고 가정하는 듯함
      방금 A&W를 찾았는데 Tim Hortons, Popeyes, McDonald's도 같이 나옴. Apple Maps는 절대 그러지 않음. 그래도 영업 중인지와 영업시간이 정확한지 알고 싶어서 보통은 Google을 씀
    • Kagi는 훌륭함
      그렇다고 해도 Google 같은 거대 기업이 AlphaFold나 그보다는 덜하지만 Gemma 같은 무료이면서 뛰어난 연구를 공개하는 건 여전히 멋짐. 우리 시대의 ATT PAC Bell이나 IBM 같은 존재로 보임
    • 홍보 링크가 미쳐버린 수준이고, 상위 5~6개 링크가 광고처럼 보일 때가 많음
    • Kagi AI는 어떻게 쓰는지 궁금함
      검색 서비스는 1년째 유료로 쓰고 있지만 AI 제공 기능은 아직 살펴보지 않았음
  • 위키라서 그럴 수 있음. 요즘 위키 스패머들은 집요함
    내가 관리 돕는, 플레이어 1만 명 미만의 잘 알려지지 않은 게임용 작은 위키도 최근 신규 가입을 막아야 했음. 스팸이 너무 심했고, CAPTCHA를 지원하지 않는 오래된 MediaWiki 버전에 묶여 있었기 때문임
    인기 있는 위키라면, 이곳도 꽤 인기 있었던 것 같으니 CAPTCHA만으로는 위키 스패머를 막기 어려울 듯함. 스패머들이 단순한 “성기능 약 사세요” 쓰레기 글이 아니라 악성코드 사이트 링크까지 올렸다면, Google이 어느 정도 정당하게 그 위키를 그런 악성코드의 출처로 봤을 가능성이 있음
    원글 작성자가 할 수 있는 해결책은 위키의 악성 콘텐츠를 철저히 감사하고 정리한 뒤 Google에 이의를 제기하는 것일 듯함. 물론 Google이니 답을 한다 해도 몇 달은 걸릴 가능성이 큼
    결국 이 일을 담당하는 Google 팀에 이탈리아 Pokémon 팬이 있지 않다면 꽤 막막해 보임

    • 신규 계정 권한 제한, 잘 조정된 Cloudflare 규칙들, 최근 편집을 계속 순찰하는 헌신적인 자원봉사자 팀까지 갖춘 안티봇 시스템을 운영 중임
      3만 7천 개가 넘는 페이지 중 거의 방문되지 않는 어딘가에 스팸 링크가 하나 있을 가능성을 배제할 수는 없지만, 색인 제외의 이유라고 보기는 어려움. 그랬다면 Google Search Console에도 나타났을 것 같음
    • 프로젝트가 맞춤형 자동화를 만들 만할 정도로 유명해지면, 사실상 스팸과 싸울 방법이 없음
      충분히 작다면 가입 절차에 비표준 흐름을 하나만 넣어도 대개 모든 스팸 봇을 피할 수 있음. 예를 들어 청중만 알 만한 정적 이미지나 오디오를 두고 “봇이 아닙니다” 드롭다운에서 고르게 하거나, 첫 글/편집에 이메일 인증을 하나 더 붙이거나, YouTube 긴 영상의 특정 시점에 있는 정답을 요구하는 식임. 비표준이면 뭐든 통함
      자동화의 99.9%가 깨지고, 검색 결과 조작 스패머들은 특정 위키나 포럼만을 위한 고유 자동화를 만들지 않음
      사이트가 매우 유명하다면 당연히 끝없는 군비 경쟁이 됨. 이때는 Hashcash 같은 걸 써서 매번 CPU/GPU/RAM을 많이 태우게 만들면 스패머들이 그냥 블랙리스트에 넣을 수 있음
    • 며칠 전 여기서 어떤 사람이 일상적으로 Captcha AI 봇을 쓴다고 했는데, 한 번 푸는 비용이 0.003달러라고 했음
      그래서 CAPTCHA가 있는 새 버전이었더라도 도움이 안 됐을 수 있음
    • CAPTCHA는 스패머에게 아무것도 못 함
      가입 시 이메일 도메인을 막는 방식은 꽤 잘 통했음. 내 목록은 https://www.rejectionwiki.com/index.php?title=MediaWiki:Emai...에 있음. MediaWiki의 내장 기능이라 대부분의 버전에서 괜찮게 동작할 것임
    • 이 위키가 스팸으로 뒤덮였다고 말할 근거가 있는지, 아니면 그냥 대충 넘겨짚는 건지 모르겠음
      그들은 Twitter 스레드에서 AI 쓰레기 콘텐츠로 가득 찬 게 아니라고 명확히 말했고, “크롤링됐지만 색인되지 않음”으로 표시된 페이지 목록을 확인했지만 남용 흔적을 찾지 못했다고 했음
      관리하던 위키가 스팸 공격을 받아 놀랐던 건 이해하지만, 자기 위키에서 겪은 일을 저쪽에도 일반화하는 건 합리적이지 않음
  • 솔직히 말하면 Google 쪽의 엉성한 버그일 가능성이 큼
    검색에는 지연된 원인과 결과가 많고, 웹사이트의 0.1%가 크롤링이나 색인에서 빠지게 하는 작은 실수를 저지르는 것은 그 일이 벌어졌다는 걸 감지하는 것보다 훨씬 쉬움. affected 사이트가 알려주기 전까지는 특히 그렇다
    marginalia에서도 버그를 겪은 적이 있음. 루트 경로가 HEAD는 지원하지 않지만 Range 헤더가 있는 GET은 지원하고, HTTP 206으로 올바르게 응답하는 경우 해당 사이트가 색인되지 않았음. 초기 탐색으로 루트 문서의 문제를 검사하던 코드가 그것을 오류 상태로 처리했기 때문임
    범위 요청을 지원하는 사이트 대부분은 HEAD도 지원함. 보통 문서가 동적으로 생성되지 않는다는 뜻이기 때문임. 다만 Caddy 기반 설정 일부, 서버의 약 0.3% 정도는 예외였음

    • 아니면 어떤 AI가 보여주고 싶지 않은 종류의 콘텐츠라고 표시했을 수도 있음
      그런 판별이 완벽할 방법은 없음
    • 색인된 페이지가 51만 1천 개에서 11개로 줄었다면, 그건 꽤 심각한 엉성함임
  • Google이 이미 데이터를 긁어가서 모델 학습까지 끝냈는데 왜 굳이 웹사이트로 트래픽을 보내야 하겠음
    콘텐츠 제작자와 정상 웹사이트들은 한 번 이용당하고 버려진 셈임

    • Google을 이런 식으로 의인화하는 건 현실적이지 않음
      Google의 검색팀만 해도 수천 명으로 이루어져 있고, 모두 웹을 덜 접근 가능하게가 아니라 더 접근 가능하게 만들겠다는 큰 임무 아래 각기 다른 일을 하고 있음. 그들 중 누구의 배포든 이런 종류의 부작용을 만들 수 있음
      의도적인 정책 구현이었을 가능성도 있긴 하지만, 확률은 매우 낮아 보임
    • 나도 같은 생각을 했음. 이런 데이터의 상당수는 안정적이고 정적이지 않나
      말뭉치가 이미 기능적으로 완성돼 있다면, 가치가 낮은 것들을 계속 다시 크롤링하고 색인할 이유가 뭔지 모르겠음
    • 그 표현을 읽을 때 David Bowie의 Suffragette City를 듣고 있었음
      Bowie가 “wham bam, thank you ma’am” 표현을 대중화한 사람 중 하나였던 듯함
    • 그럼 지난 20년 동안 광고 차단 사용자들이 해온 것과 같은 일 아닌가
      반대표를 눌러도 차이를 설명하지는 못할 것임
      광고 차단 사용자가 창작자의 수익을 막는다고 하면, 1996년의 인터넷도 괜찮았다거나, 온라인에 콘텐츠를 올린다고 보상을 기대하면 안 된다거나, 자기 컴퓨터니 무엇을 로드할지 선택할 수 있다는 말을 하곤 했음. 그 논리들은 어디 갔나
  • 몇 주 전에 내 블로그에도 같은 일이 일어났음
    수년 동안 잘 참조되던 블로그였는데, 갑자기 거의 모든 글이 더 이상 색인되지 않음. Search Console에는 URL이 크롤링됐지만 현재 색인되지 않았다고 나오고, 기술적 문제와 달리 내가 고칠 수 있는 게 없음. 이제 내 글 대부분은 Google로 찾을 수 없다는 걸 받아들여야 함
    실제로 관련 있다고 생각하진 않지만, 돌이켜보니 내 콘텐츠를 LLM 학습에 쓰지 못하게 하려고 TDMRep 설정을 시작한 시점과 타이밍이 맞음

    • 나도 같음. 개인 블로그를 20년 넘게 운영해 왔는데, 작년에 Google에서 내 블로그 링크를 하나도 찾을 수 없었음
      Google Search Console에 들어가 보니 모든 링크가 “크롤링됐지만 색인되지 않음” 상태였고, 이유는 제공되지 않았음
    • Google이 이미 사이트의 학습 데이터를 빨아갔다면, 색인하지 않는 건 Google 검색을 사이트 발견에 쓰는 경쟁자들에 대해 일종의 해자가 될 수 있음
  • 진짜 커뮤니티 사이트를 만든 것이 고전적인 SEO 실수였음
    Reddit 스레드, 쿠폰 하위 폴더, AI 요약을 만들었어야 했음. 농담은 제쳐두고, 곧 회복할 수 있기를 바람

  • Google이 우리 모두를 싫어한다고까지 말할 수 있음

    • Google은 우리 중 누구도 싫어하지도 사랑하지도 않음
      기관으로서 신경 쓰는 건 최대한 많은 사람 앞에 최대한 많은 광고를 밀어 넣어, 점점 더 터무니없는 돈더미를 만드는 것뿐임
      Google을 옹호하려는 말은 아님. Google은 거의 모든 대기업처럼 완전히 소시오패스적
  • 참고로 Google은 OpenCV도 싫어함
    예전에는 쉽게 검색되던 것, 예를 들어 “opencv orb”를 검색하면 이제 스팸 사이트가 페이지 단위로 나옴. 기본적으로 “여기서 OpenCV 배우기!” 류의 블로그 스팸임
    “docs.opencv.org”의 첫 결과가 문자 그대로 4페이지에 나오고, 그것도 9년 된 3.4 버전을 가리킴
    내가 원하는 페이지인 https://docs.opencv.org/4.13.0/dc/dc3/tutorial_py_matcher.ht...는 어디에도 없음

    • 구독자 비용으로 운영되지 않는 제품들은 엔시티피케이션 때문에 이미 한동안 벽에 쓰인 글자가 보였다고 생각함
      돈으로 투표하고, 광고주 지향이 아니라 고객 지향인 더 나은 제품으로 옮겨야 함
      십대와 청년 시절 Newgrounds를 둘러보며 서버 운영비를 내는 사람들에게 고마워했던 기억이 좋게 남아 있음. 자리를 잡고 여윳돈이 생기면 나도 다음 사람들을 위해 내겠다고 다짐했고, 예상보다 오래 걸렸지만 거의 10년 동안 그렇게 해오고 있음
      그래서 그런 문화를 정상화하자고 권하고 싶음. 일정 비율의 유료 고객이 있어서, 돈을 낼 수 없는 사람들에게 무료를 유지하거나 성장을 지원할 수 있는 구조 말임. Newgrounds 같은 훌륭한 사이트에서 수만 명의 프로그래밍과 애니메이션 커리어가 시작됐거나 적어도 영감을 받았을 가능성이 크고, 사회적으로도 순효과가 매우 컸다고 봄
    • Google에서 OpenStack 문서도 비슷한 문제를 겪었음
  • 어제 기조연설과 Search 변경을 보면, 가까운 미래에 Google은 웹사이트로 트래픽을 보내는 일을 멈출 것이 분명해졌음
    검색 결과는 그냥 Gemini 답변의 각주가 될 것임

  • 위키는 SEO 관점에서 위험도가 높음
    내 개인 위키를 색인되게 만드는 것도 너무 어려워서 거의 포기했는데, 이쪽에 더 익숙한 친구가 필요한 설정을 모두 제자리에 두도록 도와줘서 겨우 됐음
    조심하지 않으면 사람들이 사이트 곳곳에 스팸을 쉽게 넣을 수 있고, 그러면 검색 엔진에서의 존재감이 정말 망가짐
    다만 Google은 정말 큼. 정말, 정말 큼. 너무 커서 Google 내부 사람들조차 이런 주제에서는 Google에게 모두 신뢰받는 존재가 아님
    그래도 Google이 위키 전반을 싫어하는 것은 아님. 다만 많은 작업을 해야 하고, 위키에 스팸이 없도록 확인하고, 메타 태그 정보를 채우고, sitemap.xml도 갖추는 등 여러 가지가 필요함. 내 위키 예시는 여기 있음: https://wiki.roshangeorge.dev/w/images/8/89/Screenshot_-_Goo...