1P by GN⁺ 2일전 | ★ favorite | 댓글 1개
  • 개인 블로그 blog.james-zhan.com이 개설 한 달 만에 Google 검색 색인에서 완전히 제외
  • Google Search Console(GSC)에서 RSS 피드 URL을 잘못 검증한 직후, 모든 게시물이 “Crawled – currently not indexed” 상태로 표시됨
  • 도메인 설정, 콘텐츠 품질, 내부 링크 구조 등 여러 원인 후보를 점검했으나 문제 없음으로 확인
  • Bear Blog 창립자 Herman의 도움으로 DNS, HTML/CSS, 플랫폼 문제도 배제되었으며, 다른 검색엔진에서는 정상적으로 색인됨
  • 결국 블로그를 새 서브도메인으로 이전하고 Google의 자연 색인에 맡기기로 결정, 원인은 여전히 불명확함

초기 상황

  • 블로그는 10월 4일 개설되어 첫 장문의 시사 칼럼형 글을 게시
    • Google Search Console(GSC)에 사이트맵을 제출하고 색인 요청을 하자 다음날 바로 검색 결과에 노출됨
    • 이후 새 글을 올릴 때마다 색인 요청을 반복했고 정상적으로 반영됨

문제 발생

  • 10월 14일, GSC에서 한 URL이 색인되지 않았다는 메시지를 보고 “Validate” 버튼을 클릭
    • 해당 URL은 RSS 피드(feed/?type=rss)로, 실제 페이지가 아니었음
  • 10월 20일, GSC에서 “일부 수정 실패” 이메일을 받은 뒤 모든 게시물이 색인 해제
    • 상태 메시지는 “Page is not indexed: Crawled – currently not indexed”
    • 사이트맵 재제출과 개별 URL 색인 요청도 효과 없음

원인 추적

  • 색인 검증을 시작한 날과 전체 게시물 비색인화가 발생한 날이 동일
    • RSS 피드 검증 시도가 문제를 일으켰는지 불분명
  • 이후 새로 게시한 글도 모두 같은 오류 상태로 남음
    • 11월 3일에는 마지막으로 남아 있던 한 게시물마저 색인 해제됨

원인 후보 점검

  • 도메인 문제: GoDaddy에서 사용 중인 james-zhan.com은 다른 서브도메인에서 정상 색인됨 → 원인 아님
  • 콘텐츠 품질: 다른 Bear Blog 사례와 비교 시, 콘텐츠 양이나 품질 문제 없음 → 원인 아님
  • 내부 링크 부족: Bear Blog 기본 구조가 동일하며 다른 블로그는 정상 색인 → 원인 아님
  • 기타 요인: Bear Blog 창립자 Herman이 확인한 결과
    • DNS, HTML/CSS, 플랫폼 설정 모두 정상
    • 사용자 지정 CSS 코드도 색인에 영향 없음

다른 검색엔진 및 조치

  • DuckDuckGo, Bing, Brave 등에서는 정상적으로 블로그가 색인
    • 기술적 결함이 아닌 Google 측 문제로 추정
  • 블로그를 새 서브도메인(journal.james-zhan.com) 으로 이전하고
    • GoDaddy에서 Porkbun으로 도메인 이전
    • URL 포워딩을 설정해 기존 링크가 새 블로그로 자동 연결되도록 구성
  • 새 블로그는 GSC에 사이트맵을 제출하지 않고 자연 색인에 맡김
  • 원인은 여전히 밝혀지지 않았으며, 작성자는 Google 색인 시스템의 불투명성에 의문을 제기함
Hacker News 의견들
  • 올해 내 블로그 트래픽이 급감했음. 원인을 추적해보니 두 가지가 있었음
    1. AI Overview 때문임. 노출과 순위는 그대로인데 클릭률이 급락했음. 사용자가 요약만 읽고 클릭하지 않음
    2. 스팸 노출 문제였음. 검색 페이지에서 사용자 쿼리가 h1로 표시되어 구글이 그걸 스팸 콘텐츠로 인식했음.
      AI Overview는 내가 제어할 수 없지만, 검색 페이지에는 noindex를 추가했더니 일주일 만에 트래픽이 회복됨
      자세한 내용은 내 블로그 글에 정리했음
    • 두 번째 문제는 Negative SEO 공격 같음. /search 페이지가 캐시되어 크롤러에 노출된 듯함.
      검색 페이지는 캐시하지 말고, X-Robots-Tag로 noindex를 적용하는 게 좋음
    • 9월쯤 Google의 클릭·노출 집계 방식 변경이 있었음. 이전 데이터와 비교가 불가능하다고 함.
      앞으로는 자체 분석 도구로 트래픽을 추적해야 할 것 같음
    • Google이 이 상황을 오래전부터 계획한 게 아닌가 싶음.
      1. SEO 사이트를 늘려 유용한 콘텐츠를 아래로 밀고
      2. 광고를 상단에 배치해 더 밀어내고
      3. AI 요약을 도입해 사용자가 클릭할 이유를 없앰
        이제 사람들은 요약과 광고만 보고 떠남
    • 궁금한 점이 있음. 누군가 내 블로그에서 “crypto”를 검색했을 때, 어떻게 그 결과 페이지가 구글에 인덱싱되는 걸까?
      혹시 다른 사이트에서 그 검색 URL로 링크를 걸어 크롤링된 걸까?
    • AI Overview는 사라지지 않을 것 같음. 일반 사용자들은 요약만 읽음.
      구글이 요약 문장에 출처 링크를 걸어주면 클릭률이 조금은 회복될 것 같음
  • 이 사례가 사실 여부와 상관없이, Google의 불투명한 제재 구조가 문제임
    사이트가 제재를 받았을 때 이유를 알 수도, 이의 제기를 할 수도 없음.
    구글은 사실상 게이트키퍼(Gatekeeper) 역할을 하고 있음.
    공공재처럼 작동하는 만큼, 이에 걸맞은 지원 체계와 책임이 필요함.
    규제가 만능은 아니지만, 이런 유틸리티급 기업에는 최소한의 접근 보장 의무가 있어야 함
    • 이건 게이트키퍼 문제라기보다 독점 문제에 가까움. 구글은 인덱서와 검색 도구를 모두 소유하고 있음
    • 구글이 윤리적 책임을 느낀다면, 광고 입찰 경쟁을 완화해 정상 사이트가 첫 페이지에 노출되도록 해야 함.
      지금은 광고비를 내야만 검색에서 보이는 구조임
  • 6개월 전 Ahrefs의 권고로 URL 경로의 유니코드 문자를 제거하고 리디렉션을 걸었음.
    그 결과 인덱싱된 페이지가 수천 개에서 100개로 급감했음
    스크린샷 참고.
    6개월이 지나도 회복되지 않음. 개인 프로젝트라 괜찮지만, 비즈니스였다면 분노했을 것임
    업데이트된 스크린샷
    • 아마 구글이 AI에 리소스를 집중하면서 캐시 무효화 이후 새로 크롤링된 페이지의 랭킹이 달라진 듯함
    • 구글은 이미 필요한 콘텐츠를 다 수집했음. 이제 웹사이트는 AI 학습용 경쟁자가 되어버림
    • 교훈은 간단함 — 잘 작동하면 건드리지 말 것
    • 나도 같은 경험을 했음. 수천 개 페이지가 비인덱싱되어 결국 광고 기반 콘텐츠 비즈니스를 접었음
  • 구글 지도에는 불법 광고가 많음. 허가 없는 숙박업소나 주류 판매점이 버젓이 등록되어 있음.
    일정 기간 운영하면 ‘기존 사용권’으로 인정받기도 함.
    심지어 법정에서 Google Maps 스크린샷이 증거로 제출되는 걸 봤음
    • 나도 이런 피해를 당했음. 구글 지도에서 근처 자물쇠 수리점을 찾았는데,
      실제로는 사기 업체였음. 자물쇠를 망가뜨리고 600달러를 요구함.
      신고하니 구글이 빠르게 삭제했지만, 이런 건 등록 시점에서 실명 확인이 필요하다고 생각함
    • 이건 예전 지도 제작자들이 넣던 함정 거리(Trap Street) 이야기를 떠올리게 함.
      문제는 현실이 지도를 따라 바뀌기도 한다는 점임
    • 이런 광고가 다른 광고와 다르게 취급되는지 궁금함.
      행정 절차에서는 “문제 제기가 없으면 괜찮다”는 식으로 넘어가는 경우가 많음
    • 이건 일종의 법적 시토제네시스(legal citogenesis) 같음 — 잘못된 정보가 공식 문서로 굳어지는 현상임
  • 요즘 Google 검색 품질이 급락했음.
    내 사이트가 중복 콘텐츠로 잘못 인식되어 비인덱싱되고 있음.
    Bing에서는 문제없는데, 구글만 이런 오류를 냄
    • 나도 비슷하게 느꼈음. Hugging Face의 인기 모델이 검색에 안 나오고,
      Reddit 페이지는 엉뚱한 언어로 번역된 버전만 노출됨.
      아마 중복 제거 로직이 오작동하는 듯함
    • 혹시 SNI 요청이 잘못 라우팅되고 있는지 확인해야 함.
      다른 도메인에서 리버스 프록시를 걸면 구글이 중복으로 인덱싱함.
      Canonical 태그와 절대경로 링크를 쓰는 게 좋음
    • Amazon, Google 모두 가짜 상품과 스팸 결과로 가득함
    • Bing은 내 모든 사이트에서 잘 작동하지만, Google은 전부 실패함
    • 요즘 Google 검색은 거의 쓸모없음. 핵심 역량을 이렇게 방치한 게 놀라움
  • 나도 같은 문제를 겪었음. Hugo Bear 테마를 쓰는데, 최근 Bing에서 완전히 비인덱싱됨.
    17년 동안 문제없던 블로그였음
  • 아마 RSS 검증 실패가 스팸 플래그를 유발했을 가능성이 있음.
    스팸이 너무 많아져서 오탐지가 늘어난 듯함
    • RSS 오류 하나로 전체 사이트가 비인덱싱된다면 심각한 문제임.
      이런 방식은 오히려 정상 콘텐츠 비율을 낮추는 역효과를 냄
  • 솔직히 “Google de-indexed my Bear Blog”라는 제목을 보고 곰 블로그 얘긴 줄 알고 클릭했음
    • 진짜 곰 관련 블로그를 찾으면 뜻밖의 결과를 볼 수도 있음
    • 나도 제목의 “Bear”가 왜 들어갔는지 아직 모르겠음
    • 조용한 여우(quietfox)로서, 자기 자신을 지키는 게 중요함 ^^
  • 이건 이전 HN 스레드와 비슷함.
    구글이 누가 살아남을지 결정하는 구조라는 점에서 같음
    • 관련 사례로 이 글도 있음.
      RSS 오류가 단순히 무관심의 방아쇠가 되었을 수도 있음
    • 예전에 TripAdvisor가 영국 로컬 리뷰 시장의 60%를 차지했는데,
      Google Maps가 그렇게 빨리 따라잡았을까?
      Instagram이나 TikTok의 영향도 무시 못 하는데,
      구글에만 너무 많은 권한을 부여한 해석 같음
  • Google 검색은 대형 사이트를 우대하고 신생 사이트를 불리하게 만듦.
    결국 닭이 먼저냐 달걀이 먼저냐 문제로 이어짐.
    작은 사이트는 노출이 안 돼 성장할 수 없고,
    큰 사이트는 아무 문제 없이 계속 상위에 노출됨