1P by neo 4달전 | favorite | 댓글 7개

Google 검색, 대규모 스팸 공격에 압도당해

  • Google의 검색 결과가 지난 며칠간 스팸 공격을 받아 완전히 제어가 불가능한 상태.
  • 많은 도메인들이 수십만 개의 키워드마다 순위를 차지하고 있어, 이 공격의 규모가 수백만 개의 키워드 구문에 이를 수 있음.

Google의 알고리즘이 어떻게 이용될 수 있는가

  • 스팸 사이트들은 Google이 웹사이트를 순위에 매기는 방식의 적어도 세 가지 기회를 이용하는 것으로 보임.
  • 스팸 사이트들이 순위에 오르는 검색 쿼리는 경쟁이 낮아 순위를 매기기 쉬움.
  • 로컬 검색 알고리즘과 롱테일 키워드, 그리고 새로 등록된 도메인이 이용하는 기회들이 있음.
  • 새로운 사이트들은 Google의 알고리즘이 사이트를 파악하는 동안 짧은 기간 동안 검색 쿼리에 대해 순위를 매길 수 있는 이점을 가짐.

링크가 Google이 스팸 사이트를 찾는 데 도움이 됨

  • Bill Hartzer가 Majestic 백링크 도구를 사용하여 여러 스팸 사이트의 링크 네트워크를 드러내는 포스트를 통해 이 사실을 알게 됨.
  • 백링크 네트워크를 만드는 데 많은 노력을 기울였지만, 링크가 높은 순위를 결정하는 데 실제로 책임이 있는 것은 아님.
  • 링크는 Google이 새로운 스팸 사이트를 발견하고 크롤링하여 결국 순위를 매기는 데 도움이 됨.

Google SERPs에서 제어 불가능한 스팸

  • 여러 사이트들이 순위를 매기기 쉬운 롱테일 구문과 로컬 검색 구성 요소가 있는 구문에 대해 순위를 매김.
  • 롱테일 개념은 거의 20년 전부터 있었으며, 2006년 출간된 "The Long Tail"이라는 책에 의해 대중화됨.
  • 스팸 사이트들은 경쟁이 적은 구문에 대해 순위를 매길 수 있으며, 이를 이용하여 짧은 시간 내에 수십만 개의 키워드에 대해 순위를 매김.

스팸 페이지의 모습

  • 스팸 페이지를 브라우저로 방문하는 것은 불가능함.
  • 스팸 사이트들은 다른 도메인으로 자동 리디렉션됨.
  • Google의 Rich Results 테스터를 사용하여 스팸 사이트를 방문하고 페이지의 HTML을 기록함.

한 도메인이 300,000개 이상의 키워드에 대해 순위를 매김

  • Bill이 보낸 스프레드시트에는 한 스팸 사이트가 순위를 매긴 키워드 구문 목록이 포함됨.
  • 한 스팸 사이트가 300,000개 이상의 키워드 구문에 대해 순위를 매김.

이 스팸 기법이 효과적인 이유

  • 로컬 검색은 비로컬 알고리즘과 다른 알고리즘을 사용함.
  • 로컬 검색 알고리즘은 로컬 유형의 사이트가 순위를 매길 수 있도록 더 허용적임.
  • Google은 이 스팸 문제를 적어도 12월 19일부터 알고 있었으며, Danny Sullivan의 트윗을 통해 확인됨.

GN⁺의 의견

  • 이 기사에서 가장 중요한 것은 Google 검색 결과가 대규모 스팸 공격에 취약하다는 점이며, 이는 검색 엔진의 신뢰성에 영향을 줄 수 있음.
  • 스팸 공격이 효과적인 이유는 Google 알고리즘의 특정 취약점을 이용하기 때문이며, 이는 Google이 알고리즘을 개선해야 할 필요성을 강조함.
  • 이 글이 흥미로운 이유는 기술적인 측면뿐만 아니라, Google과 같은 대형 기술 회사가 여전히 예상치 못한 문제에 직면할 수 있다는 것을 보여주기 때문임.

구글 스팸 신고 웹문서 스팸신고 하실때 abc.abc.uk/trashasda 이런도메인이다 하면 abc.uk 이렇게 해서 신고하시고, abc.abc.uk/sitemap.xml 을 문제를 정확하게 알수있는 검색어에 넣어 신고하시면 됩니다. 이미 솔루션으로 다져진 웹인데 일반 유저 접근시 바로 파생문서를 다시 만드는 구조로 되어있는 것으로 보입니다. 대응하는 방법은 적극적인 신고를 해주시는게 맞고 구글에서 눌린만큼 또 다시 스팸페이지가 만들어지고, google.com/url image.google.com/url naver redirect 등과 같이 봇이 접근하게만들어 또다시 생성된 스팸페이지로 이동하는 과정이 있으니 누르진 마시고 링크만 따서 신고하심 됩니다. google.com/url 로 명시되어 리다이렉싱하는 알고리즘이 철폐되지 않는 이상은 현행 문제가 계속 발현될 것으로 보입니다.

위 스팸솔루션에 해당하는 웹문서 신고하시는 경우
총 5개의 칸에 첫번째에는 주도메인, 4개의 추가 URL에는 이에 파생되어 만들어진 문서 리스트를 적어주시는게 맞고, 해당 도메인의 사이트맵을 검색어에 넣어주시는게 좋습니다. 사이트맵 열어보면 /new/asdasd 와 같이 접근하자마자 생성하게만드는 전략을 취해둬서 신고문서 작성하면 결국 구글이 열람시 도망가는 문서를 추가적으로 생성하게 만들어둔 치밀한 녀석인지라 도메인 자체로 신고하셔야 합니다.

저의 경우
(h는 x로, /는 |로 바꾸었습니다)

xttp:||baddomain.com
xttp:||baddomain.com/blogs
xttp:||baddomain.com/blogs/asdasd1
xttp:||baddomain.com/asdasd1
xttp:||baddomain.com/asdasd2

이렇게 신고서 작성 후

서브 도메인부터 썩어들어간 녀석이라면, site:*baddomain.com
키워드에 이렇게 신고서 작성해서 보냅니다.

이후 사이트 자체가 완전히 스팸성이면, 피싱사이트신고서도 같이 날려줍니다.

해당 스팸 웹사이트들의 소프트웨어들은 아이러니하게도 태그매니저들이 연동되어 있으며, https://picsum.photos 와 같은 사이트가 사용됨에도 불구하고 색인이 정상적으로 이루어지고 있습니다. 구글에서 검수 안한다는 의미기도 합니다. 스팸활동에 대한 정상적인 범주를 넘어섰음에도 스팸웹문서 + 애드워즈 광고가 걸려있는 상태라면 더욱더 신고해도 광고 유입수 만큼 파생문서가 빠르게 만들어집니다. 태그매니저를 스팸 웹사이트들이 정상적으로 쓰고 있다는 것이 소름 돋는 대목입니다.

한달째 스팸신고서 넣고하는데 스팸문서, 사기문서로 신고하시면서 피싱사이트 신고 페이지에서 같이 신고해주시면 보다 빨리 정리됩니다. 해당 페이지도 넣지만 최상위 도메인인 abc.abc.uk 라면 abc.uk 라고 입력해주어야 도메인 자체를 정리하는데 도움 됩니다. 웹마스터들에게 숙제가 되버린 일상 입니다.

안 그래도 구글은 예전부터 검색 결과의 질이 전반적으로 떨어지는 게 눈에 보였는데 이런 식으로 단기간에 대량으로 공격을 받으면 많은 사람들이 구글 검색 결과를 더욱 신뢰하지 못하게 되겠지요.

Hacker News 의견
  • 스팸 사이트가 Googlebot의 IP 주소를 확인함

    • Googlebot으로 확인되면 해당 페이지에서 콘텐츠를 보여줌
    • 다른 방문자들은 의심스러운 콘텐츠가 있는 다른 도메인으로 리다이렉트됨
    • 과거에 Google은 Googlebot과 일반 사용자에게 다른 콘텐츠를 보여주는 사이트를 허용하지 않았으며, 이를 위반할 경우 큰 패널티를 부과했음
    • 이 정책은 사라졌지만, 자동화된 도구가 잘 작동한다면 여전히 유용할 수 있음
  • Kagi 검색 엔진으로 전환한 사용자의 경험

    • 가끔 좋은 검색 결과를 얻기 어려울 때가 있지만, Google에서도 결과가 더 나은 것은 아님
    • 사용자는 도메인을 '부스트'하고 '핀'하여 검색 결과를 개인 취향에 맞게 조정함
    • 여전히 Gmail과 Google Maps 등 다른 Google 서비스는 사용 중이지만 검색은 더 이상 사용하지 않음
  • 간단한 질문에 대답하기 위해 과도한 양의 텍스트를 제공하는 사이트 증가

    • 실제 답변은 페이지 하단에 위치함
    • 표면적으로는 관련성이 있는 것처럼 보이지만, 실제로는 일반적인 내용임
  • Google 검색 결과의 품질 저하에 대한 관찰

    • 이러한 추세가 언제부터 시작되었는지는 확실하지 않으나, 오랜 시간 동안 충분한 주목을 받지 못했을 수 있음
    • 스팸 공격이 마지막 단계일 수도 있음
  • 검색 엔진에 대한 의문 제기

    • 웹 크롤링에 기반한 단일 목적의 검색 엔진 개념이 사라질 수도 있음
    • 특정 목적에 맞는 여러 시스템으로 Google을 대체하는 것이 더 나을 수 있음
    • 예를 들어 기술적 질문은 StackOverflow와 Github에서 직접 검색, 지역 장소 검색은 신뢰할 수 있는 데이터베이스에서 검색 등
    • 검색 엔진이 LLM(대규모 언어 모델)을 활용하여 검색 유형을 추측하고, 큐레이션된 특화된 검색으로 이동하는 방향으로 발전할 수 있음
  • Google의 검색 엔진 알고리즘 변경에 대한 지적

    • Google은 때때로 알고리즘을 변경하여 사이트 순위에 영향을 줌
    • 이러한 변경은 특정 쿼리에 대해 낮은 품질의 결과가 상위에 오르게 할 수 있음
    • 과거에는 SEO 관련 사이트에서 이러한 알고리즘 업데이트를 모니터링하고 토론하는 것이 중요했음
  • Google의 유기적 검색 포기에 대한 주장

    • SEO에 능숙한 사용자조차 Google 검색 결과의 순위 결정 이유를 이해하기 어려움
    • Google은 유료 결과를 더 가치 있게 만들어 사용자가 유료 광고를 클릭하도록 유도함
  • Google의 검색 엔진 한계에 대한 지적

    • 특정한 것을 찾을 때는 유용하지만, 그 외에는 Bing, ChatGPT, Phind 등을 사용함
    • 사용자의 게임은 Bing과 다른 검색 엔진에서 상위 결과에 나타나지만, Google에서는 스팸 광고 사이트가 우선함
  • Bing으로의 전환 경험 공유

    • ChatGPT를 활용한 Bing의 발전으로 Google 대신 Bing을 사용하기 시작함
    • 완벽하지는 않지만, Google과 비교했을 때 더 만족스러운 결과를 제공함
  • Google의 광고 회사로서의 행태에 대한 비판

    • 새로운 Gmail 계정을 만들고 아무에게도 알리지 않았음에도 불구하고 스팸 메일을 받음
    • Google이 자체 이메일 주소 목록을 판매한다고 추정하는 것은 합리적임