12P by neo 8일전 | favorite | 댓글 1개
  • 최근 diaspora 프로젝트의 웹 인프라(Discourse, Wiki, 프로젝트 웹사이트 등)에서 발생하는 로드 스파이크와 느려짐 문제를 분석한 결과, "대부분의 트래픽이 LLM 크롤링 봇에 의해 발생"하고 있음
  • 지난 60일 동안 1,130만 요청(평균 2.19 req/s)이 들어왔는데 그중 70% 이상이 LLM 관련 크롤링 봇에서 발생
    • GPTBot/1.2: 24.6% (278만 요청)
    • Amazonbot/0.1: 14.9% (169만 요청)
    • ClaudeBot/1.0: 4.3% (49만 요청)
    • meta-externalagent/1.1: 2.2% (22만 요청)
  • 비정상적인 크롤링 패턴
    • 반복 크롤링: 동일 페이지를 6시간 간격으로 크롤링
    • robots.txt 무시: 크롤링 제한 규칙을 전혀 준수하지 않음
    • 비효율적 크롤링: 의미 없는 데이터(예: Wiki의 모든 편집 기록)를 대량으로 크롤링
    • 로드 스파이크: 특정 시점에서 10req/s 이상의 요청을 발생시켜 데이터베이스 및 MediaWiki 서버에 과부하 발생
  • 방어도 불가함
    • IP 변경: 레이트 리미트를 우회하기 위해 IP를 지속적으로 변경
    • UA 문자열 변경: 봇 사용자 에이전트(User Agent)를 임의의 문자열로 변경해 차단 우회
  • Googlebot과 Bingbot 같은 기존 검색 엔진 크롤러는 정상적이고 효율적인 크롤링 패턴을 보임.
    • Googlebot: 0.14% (16,600 요청)
    • Bingbot: 0.14% (15,900 요청)
  • 중복 크롤링 최소화, robots.txt 규칙 준수

결과 및 영향

  • 효과적인 서비스 제공 불가: LLM 크롤링 봇으로 인해 인간 사용자 경험이 크게 악화
  • 서버 과부하: 데이터베이스 서버 및 MediaWiki가 반복적으로 로드 스파이크를 겪음
  • 사실상 인터넷 전체 DDoS: 이러한 크롤링 방식은 전 세계적으로 불필요한 리소스 낭비를 초래

결론

  • LLM 크롤링 봇의 비정상적인 트래픽 패턴으로 인해 인프라가 지속적인 부담을 받고 있으며, 이를 방어하기 위한 시도가 효과를 발휘하지 못하고 있음
  • 이 문제는 개인적인 피로를 넘어 인터넷 생태계 전반에 심각한 영향을 미치고 있음
Hacker News 의견
  • Meta의 AI 봇이 웹사이트를 과도하게 크롤링하여 서버가 다운된 경험을 공유함. Cloudflare를 사용하여 이를 차단하는 방법을 설명함

    • Cloudflare의 AI 봇 차단 기능이 유용하다고 언급함
    • AI 봇의 콘텐츠 접근이 가치가 없다고 주장함
  • 다양한 플랫폼에서 발생한 봇 트래픽 데이터를 공유함

    • Claude, Amazon, Data For SEO, Chat GPT 등의 봇이 많은 트래픽을 발생시킴
    • 이러한 봇들이 robots.txt를 무시하거나 지연이 발생해도 백오프하지 않는다고 설명함
  • 봇을 차단하는 방법에 대해 논의함

    • IP를 변경하거나 비봇 User Agent로 전환하는 봇의 행동을 설명함
    • OpenAI의 IP 범위를 공개하는 GitHub 링크를 공유함
    • WordPress 플러그인을 사용하여 AI 봇을 차단하는 방법을 제안함
  • CGTalk 포럼이 자원 문제로 폐쇄된 사례를 언급함

    • 많은 포럼이 서버 운영 부담을 줄이기 위해 Slack, Discord로 이동함
  • AI 회사들이 더 지능적으로 스크래핑을 해야 한다고 주장함

    • AI 회사의 행동이 부끄러운 일이라고 언급함
  • 포이즈닝 공격에 대한 호기심을 표현함

    • 인간이 작성한 잘못된 콘텐츠로 AI 모델을 혼란스럽게 할 수 있는 가능성을 탐구함
  • GCP에 배포한 앱이 봇 트래픽으로 인해 비용이 증가한 경험을 공유함

    • Reddit에 앱을 공유한 것이 원인이라고 추측함
  • 대형 포럼의 크롤링 경험을 공유함

    • ChatGPT가 포럼의 역사에 대해 잘 알고 있다고 언급함
    • LLMs에 영향을 줄 수 있는 텍스트를 추가하는 아이디어를 제안함
  • robots.txt를 무시하고 서비스에 악영향을 미치는 봇의 행동을 불법으로 간주할 수 있다고 주장함

    • 지역 사이버 법 집행 기관에 연락할 것을 권장함