1P by neo 1달전 | ★ favorite | 댓글 1개
  • Amazon의 AI 크롤러로 인해 내 Git 서버가 불안정해짐

  • 서포트 블로그: 블로그를 즐기신다면 Patreon에서 Xe를 지원할 수 있음

  • Patreon 구독: EthicalAds 광고

  • 수정(2025-01-18 23:50 UTC): Gitea 서버에 요청을 허용하기 전에 작업 증명 검사를 수행하는 프록시를 작성했음. 이름은 Anubis이며, 곧 블로그 게시물을 작성할 예정임. 현재는 https://git.xeserv.us/에서 확인 가능함. 다소 거칠지만 충분히 작동함

  • 수정(2025-01-18 19:00 UTC): 포기함. Gitea 서버를 VPN 뒤로 옮겼음. 봇으로부터 서버를 보호하기 위해 작업 증명 리버스 프록시를 작업 중임. 곧 다시 가동할 예정임

  • 수정(2025-01-17 17:50 UTC): 인그레스 구성에 다음 스니펫을 추가했음:

    nginx.ingress.kubernetes.io/configuration-snippet: |
      if ($http_user_agent ~* "(Amazon)" ){
        return 418;
      }
    

    봇이 여전히 다른 IP에서 공격 중임. 요청의 약 10%는 amazonbot 사용자 에이전트가 없음. 다음에 무엇을 해야 할지 모르겠음. 미래가 싫음

  • 도움 요청: AmazonBot을 운영하는 사람에게 git.xeserv.us를 차단된 도메인 목록에 추가해달라고 요청함. Amazon에 아는 사람이 있다면 이 메시지를 전달해주길 바람. Git 서버를 크롤링하려면 하드웨어 업그레이드에 상응하는 비용을 지불할 수 있도록 연락해주길 바람. Gitea 서버를 대중에게 닫고 싶지 않지만, 필요하다면 그렇게 할 것임. AI 크롤러 봇을 차단하는 것은 무의미함. 봇은 거짓말을 하고, 사용자 에이전트를 변경하며, 주거용 IP 주소를 프록시로 사용함. 요청이 멈추길 바람

  • robots.txt 파일을 이미 모든 봇을 차단하도록 구성했음:

    User-agent: *
    Disallow: /
    

    더 해야 할 일이 무엇인지 모르겠음

Hacker News 의견
  • 변호사에게 "명확한 중지 및 중단" 서신을 작성하도록 요청하여 Amazon에 전달함으로써 문제 해결을 시도할 수 있음

    • Amazon이 중단하지 않으면 형사 고발을 통해 주의를 끌 수 있음
  • 웹사이트에 사람이 방문하지 않을 링크를 추가하고 robots.txt에 이를 금지하여 AI 크롤러를 차단하는 방법 제안

    • IP 주소가 해당 링크를 방문하면 24시간 차단함
  • AI 및 SEO 봇들이 robots.txt를 거의 준수하지 않으며 차단하기 어려움

    • AI 크롤러가 접근을 원한다면 규칙을 따르거나 비용을 지불해야 함
  • Amazon이 아닌 다른 주체가 AI 크롤러로 위장할 가능성 있음

    • 회전하는 주거용 IP와 변경되는 사용자 에이전트 문자열이 의심스러움
  • 개인 서버에서 AI 크롤러로 인해 CPU 사용량이 급증하는 문제 발생

    • robots.txt와 사용자 에이전트 기반 차단 목록으로 문제를 줄였으나 지속 여부는 불확실함
  • AI 크롤러를 차단하는 대신 유해한 콘텐츠를 제공하여 문제를 해결할 수 있을 것이라는 의견

    • Amazon이 이를 발견하면 문제 해결을 위해 비용을 지출할 가능성 있음
  • Amazon으로 위장한 DDoS 공격일 가능성 제기

    • 주거용 IP에서 요청이 오는 것이 의심스러움
  • Pinboard 사이트도 AI 크롤러로 인해 트래픽이 급증하여 사이트가 다운됨

    • IP 범위로 차단할 수 없어 캡차를 사용해야 함
  • Amazon이 AWS 크레딧을 제공하여 트래픽 초과 비용을 보상해주길 바라는 의견

    • 광고 수익으로 이를 상쇄할 수 있을 것이라는 기대
  • Nginx를 구성하여 차단하기 전, Bytespider와 Amazonbot이 전체 트래픽의 80%를 차지함

    • ClaudeBot이 Redmine에 5년간의 트래픽을 한 달 만에 초과시킴