1P by GN⁺ 14일전 | ★ favorite | 댓글 1개
  • Drew DeVault(SourceHut 설립자)이 AI 크롤러가 robots.txt를 무시하고 SourceHut에 심각한 장애 발생시킨다고 경고
  • KDE의 GitLab 인프라도 Alibaba의 IP 범위에서 발생한 AI 크롤러 공격으로 접근 불가 상태 발생
  • AI 크롤러의 문제점
    • AI 크롤러는 robots.txt 요구사항 무시
      • git blame, git log의 모든 페이지 및 커밋 크롤링
      • 무작위 User-Agent 및 수만 개의 IP에서 요청 발생 → 일반 사용자 트래픽처럼 위장
    • 크롤러 차단 어려움 → 우선순위 높은 작업이 수주 또는 수개월 지연
  • 시스템 관리자의 불만
    • AI 크롤러 문제는 개별 사례가 아닌 광범위한 문제
      • 많은 시스템 관리자들이 같은 문제를 경험 중
      • OpenAI, Anthropic은 정확한 User-Agent를 설정하지만, 중국 AI 회사는 그렇지 않음
  • KDE GitLab의 대응
    • MS Edge로 위장한 봇 차단 → 일시적 해결책
    • GNOME은 비로그인 사용자의 머지 요청 및 커밋 확인 속도 제한 적용
    • Anubis 도입 → 브라우저가 문제 풀이를 통해 접근 허용
  • Anubis의 문제점
    • 사용자에게도 영향 발생 → 문제 풀이 시간 필요
      • 채팅방에 링크가 공유되면 과부하 발생 → 1~2분 대기 시간 발생
  • 트래픽의 97%가 봇
    • GNOME에서 2시간 반 동안 81,000건 요청 발생 → 97%가 AI 크롤러
    • 일부 프로젝트는 AI 크롤러 차단 후 트래픽 75% 감소
  • 기타 FOSS 프로젝트의 문제
    • Fedora → 크롤러 차단 위해 브라질 전체 IP 차단
    • Inkscape → 크롤러가 브라우저 정보 위조 → 대규모 IP 차단
    • Frama Software → 46만 개의 IP 차단 리스트 생성
  • AI 크롤러 대응 프로젝트
    • ai.robots.txt → AI 크롤러 차단을 위한 오픈 리스트 제공
      • robots.txt 및 .htaccess 파일 설정 → AI 크롤러 요청 시 오류 페이지 반환
  • 트래픽 분석 결과
    • Diaspora의 경우 트래픽의 70%가 AI 크롤러
      • OpenAI 사용자 에이전트: 25%
      • Amazon: 15%
      • Anthropic: 4.3%
    • Google 및 Bing 크롤러의 트래픽 점유율은 1% 미만
  • AI 생성 버그 리포트 문제
    • Curl 프로젝트에서 AI 생성 버그 리포트 문제 발생
      • 보고된 버그는 대부분 환각(hallucination) 문제
    • CPython, pip, urllib3, Requests → AI 생성 보안 리포트 처리 시간 소모
      • 신뢰성 낮음 → 그러나 확인 필요 → 유지 관리자의 부담 증가

결론

  • AI 크롤러와 AI 생성 버그 리포트는 오픈 소스 커뮤니티에 큰 부담을 줌
  • 오픈 소스 프로젝트는 상업 제품보다 자원이 적고, 커뮤니티 기반이기 때문에 이러한 문제에 더 취약함
Hacker News 의견
  • 많은 사람들이 대규모 인터넷 인프라를 운영하면서 비슷한 경험을 하고 있음

    • AI 크롤러의 남용에 대한 이야기를 공유하며, 이러한 문제를 한 곳에 모아 정리한 글이 있음
    • 일부 스타트업은 문제를 해결하고 비용을 환불해 주었으나, Facebook은 이메일에 답하지 않음
  • Fastly는 FOSS 프로젝트에 무료 보안 서비스를 제공하고 있음

    • 최근 AI 스크래핑에 대한 요청이 증가하고 있음
  • 자신의 프로젝트가 미리보기 이미지에 등장한 것이 놀라움

    • 프로젝트를 xeiaso.net에 배포하여 실제 환경에서의 작동을 확인하고 있음
  • FOSS 인프라뿐만 아니라 익명 인터넷 접근 자체가 위협받고 있음

    • 새로운 봇들이 캡차를 풀고 실제 사용자처럼 행동할 수 있음
    • 사이트들이 신용카드나 Worldcoin 같은 인증을 요구할 가능성이 있음
  • 최근 Forgejo 인스턴스가 공격받았음

    • 디스크가 생성된 zip 파일로 가득 찼고, Alibaba Cloud의 IP 범위를 차단하여 공격이 줄어듦
    • DISABLE_DOWNLOAD_SOURCE_ARCHIVES 설정을 true로 변경할 것을 권장함
  • 과거 검색 엔진 문제를 해결하기 위해 robots.txt가 만들어졌으나, 현재 새로운 인덱서들은 이를 무시하고 있음

    • 법적 제재가 필요하다고 주장함
  • Google과 광고의 웹 지배력이 약화될 것임

    • 캡차로 인해 검색 엔진이 사이트를 인덱싱하지 못하게 되고, 이는 검색 엔진의 가치를 떨어뜨릴 것임
  • LLaMa를 사용하여 모순된 게시물을 생성하여 정보의 혼란을 유도함

  • VideoLAN도 AI 회사의 봇으로 인해 포럼과 Gitlab이 공격받고 있음

    • 대부분의 봇이 robots.txt를 무시함
  • 검색 엔진에 인덱싱되지 않는 웹이 생길 가능성이 있음

    • LLM 스크래핑에 대한 해결책으로 작업 증명을 요구하는 방법이 제안됨