6P by neo 5일전 | ★ favorite | 댓글 4개
  • Triplegangers는 7명의 직원이 운영하는 소규모 기업으로, "인간 디지털 더블" 데이터베이스를 판매함
    • 3D 이미지 파일과 사진을 3D 아티스트, 비디오 게임 제작자 등에게 제공
  • 문제 발생: OpenAI의 봇이 600개 이상의 IP를 사용하여 웹사이트를 과도하게 크롤링하면서 서버가 다운됨
    • 65,000개 이상의 제품 페이지와 수십만 장의 사진을 수집 시도
    • 이와 같은 "DDoS 공격과 유사한" 요청 폭주로 AWS 비용 증가 예상
  • OpenAI의 GPTBotrobots.txt 파일의 적절한 설정이 없으면 데이터를 자유롭게 크롤링함
    • 사이트가 별도로 차단하지 않으면 봇 활동이 기본 허용
    • robots.txt: 검색 엔진이 어떤 데이터를 크롤링하지 말아야 할지 정의하는 파일
    • Triplegangers는 웹사이트의 robots.txt 파일을 제대로 설정하지 않아 OpenAI의 봇이 데이터를 스크랩할 수 있었음
  • 추가 문제:
    • OpenAI는 크롤링 차단 요청을 인식하는 데 최대 24시간 소요
    • 타 AI 회사들도 비슷한 방식으로 데이터를 크롤링

Triplegangers의 대응

  • 대응 조치:
    • 적절히 설정된 robots.txt 파일 생성
    • Cloudflare 계정 설정으로 GPTBot 및 기타 AI 크롤러 차단
  • 결과:
    • 사이트 안정화 성공
    • 그러나 OpenAI가 어떤 데이터를 가져갔는지 알 수 없으며, 데이터 삭제 요청 방법도 없음
    • OpenAI의 미완성된 opt-out 도구: 기업들이 크롤링 방지를 더욱 어렵게 만듦

크롤링 문제가 특히 심각한 이유

  • AI 크롤러는 웹사이트의 데이터를 무단으로 가져가며, 이는 특히 Triplegangers와 같은 회사에 큰 문제를 야기함
  • 데이터의 민감성:
    • Triplegangers는 실제 사람들을 스캔하여 생성된 데이터베이스를 보유
    • GDPR 등 개인정보 보호법에 따라 데이터 무단 사용 금지
  • 데이터의 매력도:
    • 데이터가 태그화되어 있어 AI 훈련에 유용
    • 예: 인종, 연령, 신체 특징 등이 상세히 표시

기타 소규모 비즈니스에 주는 교훈

  • AI 봇 감지:
    • AI 봇의 크롤링 여부를 확인하려면 로그 모니터링 필수
    • 대부분의 웹사이트는 자신이 크롤링된 사실조차 모름
  • 증가하는 크롤링 문제:
    • 2024년 일반적으로 유효하지 않은 트래픽(Invalid Traffic)이 86% 증가
    • AI 크롤러 및 스크래퍼가 주요 원인

결론

  • AI 봇의 크롤링 문제는 소규모 비즈니스에 심각한 영향을 미침
  • AI 회사들은 데이터를 가져가기 전에 허가를 요청해야 함
  • 소규모 기업들은 robots.txt와 방화벽을 적극 활용해야 하며, 지속적인 모니터링이 필요함

한 사이트에 접속한 ip 600개가 진짜라면 미친듯이 긁는구나 싶긴 한데 robots.txt를 안 썼다는 거에서 조금 '응?' 하네요
데이터가 중요한 기업 같고 사이트도 활성화된 거 같은데 가장 기본인 robots.txt 설정부터 하지...

Cloudflare은 정말로 필요악인것 같다고 생각합니다. 아주 성능좋은 단일 공격 지점이지요.

Hacker News 의견
  • AI 회사들이 포럼에서 많은 트래픽을 유발하고 있음

    • Read the Docs에서 AI 봇들이 10TB 이상의 트래픽을 발생시켰다는 사례가 있음
    • OpenAI가 600개의 IP를 사용하여 데이터를 스크래핑했다는 주장이 있음
    • Cloudflare의 리버스 프록시 IP만 기록되어 실제 클라이언트 IP는 알 수 없음
    • 로그에 타임스탬프가 없고 요청 속도에 대한 언급이 없어 DDOS 공격이라는 주장이 불공정하다는 의견이 있음
  • 웹 개발자로서 AI 회사들의 비효율적인 스크래퍼에 불만을 가짐

    • 사이트를 과도하게 로드하지 말라는 기본 규칙을 따를 것을 권장함
    • AI 회사들의 스크래퍼가 비효율적이고 불쾌하다고 느끼고 있음
  • 기사에서 "robots.txt"를 잘못 표기한 점을 지적함

    • 타임스탬프가 없는 로그 파일을 증거로 사용하는 것은 의심스럽다고 봄
    • OpenAI가 완전히 무죄는 아니지만, 기사의 품질이 낮다고 평가함
  • 웹의 역사가 반복된다는 의견이 있음

    • 과거에는 API를 통해 정보를 얻을 수 있었으나, 현재는 대부분 차단되고 있음
    • AI가 이러한 자동화된 상호작용을 다시 가능하게 할 수 있을 것이라고 기대함
  • 개인 웹크롤러에 대한 흥미가 있었으나, 현재는 불공정한 Google 경제에 실망함

    • LLMs가 많은 유틸리티를 제공할 수 있지만, 창의성을 훔친다는 두려움이 문을 닫게 할 것이라고 우려함
  • 최근 Amazon에서 책을 출판한 사람들이 AI에 의해 생성된 사기 복제품과 경쟁하고 있음

    • BBC에서 이와 관련된 경험을 인터뷰한 사례가 있음
  • 사이트가 robots.txt를 제대로 사용하지 않으면 AI가 마음껏 스크래핑할 수 있다고 경고함

    • robots.txt를 확인할 것을 권장함
  • 사이트는 HTTP 오류 429를 사용하여 봇의 속도를 조절할 수 있음

    • 봇이 서브넷에서 오는 경우, 서브넷에 적용하고 개별 IP에 적용하지 말 것을 제안함