OpenAI의 봇이 작은 회사 웹사이트를 'DDoS 공격'처럼 마비시켜

(techcrunch.com)

6P by GN⁺ 9달전 | ★ favorite | 댓글 4개

Triplegangers는 7명의 직원이 운영하는 소규모 기업으로, "인간 디지털 더블" 데이터베이스를 판매함
- 3D 이미지 파일과 사진을 3D 아티스트, 비디오 게임 제작자 등에게 제공
문제 발생: OpenAI의 봇이 600개 이상의 IP를 사용하여 웹사이트를 과도하게 크롤링하면서 서버가 다운됨
- 65,000개 이상의 제품 페이지와 수십만 장의 사진을 수집 시도
- 이와 같은 "DDoS 공격과 유사한" 요청 폭주로 AWS 비용 증가 예상
OpenAI의 GPTBot은 robots.txt 파일의 적절한 설정이 없으면 데이터를 자유롭게 크롤링함
- 사이트가 별도로 차단하지 않으면 봇 활동이 기본 허용
- robots.txt: 검색 엔진이 어떤 데이터를 크롤링하지 말아야 할지 정의하는 파일
- Triplegangers는 웹사이트의 robots.txt 파일을 제대로 설정하지 않아 OpenAI의 봇이 데이터를 스크랩할 수 있었음
추가 문제:
- OpenAI는 크롤링 차단 요청을 인식하는 데 최대 24시간 소요
- 타 AI 회사들도 비슷한 방식으로 데이터를 크롤링

Triplegangers의 대응

대응 조치:
- 적절히 설정된 robots.txt 파일 생성
- Cloudflare 계정 설정으로 GPTBot 및 기타 AI 크롤러 차단
결과:
- 사이트 안정화 성공
- 그러나 OpenAI가 어떤 데이터를 가져갔는지 알 수 없으며, 데이터 삭제 요청 방법도 없음
- OpenAI의 미완성된 opt-out 도구: 기업들이 크롤링 방지를 더욱 어렵게 만듦

크롤링 문제가 특히 심각한 이유

AI 크롤러는 웹사이트의 데이터를 무단으로 가져가며, 이는 특히 Triplegangers와 같은 회사에 큰 문제를 야기함
데이터의 민감성:
- Triplegangers는 실제 사람들을 스캔하여 생성된 데이터베이스를 보유
- GDPR 등 개인정보 보호법에 따라 데이터 무단 사용 금지
데이터의 매력도:
- 데이터가 태그화되어 있어 AI 훈련에 유용
- 예: 인종, 연령, 신체 특징 등이 상세히 표시

기타 소규모 비즈니스에 주는 교훈

AI 봇 감지:
- AI 봇의 크롤링 여부를 확인하려면 로그 모니터링 필수
- 대부분의 웹사이트는 자신이 크롤링된 사실조차 모름
증가하는 크롤링 문제:
- 2024년 일반적으로 유효하지 않은 트래픽(Invalid Traffic)이 86% 증가
- AI 크롤러 및 스크래퍼가 주요 원인

결론

AI 봇의 크롤링 문제는 소규모 비즈니스에 심각한 영향을 미침
AI 회사들은 데이터를 가져가기 전에 허가를 요청해야 함
소규모 기업들은 robots.txt와 방화벽을 적극 활용해야 하며, 지속적인 모니터링이 필요함

▲

crawler 9달전 [-]

한 사이트에 접속한 ip 600개가 진짜라면 미친듯이 긁는구나 싶긴 한데 robots.txt를 안 썼다는 거에서 조금 '응?' 하네요
데이터가 중요한 기업 같고 사이트도 활성화된 거 같은데 가장 기본인 robots.txt 설정부터 하지...

답변달기

▲

xguru 9달전 [-]

AI 회사들이 대부분의 웹 트래픽을 만들고 있음

답변달기

▲

unsure4000 9달전 [-]

Cloudflare은 정말로 필요악인것 같다고 생각합니다. 아주 성능좋은 단일 공격 지점이지요.

답변달기

▲

GN⁺ 9달전 [-]

Hacker News 의견

AI 회사들이 포럼에서 많은 트래픽을 유발하고 있음
- Read the Docs에서 AI 봇들이 10TB 이상의 트래픽을 발생시켰다는 사례가 있음
- OpenAI가 600개의 IP를 사용하여 데이터를 스크래핑했다는 주장이 있음
- Cloudflare의 리버스 프록시 IP만 기록되어 실제 클라이언트 IP는 알 수 없음
- 로그에 타임스탬프가 없고 요청 속도에 대한 언급이 없어 DDOS 공격이라는 주장이 불공정하다는 의견이 있음
웹 개발자로서 AI 회사들의 비효율적인 스크래퍼에 불만을 가짐
- 사이트를 과도하게 로드하지 말라는 기본 규칙을 따를 것을 권장함
- AI 회사들의 스크래퍼가 비효율적이고 불쾌하다고 느끼고 있음
기사에서 "robots.txt"를 잘못 표기한 점을 지적함
- 타임스탬프가 없는 로그 파일을 증거로 사용하는 것은 의심스럽다고 봄
- OpenAI가 완전히 무죄는 아니지만, 기사의 품질이 낮다고 평가함
웹의 역사가 반복된다는 의견이 있음
- 과거에는 API를 통해 정보를 얻을 수 있었으나, 현재는 대부분 차단되고 있음
- AI가 이러한 자동화된 상호작용을 다시 가능하게 할 수 있을 것이라고 기대함
개인 웹크롤러에 대한 흥미가 있었으나, 현재는 불공정한 Google 경제에 실망함
- LLMs가 많은 유틸리티를 제공할 수 있지만, 창의성을 훔친다는 두려움이 문을 닫게 할 것이라고 우려함
최근 Amazon에서 책을 출판한 사람들이 AI에 의해 생성된 사기 복제품과 경쟁하고 있음
- BBC에서 이와 관련된 경험을 인터뷰한 사례가 있음
사이트가 robots.txt를 제대로 사용하지 않으면 AI가 마음껏 스크래핑할 수 있다고 경고함
- robots.txt를 확인할 것을 권장함
사이트는 HTTP 오류 429를 사용하여 봇의 속도를 조절할 수 있음
- 봇이 서브넷에서 오는 경우, 서브넷에 적용하고 개별 IP에 적용하지 말 것을 제안함

답변달기