# OpenAI의 봇이 작은 회사 웹사이트를 'DDoS 공격'처럼 마비시켜

> Clean Markdown view of GeekNews topic #18726. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=18726](https://news.hada.io/topic?id=18726)
- GeekNews Markdown: [https://news.hada.io/topic/18726.md](https://news.hada.io/topic/18726.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-01-14T10:11:53+09:00
- Updated: 2025-01-14T10:11:53+09:00
- Original source: [techcrunch.com](https://techcrunch.com/2025/01/10/how-openais-bot-crushed-this-seven-person-companys-web-site-like-a-ddos-attack/)
- Points: 6
- Comments: 4

## Summary

Triplegangers는 OpenAI의 봇이 600개 이상의 IP를 사용하여 웹사이트를 과도하게 크롤링하면서 서버가 다운되는 문제를 겪었습니다. 이로 인해 AWS 비용 증가가 예상되었으며, Triplegangers는 적절히 설정된 robots.txt 파일과 Cloudflare 계정을 통해 AI 크롤러를 차단하여 사이트를 안정화했습니다. 그러나 OpenAI가 어떤 데이터를 가져갔는지 알 수 없고, 데이터 삭제 요청 방법도 없어 소규모 비즈니스는 AI 봇의 크롤링 문제에 대한 대비가 필요합니다.

## Topic Body

- Triplegangers는 7명의 직원이 운영하는 소규모 기업으로, "인간 디지털 더블" 데이터베이스를 판매함  
  - 3D 이미지 파일과 사진을 3D 아티스트, 비디오 게임 제작자 등에게 제공  
- 문제 발생: OpenAI의 봇이 600개 이상의 IP를 사용하여 웹사이트를 과도하게 크롤링하면서 서버가 다운됨  
  - 65,000개 이상의 제품 페이지와 수십만 장의 사진을 수집 시도  
  - 이와 같은 "DDoS 공격과 유사한" 요청 폭주로 AWS 비용 증가 예상  
- OpenAI의 **GPTBot**은 **robots.txt** 파일의 적절한 설정이 없으면 데이터를 자유롭게 크롤링함  
  - 사이트가 별도로 차단하지 않으면 봇 활동이 기본 허용  
  - **robots.txt**: 검색 엔진이 어떤 데이터를 크롤링하지 말아야 할지 정의하는 파일  
  - Triplegangers는 웹사이트의 robots.txt 파일을 제대로 설정하지 않아 OpenAI의 봇이 데이터를 스크랩할 수 있었음  
- 추가 문제:  
  - OpenAI는 크롤링 차단 요청을 인식하는 데 최대 24시간 소요  
  - 타 AI 회사들도 비슷한 방식으로 데이터를 크롤링  
  
### Triplegangers의 대응  
- **대응 조치**:  
  - 적절히 설정된 **robots.txt** 파일 생성  
  - **Cloudflare** 계정 설정으로 GPTBot 및 기타 AI 크롤러 차단  
- **결과**:  
  - 사이트 안정화 성공  
  - 그러나 OpenAI가 어떤 데이터를 가져갔는지 알 수 없으며, 데이터 삭제 요청 방법도 없음  
  - OpenAI의 미완성된 **opt-out 도구**: 기업들이 크롤링 방지를 더욱 어렵게 만듦  
  
### 크롤링 문제가 특히 심각한 이유  
- AI 크롤러는 웹사이트의 데이터를 무단으로 가져가며, 이는 특히 Triplegangers와 같은 회사에 큰 문제를 야기함  
- **데이터의 민감성**:  
  - Triplegangers는 실제 사람들을 스캔하여 생성된 데이터베이스를 보유  
  - GDPR 등 개인정보 보호법에 따라 데이터 무단 사용 금지  
- **데이터의 매력도**:  
  - 데이터가 태그화되어 있어 AI 훈련에 유용  
  - 예: 인종, 연령, 신체 특징 등이 상세히 표시  
  
### 기타 소규모 비즈니스에 주는 교훈  
- **AI 봇 감지**:  
  - AI 봇의 크롤링 여부를 확인하려면 로그 모니터링 필수  
  - 대부분의 웹사이트는 자신이 크롤링된 사실조차 모름  
- **증가하는 크롤링 문제**:  
  - 2024년 일반적으로 유효하지 않은 트래픽(Invalid Traffic)이 86% 증가  
  - AI 크롤러 및 스크래퍼가 주요 원인  
  
### 결론  
- AI 봇의 크롤링 문제는 소규모 비즈니스에 심각한 영향을 미침  
- AI 회사들은 데이터를 가져가기 전에 허가를 요청해야 함  
- 소규모 기업들은 **robots.txt**와 방화벽을 적극 활용해야 하며, 지속적인 모니터링이 필요함

## Comments


### Comment 33418

- Author: crawler
- Created: 2025-01-14T13:14:55+09:00
- Points: 3

한 사이트에 접속한 ip 600개가 진짜라면 미친듯이 긁는구나 싶긴 한데 robots.txt를 안 썼다는 거에서 조금 '응?' 하네요  
데이터가 중요한 기업 같고 사이트도 활성화된 거 같은데 가장 기본인 robots.txt 설정부터 하지...

### Comment 33417

- Author: xguru
- Created: 2025-01-14T13:11:26+09:00
- Points: 1

[AI 회사들이 대부분의 웹 트래픽을 만들고 있음](https://news.hada.io/topic?id=18508)

### Comment 33412

- Author: unsure4000
- Created: 2025-01-14T11:19:14+09:00
- Points: 1

Cloudflare은 정말로 필요악인것 같다고 생각합니다. 아주 성능좋은 단일 공격 지점이지요.

### Comment 33409

- Author: neo
- Created: 2025-01-14T10:11:53+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=42660377) 
- AI 회사들이 포럼에서 많은 트래픽을 유발하고 있음
  - Read the Docs에서 AI 봇들이 10TB 이상의 트래픽을 발생시켰다는 사례가 있음
  - OpenAI가 600개의 IP를 사용하여 데이터를 스크래핑했다는 주장이 있음
  - Cloudflare의 리버스 프록시 IP만 기록되어 실제 클라이언트 IP는 알 수 없음
  - 로그에 타임스탬프가 없고 요청 속도에 대한 언급이 없어 DDOS 공격이라는 주장이 불공정하다는 의견이 있음

- 웹 개발자로서 AI 회사들의 비효율적인 스크래퍼에 불만을 가짐
  - 사이트를 과도하게 로드하지 말라는 기본 규칙을 따를 것을 권장함
  - AI 회사들의 스크래퍼가 비효율적이고 불쾌하다고 느끼고 있음

- 기사에서 "robots.txt"를 잘못 표기한 점을 지적함
  - 타임스탬프가 없는 로그 파일을 증거로 사용하는 것은 의심스럽다고 봄
  - OpenAI가 완전히 무죄는 아니지만, 기사의 품질이 낮다고 평가함

- 웹의 역사가 반복된다는 의견이 있음
  - 과거에는 API를 통해 정보를 얻을 수 있었으나, 현재는 대부분 차단되고 있음
  - AI가 이러한 자동화된 상호작용을 다시 가능하게 할 수 있을 것이라고 기대함

- 개인 웹크롤러에 대한 흥미가 있었으나, 현재는 불공정한 Google 경제에 실망함
  - LLMs가 많은 유틸리티를 제공할 수 있지만, 창의성을 훔친다는 두려움이 문을 닫게 할 것이라고 우려함

- 최근 Amazon에서 책을 출판한 사람들이 AI에 의해 생성된 사기 복제품과 경쟁하고 있음
  - BBC에서 이와 관련된 경험을 인터뷰한 사례가 있음

- 사이트가 robots.txt를 제대로 사용하지 않으면 AI가 마음껏 스크래핑할 수 있다고 경고함
  - robots.txt를 확인할 것을 권장함

- 사이트는 HTTP 오류 429를 사용하여 봇의 속도를 조절할 수 있음
  - 봇이 서브넷에서 오는 경우, 서브넷에 적용하고 개별 IP에 적용하지 말 것을 제안함