# AI 회사들이 대부분의 웹 트래픽을 만들고 있음

> Clean Markdown view of GeekNews topic #18508. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=18508](https://news.hada.io/topic?id=18508)
- GeekNews Markdown: [https://news.hada.io/topic/18508.md](https://news.hada.io/topic/18508.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-12-31T09:45:13+09:00
- Updated: 2024-12-31T09:45:13+09:00
- Original source: [pod.geraspora.de](https://pod.geraspora.de/posts/17342163)
- Points: 14
- Comments: 1

## Summary

최근 diaspora 프로젝트의 웹 인프라에서 발생하는 트래픽의 70% 이상이 LLM 크롤링 봇에 의해 발생하고 있으며, 이는 서버 과부하와 인간 사용자 경험 악화를 초래하고 있습니다. 이러한 크롤링 봇은 비정상적인 패턴을 보이며, 크롤링 제한 규칙을 무시하고 반복적으로 동일 페이지를 크롤링하여 리소스를 낭비하고 있습니다. 이로 인해 인프라에 지속적인 부담이 가해지고 있으며, 이를 방어하기 위한 시도가 효과적이지 않은 상황입니다.

## Topic Body

- 최근 diaspora 프로젝트의 웹 인프라(Discourse, Wiki, 프로젝트 웹사이트 등)에서 발생하는 로드 스파이크와 느려짐 문제를 분석한 결과, "대부분의 트래픽이 LLM 크롤링 봇에 의해 발생"하고 있음  
- 지난 60일 동안 1,130만 요청(평균 2.19 req/s)이 들어왔는데 그중 *70% 이상이 LLM 관련 크롤링 봇에서 발생*  
  - GPTBot/1.2: 24.6% (278만 요청)  
  - Amazonbot/0.1: 14.9% (169만 요청)  
  - ClaudeBot/1.0: 4.3% (49만 요청)  
  - meta-externalagent/1.1: 2.2% (22만 요청)  
- 비정상적인 크롤링 패턴  
  - 반복 크롤링: 동일 페이지를 6시간 간격으로 크롤링  
  - robots.txt 무시: 크롤링 제한 규칙을 전혀 준수하지 않음  
  - 비효율적 크롤링: 의미 없는 데이터(예: Wiki의 모든 편집 기록)를 대량으로 크롤링  
  - 로드 스파이크: 특정 시점에서 10req/s 이상의 요청을 발생시켜 데이터베이스 및 MediaWiki 서버에 과부하 발생  
- 방어도 불가함  
  - IP 변경: 레이트 리미트를 우회하기 위해 IP를 지속적으로 변경  
  - UA 문자열 변경: 봇 사용자 에이전트(User Agent)를 임의의 문자열로 변경해 차단 우회  
- Googlebot과 Bingbot 같은 기존 검색 엔진 크롤러는 **정상적이고 효율적인 크롤링 패턴**을 보임.  
  - Googlebot: 0.14% (16,600 요청)  
  - Bingbot: 0.14% (15,900 요청)  
- 중복 크롤링 최소화, robots.txt 규칙 준수  
  
#### 결과 및 영향  
- **효과적인 서비스 제공 불가**: LLM 크롤링 봇으로 인해 인간 사용자 경험이 크게 악화  
- **서버 과부하**: 데이터베이스 서버 및 MediaWiki가 반복적으로 로드 스파이크를 겪음  
- **사실상 인터넷 전체 DDoS**: 이러한 크롤링 방식은 전 세계적으로 불필요한 리소스 낭비를 초래  
  
#### 결론  
- LLM 크롤링 봇의 비정상적인 트래픽 패턴으로 인해 인프라가 지속적인 부담을 받고 있으며, 이를 방어하기 위한 시도가 효과를 발휘하지 못하고 있음  
- 이 문제는 개인적인 피로를 넘어 인터넷 생태계 전반에 심각한 영향을 미치고 있음

## Comments


### Comment 32807

- Author: neo
- Created: 2024-12-31T09:45:13+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=42549624) 
- Meta의 AI 봇이 웹사이트를 과도하게 크롤링하여 서버가 다운된 경험을 공유함. Cloudflare를 사용하여 이를 차단하는 방법을 설명함
  - Cloudflare의 AI 봇 차단 기능이 유용하다고 언급함
  - AI 봇의 콘텐츠 접근이 가치가 없다고 주장함

- 다양한 플랫폼에서 발생한 봇 트래픽 데이터를 공유함
  - Claude, Amazon, Data For SEO, Chat GPT 등의 봇이 많은 트래픽을 발생시킴
  - 이러한 봇들이 robots.txt를 무시하거나 지연이 발생해도 백오프하지 않는다고 설명함

- 봇을 차단하는 방법에 대해 논의함
  - IP를 변경하거나 비봇 User Agent로 전환하는 봇의 행동을 설명함
  - OpenAI의 IP 범위를 공개하는 GitHub 링크를 공유함
  - WordPress 플러그인을 사용하여 AI 봇을 차단하는 방법을 제안함

- CGTalk 포럼이 자원 문제로 폐쇄된 사례를 언급함
  - 많은 포럼이 서버 운영 부담을 줄이기 위해 Slack, Discord로 이동함

- AI 회사들이 더 지능적으로 스크래핑을 해야 한다고 주장함
  - AI 회사의 행동이 부끄러운 일이라고 언급함

- 포이즈닝 공격에 대한 호기심을 표현함
  - 인간이 작성한 잘못된 콘텐츠로 AI 모델을 혼란스럽게 할 수 있는 가능성을 탐구함

- GCP에 배포한 앱이 봇 트래픽으로 인해 비용이 증가한 경험을 공유함
  - Reddit에 앱을 공유한 것이 원인이라고 추측함

- 대형 포럼의 크롤링 경험을 공유함
  - ChatGPT가 포럼의 역사에 대해 잘 알고 있다고 언급함
  - LLMs에 영향을 줄 수 있는 텍스트를 추가하는 아이디어를 제안함

- robots.txt를 무시하고 서비스에 악영향을 미치는 봇의 행동을 불법으로 간주할 수 있다고 주장함
  - 지역 사이버 법 집행 기관에 연락할 것을 권장함