# FOSS 인프라가 AI 회사로부터 공격받고 있음

> Clean Markdown view of GeekNews topic #19864. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=19864](https://news.hada.io/topic?id=19864)
- GeekNews Markdown: [https://news.hada.io/topic/19864.md](https://news.hada.io/topic/19864.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-03-21T09:40:56+09:00
- Updated: 2025-03-21T09:40:56+09:00
- Original source: [thelibre.news](https://thelibre.news/foss-infrastructure-is-under-attack-by-ai-companies/)
- Points: 1
- Comments: 1

## Topic Body

- Drew DeVault(SourceHut 설립자)이 AI 크롤러가 **robots.txt**를 무시하고 SourceHut에 **심각한 장애** 발생시킨다고 경고  
- KDE의 GitLab 인프라도 **Alibaba의 IP 범위에서 발생한 AI 크롤러 공격**으로 접근 불가 상태 발생  
- **AI 크롤러의 문제점**  
  - AI 크롤러는 **robots.txt 요구사항** 무시  
    - **git blame**, **git log**의 모든 페이지 및 커밋 크롤링  
    - 무작위 **User-Agent** 및 수만 개의 IP에서 요청 발생 → 일반 사용자 트래픽처럼 위장  
  - 크롤러 차단 어려움 → 우선순위 높은 작업이 수주 또는 수개월 지연  
- **시스템 관리자의 불만**  
  - AI 크롤러 문제는 개별 사례가 아닌 **광범위한 문제**  
    - 많은 시스템 관리자들이 같은 문제를 경험 중  
    - OpenAI, Anthropic은 **정확한 User-Agent**를 설정하지만, 중국 AI 회사는 그렇지 않음  
- **KDE GitLab의 대응**  
  - MS Edge로 위장한 봇 차단 → 일시적 해결책  
  - GNOME은 비로그인 사용자의 머지 요청 및 커밋 확인 속도 제한 적용  
  - **Anubis 도입** → 브라우저가 문제 풀이를 통해 접근 허용  
- **Anubis의 문제점**  
  - 사용자에게도 영향 발생 → 문제 풀이 시간 필요  
    - 채팅방에 링크가 공유되면 과부하 발생 → 1~2분 대기 시간 발생  
- **트래픽의 97%가 봇**  
  - GNOME에서 2시간 반 동안 **81,000건 요청** 발생 → **97%가 AI 크롤러**  
  - 일부 프로젝트는 AI 크롤러 차단 후 **트래픽 75% 감소**  
- **기타 FOSS 프로젝트의 문제**  
  - Fedora → 크롤러 차단 위해 **브라질 전체 IP 차단**  
  - Inkscape → 크롤러가 브라우저 정보 위조 → 대규모 IP 차단  
  - Frama Software → **46만 개의 IP 차단 리스트** 생성  
- **AI 크롤러 대응 프로젝트**  
  - **ai.robots.txt** → AI 크롤러 차단을 위한 오픈 리스트 제공  
    - robots.txt 및 .htaccess 파일 설정 → AI 크롤러 요청 시 오류 페이지 반환  
- **트래픽 분석 결과**  
  - Diaspora의 경우 트래픽의 **70%가 AI 크롤러**  
    - OpenAI 사용자 에이전트: **25%**  
    - Amazon: **15%**  
    - Anthropic: **4.3%**  
  - Google 및 Bing 크롤러의 트래픽 점유율은 **1% 미만**  
- **AI 생성 버그 리포트 문제**  
  - Curl 프로젝트에서 **AI 생성 버그 리포트** 문제 발생  
    - 보고된 버그는 대부분 **환각(hallucination)** 문제  
  - CPython, pip, urllib3, Requests → **AI 생성 보안 리포트** 처리 시간 소모  
    - 신뢰성 낮음 → 그러나 확인 필요 → 유지 관리자의 부담 증가  
### 결론  
- AI 크롤러와 AI 생성 버그 리포트는 오픈 소스 커뮤니티에 큰 부담을 줌  
- 오픈 소스 프로젝트는 상업 제품보다 자원이 적고, 커뮤니티 기반이기 때문에 이러한 문제에 더 취약함

## Comments



### Comment 36173

- Author: neo
- Created: 2025-03-21T09:40:56+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=43422413) 
- 많은 사람들이 대규모 인터넷 인프라를 운영하면서 비슷한 경험을 하고 있음
  - AI 크롤러의 남용에 대한 이야기를 공유하며, 이러한 문제를 한 곳에 모아 정리한 글이 있음
  - 일부 스타트업은 문제를 해결하고 비용을 환불해 주었으나, Facebook은 이메일에 답하지 않음

- Fastly는 FOSS 프로젝트에 무료 보안 서비스를 제공하고 있음
  - 최근 AI 스크래핑에 대한 요청이 증가하고 있음

- 자신의 프로젝트가 미리보기 이미지에 등장한 것이 놀라움
  - 프로젝트를 xeiaso.net에 배포하여 실제 환경에서의 작동을 확인하고 있음

- FOSS 인프라뿐만 아니라 익명 인터넷 접근 자체가 위협받고 있음
  - 새로운 봇들이 캡차를 풀고 실제 사용자처럼 행동할 수 있음
  - 사이트들이 신용카드나 Worldcoin 같은 인증을 요구할 가능성이 있음

- 최근 Forgejo 인스턴스가 공격받았음
  - 디스크가 생성된 zip 파일로 가득 찼고, Alibaba Cloud의 IP 범위를 차단하여 공격이 줄어듦
  - DISABLE_DOWNLOAD_SOURCE_ARCHIVES 설정을 true로 변경할 것을 권장함

- 과거 검색 엔진 문제를 해결하기 위해 robots.txt가 만들어졌으나, 현재 새로운 인덱서들은 이를 무시하고 있음
  - 법적 제재가 필요하다고 주장함

- Google과 광고의 웹 지배력이 약화될 것임
  - 캡차로 인해 검색 엔진이 사이트를 인덱싱하지 못하게 되고, 이는 검색 엔진의 가치를 떨어뜨릴 것임

- LLaMa를 사용하여 모순된 게시물을 생성하여 정보의 혼란을 유도함

- VideoLAN도 AI 회사의 봇으로 인해 포럼과 Gitlab이 공격받고 있음
  - 대부분의 봇이 robots.txt를 무시함

- 검색 엔진에 인덱싱되지 않는 웹이 생길 가능성이 있음
  - LLM 스크래핑에 대한 해결책으로 작업 증명을 요구하는 방법이 제안됨
