FOSS 인프라가 AI 회사로부터 공격받고 있음
(thelibre.news)- Drew DeVault(SourceHut 설립자)이 AI 크롤러가 robots.txt를 무시하고 SourceHut에 심각한 장애 발생시킨다고 경고
- KDE의 GitLab 인프라도 Alibaba의 IP 범위에서 발생한 AI 크롤러 공격으로 접근 불가 상태 발생
-
AI 크롤러의 문제점
- AI 크롤러는 robots.txt 요구사항 무시
- git blame, git log의 모든 페이지 및 커밋 크롤링
- 무작위 User-Agent 및 수만 개의 IP에서 요청 발생 → 일반 사용자 트래픽처럼 위장
- 크롤러 차단 어려움 → 우선순위 높은 작업이 수주 또는 수개월 지연
- AI 크롤러는 robots.txt 요구사항 무시
-
시스템 관리자의 불만
- AI 크롤러 문제는 개별 사례가 아닌 광범위한 문제
- 많은 시스템 관리자들이 같은 문제를 경험 중
- OpenAI, Anthropic은 정확한 User-Agent를 설정하지만, 중국 AI 회사는 그렇지 않음
- AI 크롤러 문제는 개별 사례가 아닌 광범위한 문제
-
KDE GitLab의 대응
- MS Edge로 위장한 봇 차단 → 일시적 해결책
- GNOME은 비로그인 사용자의 머지 요청 및 커밋 확인 속도 제한 적용
- Anubis 도입 → 브라우저가 문제 풀이를 통해 접근 허용
-
Anubis의 문제점
- 사용자에게도 영향 발생 → 문제 풀이 시간 필요
- 채팅방에 링크가 공유되면 과부하 발생 → 1~2분 대기 시간 발생
- 사용자에게도 영향 발생 → 문제 풀이 시간 필요
-
트래픽의 97%가 봇
- GNOME에서 2시간 반 동안 81,000건 요청 발생 → 97%가 AI 크롤러
- 일부 프로젝트는 AI 크롤러 차단 후 트래픽 75% 감소
-
기타 FOSS 프로젝트의 문제
- Fedora → 크롤러 차단 위해 브라질 전체 IP 차단
- Inkscape → 크롤러가 브라우저 정보 위조 → 대규모 IP 차단
- Frama Software → 46만 개의 IP 차단 리스트 생성
-
AI 크롤러 대응 프로젝트
-
ai.robots.txt → AI 크롤러 차단을 위한 오픈 리스트 제공
- robots.txt 및 .htaccess 파일 설정 → AI 크롤러 요청 시 오류 페이지 반환
-
ai.robots.txt → AI 크롤러 차단을 위한 오픈 리스트 제공
-
트래픽 분석 결과
- Diaspora의 경우 트래픽의 70%가 AI 크롤러
- OpenAI 사용자 에이전트: 25%
- Amazon: 15%
- Anthropic: 4.3%
- Google 및 Bing 크롤러의 트래픽 점유율은 1% 미만
- Diaspora의 경우 트래픽의 70%가 AI 크롤러
-
AI 생성 버그 리포트 문제
- Curl 프로젝트에서 AI 생성 버그 리포트 문제 발생
- 보고된 버그는 대부분 환각(hallucination) 문제
- CPython, pip, urllib3, Requests → AI 생성 보안 리포트 처리 시간 소모
- 신뢰성 낮음 → 그러나 확인 필요 → 유지 관리자의 부담 증가
- Curl 프로젝트에서 AI 생성 버그 리포트 문제 발생
결론
- AI 크롤러와 AI 생성 버그 리포트는 오픈 소스 커뮤니티에 큰 부담을 줌
- 오픈 소스 프로젝트는 상업 제품보다 자원이 적고, 커뮤니티 기반이기 때문에 이러한 문제에 더 취약함
Hacker News 의견
-
많은 사람들이 대규모 인터넷 인프라를 운영하면서 비슷한 경험을 하고 있음
- AI 크롤러의 남용에 대한 이야기를 공유하며, 이러한 문제를 한 곳에 모아 정리한 글이 있음
- 일부 스타트업은 문제를 해결하고 비용을 환불해 주었으나, Facebook은 이메일에 답하지 않음
-
Fastly는 FOSS 프로젝트에 무료 보안 서비스를 제공하고 있음
- 최근 AI 스크래핑에 대한 요청이 증가하고 있음
-
자신의 프로젝트가 미리보기 이미지에 등장한 것이 놀라움
- 프로젝트를 xeiaso.net에 배포하여 실제 환경에서의 작동을 확인하고 있음
-
FOSS 인프라뿐만 아니라 익명 인터넷 접근 자체가 위협받고 있음
- 새로운 봇들이 캡차를 풀고 실제 사용자처럼 행동할 수 있음
- 사이트들이 신용카드나 Worldcoin 같은 인증을 요구할 가능성이 있음
-
최근 Forgejo 인스턴스가 공격받았음
- 디스크가 생성된 zip 파일로 가득 찼고, Alibaba Cloud의 IP 범위를 차단하여 공격이 줄어듦
- DISABLE_DOWNLOAD_SOURCE_ARCHIVES 설정을 true로 변경할 것을 권장함
-
과거 검색 엔진 문제를 해결하기 위해 robots.txt가 만들어졌으나, 현재 새로운 인덱서들은 이를 무시하고 있음
- 법적 제재가 필요하다고 주장함
-
Google과 광고의 웹 지배력이 약화될 것임
- 캡차로 인해 검색 엔진이 사이트를 인덱싱하지 못하게 되고, 이는 검색 엔진의 가치를 떨어뜨릴 것임
-
LLaMa를 사용하여 모순된 게시물을 생성하여 정보의 혼란을 유도함
-
VideoLAN도 AI 회사의 봇으로 인해 포럼과 Gitlab이 공격받고 있음
- 대부분의 봇이 robots.txt를 무시함
-
검색 엔진에 인덱싱되지 않는 웹이 생길 가능성이 있음
- LLM 스크래핑에 대한 해결책으로 작업 증명을 요구하는 방법이 제안됨