FOSS 인프라가 AI 회사로부터 공격받고 있음

(thelibre.news)

1P by GN⁺ 7달전 | ★ favorite | 댓글 1개

Drew DeVault(SourceHut 설립자)이 AI 크롤러가 robots.txt를 무시하고 SourceHut에 심각한 장애 발생시킨다고 경고
KDE의 GitLab 인프라도 Alibaba의 IP 범위에서 발생한 AI 크롤러 공격으로 접근 불가 상태 발생
AI 크롤러의 문제점
- AI 크롤러는 robots.txt 요구사항 무시
  - git blame, git log의 모든 페이지 및 커밋 크롤링
  - 무작위 User-Agent 및 수만 개의 IP에서 요청 발생 → 일반 사용자 트래픽처럼 위장
- 크롤러 차단 어려움 → 우선순위 높은 작업이 수주 또는 수개월 지연
시스템 관리자의 불만
- AI 크롤러 문제는 개별 사례가 아닌 광범위한 문제
  - 많은 시스템 관리자들이 같은 문제를 경험 중
  - OpenAI, Anthropic은 정확한 User-Agent를 설정하지만, 중국 AI 회사는 그렇지 않음
KDE GitLab의 대응
- MS Edge로 위장한 봇 차단 → 일시적 해결책
- GNOME은 비로그인 사용자의 머지 요청 및 커밋 확인 속도 제한 적용
- Anubis 도입 → 브라우저가 문제 풀이를 통해 접근 허용
Anubis의 문제점
- 사용자에게도 영향 발생 → 문제 풀이 시간 필요
  - 채팅방에 링크가 공유되면 과부하 발생 → 1~2분 대기 시간 발생
트래픽의 97%가 봇
- GNOME에서 2시간 반 동안 81,000건 요청 발생 → 97%가 AI 크롤러
- 일부 프로젝트는 AI 크롤러 차단 후 트래픽 75% 감소
기타 FOSS 프로젝트의 문제
- Fedora → 크롤러 차단 위해 브라질 전체 IP 차단
- Inkscape → 크롤러가 브라우저 정보 위조 → 대규모 IP 차단
- Frama Software → 46만 개의 IP 차단 리스트 생성
AI 크롤러 대응 프로젝트
- ai.robots.txt → AI 크롤러 차단을 위한 오픈 리스트 제공
  - robots.txt 및 .htaccess 파일 설정 → AI 크롤러 요청 시 오류 페이지 반환
트래픽 분석 결과
- Diaspora의 경우 트래픽의 70%가 AI 크롤러
  - OpenAI 사용자 에이전트: 25%
  - Amazon: 15%
  - Anthropic: 4.3%
- Google 및 Bing 크롤러의 트래픽 점유율은 1% 미만
AI 생성 버그 리포트 문제
- Curl 프로젝트에서 AI 생성 버그 리포트 문제 발생
  - 보고된 버그는 대부분 환각(hallucination) 문제
- CPython, pip, urllib3, Requests → AI 생성 보안 리포트 처리 시간 소모
  - 신뢰성 낮음 → 그러나 확인 필요 → 유지 관리자의 부담 증가

결론

AI 크롤러와 AI 생성 버그 리포트는 오픈 소스 커뮤니티에 큰 부담을 줌
오픈 소스 프로젝트는 상업 제품보다 자원이 적고, 커뮤니티 기반이기 때문에 이러한 문제에 더 취약함

▲

GN⁺ 7달전 [-]

Hacker News 의견

많은 사람들이 대규모 인터넷 인프라를 운영하면서 비슷한 경험을 하고 있음
- AI 크롤러의 남용에 대한 이야기를 공유하며, 이러한 문제를 한 곳에 모아 정리한 글이 있음
- 일부 스타트업은 문제를 해결하고 비용을 환불해 주었으나, Facebook은 이메일에 답하지 않음
Fastly는 FOSS 프로젝트에 무료 보안 서비스를 제공하고 있음
- 최근 AI 스크래핑에 대한 요청이 증가하고 있음
자신의 프로젝트가 미리보기 이미지에 등장한 것이 놀라움
- 프로젝트를 xeiaso.net에 배포하여 실제 환경에서의 작동을 확인하고 있음
FOSS 인프라뿐만 아니라 익명 인터넷 접근 자체가 위협받고 있음
- 새로운 봇들이 캡차를 풀고 실제 사용자처럼 행동할 수 있음
- 사이트들이 신용카드나 Worldcoin 같은 인증을 요구할 가능성이 있음
최근 Forgejo 인스턴스가 공격받았음
- 디스크가 생성된 zip 파일로 가득 찼고, Alibaba Cloud의 IP 범위를 차단하여 공격이 줄어듦
- DISABLE_DOWNLOAD_SOURCE_ARCHIVES 설정을 true로 변경할 것을 권장함
과거 검색 엔진 문제를 해결하기 위해 robots.txt가 만들어졌으나, 현재 새로운 인덱서들은 이를 무시하고 있음
- 법적 제재가 필요하다고 주장함
Google과 광고의 웹 지배력이 약화될 것임
- 캡차로 인해 검색 엔진이 사이트를 인덱싱하지 못하게 되고, 이는 검색 엔진의 가치를 떨어뜨릴 것임
LLaMa를 사용하여 모순된 게시물을 생성하여 정보의 혼란을 유도함
VideoLAN도 AI 회사의 봇으로 인해 포럼과 Gitlab이 공격받고 있음
- 대부분의 봇이 robots.txt를 무시함
검색 엔진에 인덱싱되지 않는 웹이 생길 가능성이 있음
- LLM 스크래핑에 대한 해결책으로 작업 증명을 요구하는 방법이 제안됨

답변달기