AI 스크레이퍼 때문에 좋은 서비스를 유지할 수 없는 이유
(blog.metabrainz.org)- 최근 AI 기업들의 무단 데이터 수집으로 MetaBrainz의 서버가 과부하를 겪고 있음
- 이들은 robots.txt 규칙을 무시하고 MusicBrainz 데이터를 페이지 단위로 크롤링하며, 이는 수백 년이 걸릴 비효율적 방식임
- 같은 행위가 ListenBrainz API에도 확산되어, 서비스 보호를 위해 인증 토큰 요구 및 일부 API 폐쇄 조치가 시행됨
- LB Radio는 로그인 사용자만 이용 가능하며, API 호출 시에도 Authorization 헤더가 필요함
- 이러한 조치는 정상 사용자 접근성을 유지하기 위한 필수 대응으로 설명됨
AI 스크레이퍼로 인한 서버 과부하 문제
- MetaBrainz 팀은 최근 몇 달간 AI 모델 학습용 데이터 수집을 위한 무단 크롤링에 대응 중임
- 일부 AI 기업이 robots.txt 등 기본적 인터넷 예절을 무시하고 데이터를 긁어감
- MusicBrainz 데이터를 한 페이지씩 요청하는 방식으로 접근, 전체 다운로드보다 비효율적이며 서버 부하 초래
- 이러한 접근은 수백 년이 걸릴 수준의 비효율성을 가지며, 결과적으로 정상 사용자 접근 방해로 이어짐
ListenBrainz API 보호 조치
- AI 스크레이퍼가 ListenBrainz의 여러 API 엔드포인트를 대상으로 데이터 수집을 시도함
- 이에 따라 다음과 같은 변경이 이루어짐:
-
/metadata/lookupAPI(GET 및 POST)는 Authorization 토큰이 있어야 작동 -
ListenBrainz Labs API의
mbid-mapping,mbid-mapping-release,mbid-mapping-explain엔드포인트는 삭제됨- 해당 API는 원래 디버깅용으로 제공되었으며, 향후 새 매퍼용 엔드포인트로 대체 예정
- LB Radio는 로그인 사용자만 이용 가능하며, API 호출 시 Authorization 헤더 필요
-
서비스 안정성 확보를 위한 긴급 대응
- MetaBrainz는 이번 조치가 서비스 과부하 방지와 정상 운영 유지를 위한 불가피한 결정이라 밝힘
- 사용자에게 예고 없는 변경으로 불편을 끼친 점을 사과하며, 연말 프로젝트 완료 후 에러 메시지 개선 예정
커뮤니티 반응
- 댓글에서는 AI 스크레이퍼의 비효율적 접근 방식과 자동화된 웹 스파이더 구조에 대한 논의가 이어짐
- 일부 사용자는 “AI 작업자들의 무능”을 지적
- 다른 사용자는 “자동화된 크롤러가 단순히 링크를 따라가며 데이터를 수집하기 때문”이라 설명
전체적 의미
- MetaBrainz의 조치는 AI 데이터 수집으로 인한 오픈 데이터 프로젝트의 피해를 보여주는 사례
- 공공 API의 지속 가능성을 위해 인증 강화와 접근 제한이 불가피해지고 있음
Hacker News 의견들
-
Metabrainz는 정말 훌륭한 공익 데이터베이스임
예전에 EFF 블로그 글에 이 주제로 글을 쓴 적이 있음
Metabrainz 같은 공공 데이터는 AI 봇이 가져가도 괜찮지만, 지금처럼 비효율적인 방식으로 긁어가는 게 문제임
결국 조정 실패의 문제임. Metabrainz는 봇의 선의를 가정하지만, 봇은 사이트가 데이터를 숨긴다고 생각함
“API를 그만 두드리고, 여기 있는 gzipped tar 파일을 한 번에 받아가라”고 말해도 믿지 않음
차라리 토렌트 파일로 제공하면 봇이 데이터를 더 잘 공유하게 될 수도 있음- 나도 AI 스크래퍼 때문에 내 사이트 tvnfo.com을 닫았음
2016년부터 공개했지만, 리소스 소모가 너무 커서 이제는 후원자 전용으로만 운영 중임
월 60달러짜리 취미 프로젝트라 유지가 빠듯함. 나중에 지원이 늘면 봇 방어 솔루션을 붙여 다시 열 수도 있음
하지만 이런 문제는 나만 겪는 게 아니라는 걸 알고 놀랐음. 결국 인터넷이 점점 닫히는 방향으로 가는 것 같음 - robots.txt로 “여기서 tar 파일 받아가라”고 알려줄 방법이 있는지 궁금함
표준에 그런 기능이 있는지 모르겠음 - 봇이 토렌트를 쓴다면 공유 통계 조작도 가능함
예전에 나도 개인 트래커에서 추방당하지 않으려고 업로드 비율을 부풀린 적이 있었음 - 봇이 사이트를 적대적 존재로 간주한다는 건 심각한 문제임
사이트 소유자의 의사를 무시하는 건 잘못된 접근임 - 사실 대부분의 “AI 스크래퍼”는 단순한 재귀 크롤러 스크립트임
진짜 AI가 페이지를 읽고 판단하는 게 아니라, 링크를 따라가며 문서를 긁는 자동화 코드일 뿐임
- 나도 AI 스크래퍼 때문에 내 사이트 tvnfo.com을 닫았음
-
AI가 자유로운 웹 생태계를 파괴하고 있음
내 웹호스트가 갑자기 폭증한 봇 트래픽 때문에 계정을 정지시켰음
결국 새 호스트로 옮겼지만, 개인 운영자는 이런 상황에서 희망이 없음
AI 기업들은 무한한 자원을 갖고 있고, 피해에는 관심이 없음
냉소적으로 보면, 이건 의도된 전략일지도 모름 — 무료 사이트를 없애서 사람들이 결국 AI 모델을 통해서만 정보를 얻도록 만드는 것임- AI 요약 서비스가 독립 웹의 트래픽 절반 이상을 빼앗고 있음
정보 공유의 경제성이 무너지고 있음
결국 소수 기업이 가치를 독점하고, 나중엔 엔쉬티피케이션(enshittification) 이 시작될 것임
- AI 요약 서비스가 독립 웹의 트래픽 절반 이상을 빼앗고 있음
-
내 아이 학교 PTA 웹사이트를 관리하는데, OpenAI 봇이 이벤트 캘린더를 무작위로 긁어감
연도 1000년부터 3000년까지 요청이 이어졌음
User-Agent를 차단하자 4시간쯤 지나서야 멈췄음 -
나는 Google Cloud의 e2-micro VPS에서 정적 웹사이트와 cgit 인스턴스를 운영 중임
160일 동안 OpenAI와 Claude에서 850만 건 넘는 요청을 받았음
그래서 lighttpd에서 User-Agent에 “claude|openai”가 있으면 403을 반환하도록 설정했고, nftables로 속도 제한을 걸었음- 이런 봇들은 그나마 “양심적인” 쪽임
진짜 문제는 주거용 프록시를 이용한 봇넷임. 일반 브라우저인 척하며 들어옴 - OpenAI는 공식 봇 IP 목록을 공개하지만, Anthropic은 그렇지 않음
- 흥미롭게도 내 GitHub 블로그는 이런 스크래핑이 전혀 없음
Microsoft가 막고 있는 걸까, 아니면 내 블로그가 봇이 관심 없는 수준인 걸까 싶음
- 이런 봇들은 그나마 “양심적인” 쪽임
-
Cloudflare는 이제 AI 스크래퍼 탐지 서비스를 제공함
탐지된 봇을 무한 루프의 AI 생성 페이지로 유도함- 하지만 이렇게 하려면 모든 트래픽을 Cloudflare를 거쳐야 함
결국 제3자가 내 콘텐츠 접근 권한을 결정하게 되는 셈이라 불편함 - Cloudflare는 VPN, 희귀 브라우저 사용자에게 접근 문제를 자주 일으킴
나도 불만이 많아서 결국 제거했음 - “TLS 추가 및 제거 서비스”로는 적절하지 않다고 생각함
- 관련 아이디어로 Poison Fountain 프로젝트가 있음
- Cloudflare가 충분히 많은 사이트를 확보하면, AI 기업에 캐시 접근료를 부과할 수도 있음
- 하지만 이렇게 하려면 모든 트래픽을 Cloudflare를 거쳐야 함
-
SQLite 팀도 비슷한 문제를 겪었음
창시자 Richard Hipp이 “그냥 전체 저장소를 복제하면 되는데, 굳이 남들 피해주며 긁어간다”며 ‘이기적 행위’ 를 비판했음
관련 포럼 글 참고- 하지만 누군가는 “악의적이라니, 너무 과장된 표현”이라고 반박했음
-
시간이 갈수록, 모든 크롤링을 Common Crawl 같은 공용 채널로 통합해야 한다는 생각이 듦
서버 부하를 줄이면서도 웹의 개방성과 스크래핑 가능성을 유지해야 함
예를 들어/well-known/경로 아래에 타임스탬프가 있는 데이터 덤프 링크를 두는 식으로 표준화할 수 있음- MetaBrainz가 이미 이런 방식을 사용함 — 전체 DB를 tarball로 제공함
나도 한 시간 정도 걸려 다운로드했고, 이후엔 로컬 쿼리로 해결함
하지만 대부분은 여전히 스크래핑이 더 쉽기 때문에 덤프를 안 씀 - 나는 저작권 제도 개편이 필요하다고 봄
일정 기간 후 데이터를 “국가 데이터셋”에 기부하면, AI 학습용으로 활용하고 수익을 저작권자에게 분배하는 구조를 제안함
이렇게 하면 AI 개발자, 저작권자, 대중 모두가 이익을 얻을 수 있음 - 나도 개인적으로 Tampermonkey 스크립트로 소규모 스크래핑을 함
AI를 이용해 코드를 생성하고 VPS 가격 리스트 같은 걸 자동 수집함
예전엔 lowendtalk의 모든 헤드라인을 긁어와 LLM 분석용 데이터셋으로 만들기도 했음 -
/llms.txt같은 표준 파일을 만들어, LLM이 필요한 순수 텍스트 데이터만 제공하는 것도 방법일 것 같음
URL, 주소, 전화번호 등은 제거하고,<item>과<subitem>같은 최소한의 마크업만 유지하는 식임
다만 많은 사이트가 형식만 맞춘 빈 파일을 둘 가능성이 있음 - 사실 이건 기술 문제가 아니라 경제 구조의 문제임
거대 자본이 단기 이익을 위해 웹을 망가뜨리고 있음
하지만 결국 적응과 균형이 생길 것이라 믿음
- MetaBrainz가 이미 이런 방식을 사용함 — 전체 DB를 tarball로 제공함
-
요즘은 AI 스크래퍼뿐 아니라, 사용자 자체가 요약 요청을 통해 간접 스크래핑을 함
예를 들어 Firefox는 링크를 클릭하지 않아도 요약 미리보기를 제공함
관련 이미지- 이 기능은 로컬에서 llama.cpp(wllama) 로 실행되는 SmolLM2-360M 모델이 요약을 생성함
결국 브라우저가 직접 페이지를 가져와 요약하므로, 사이트 입장에서는 동일한 요청으로 보임
Mozilla 공식 설명 참고 - 문제는 세 가지임
- AI 기업의 비윤리적 크롤링
- 사용자의 에이전트 기반 요약 요청
- 이런 에이전트가 인간보다 비효율적이면서도 훨씬 빠름
- 하지만 사용자들이 “훈련된” 게 아니라, 단순히 LLM이 정말 잘 작동하기 때문에 쓰는 것임
- 이 기능은 로컬에서 llama.cpp(wllama) 로 실행되는 SmolLM2-360M 모델이 요약을 생성함
-
요즘 스크래퍼들은 주거용 IP 풀을 이용해 탐지를 피함
- 이런 IP 풀을 제공하는 ISP가 새로운 수익 모델을 만든 건 아닌지 의심됨
- 게다가 이제는 실제 브라우저를 구동하는 봇도 많아서 Cloudflare 캡차도 통과함
이런 상황에서 방어책이 얼마나 오래 유효할지 모르겠음