AI 스크레이퍼 때문에 좋은 서비스를 유지할 수 없는 이유

(blog.metabrainz.org)

1P by GN⁺ 2달전 | ★ favorite | 댓글 1개

최근 AI 기업들의 무단 데이터 수집으로 MetaBrainz의 서버가 과부하를 겪고 있음
이들은 robots.txt 규칙을 무시하고 MusicBrainz 데이터를 페이지 단위로 크롤링하며, 이는 수백 년이 걸릴 비효율적 방식임
같은 행위가 ListenBrainz API에도 확산되어, 서비스 보호를 위해 인증 토큰 요구 및 일부 API 폐쇄 조치가 시행됨
LB Radio는 로그인 사용자만 이용 가능하며, API 호출 시에도 Authorization 헤더가 필요함
이러한 조치는 정상 사용자 접근성을 유지하기 위한 필수 대응으로 설명됨

AI 스크레이퍼로 인한 서버 과부하 문제

MetaBrainz 팀은 최근 몇 달간 AI 모델 학습용 데이터 수집을 위한 무단 크롤링에 대응 중임
- 일부 AI 기업이 robots.txt 등 기본적 인터넷 예절을 무시하고 데이터를 긁어감
- MusicBrainz 데이터를 한 페이지씩 요청하는 방식으로 접근, 전체 다운로드보다 비효율적이며 서버 부하 초래
이러한 접근은 수백 년이 걸릴 수준의 비효율성을 가지며, 결과적으로 정상 사용자 접근 방해로 이어짐

ListenBrainz API 보호 조치

AI 스크레이퍼가 ListenBrainz의 여러 API 엔드포인트를 대상으로 데이터 수집을 시도함
이에 따라 다음과 같은 변경이 이루어짐:
- /metadata/lookup API(GET 및 POST)는 Authorization 토큰이 있어야 작동
- ListenBrainz Labs API의 mbid-mapping, mbid-mapping-release, mbid-mapping-explain 엔드포인트는 삭제됨
  - 해당 API는 원래 디버깅용으로 제공되었으며, 향후 새 매퍼용 엔드포인트로 대체 예정
- LB Radio는 로그인 사용자만 이용 가능하며, API 호출 시 Authorization 헤더 필요

서비스 안정성 확보를 위한 긴급 대응

MetaBrainz는 이번 조치가 서비스 과부하 방지와 정상 운영 유지를 위한 불가피한 결정이라 밝힘
사용자에게 예고 없는 변경으로 불편을 끼친 점을 사과하며, 연말 프로젝트 완료 후 에러 메시지 개선 예정

커뮤니티 반응

댓글에서는 AI 스크레이퍼의 비효율적 접근 방식과 자동화된 웹 스파이더 구조에 대한 논의가 이어짐
- 일부 사용자는 “AI 작업자들의 무능”을 지적
- 다른 사용자는 “자동화된 크롤러가 단순히 링크를 따라가며 데이터를 수집하기 때문”이라 설명

전체적 의미

MetaBrainz의 조치는 AI 데이터 수집으로 인한 오픈 데이터 프로젝트의 피해를 보여주는 사례
공공 API의 지속 가능성을 위해 인증 강화와 접근 제한이 불가피해지고 있음

▲

GN⁺ 2달전 [-]

Hacker News 의견들

Metabrainz는 정말 훌륭한 공익 데이터베이스임
예전에 EFF 블로그 글에 이 주제로 글을 쓴 적이 있음
Metabrainz 같은 공공 데이터는 AI 봇이 가져가도 괜찮지만, 지금처럼 비효율적인 방식으로 긁어가는 게 문제임
결국 조정 실패의 문제임. Metabrainz는 봇의 선의를 가정하지만, 봇은 사이트가 데이터를 숨긴다고 생각함
“API를 그만 두드리고, 여기 있는 gzipped tar 파일을 한 번에 받아가라”고 말해도 믿지 않음
차라리 토렌트 파일로 제공하면 봇이 데이터를 더 잘 공유하게 될 수도 있음
- 나도 AI 스크래퍼 때문에 내 사이트 tvnfo.com을 닫았음
  2016년부터 공개했지만, 리소스 소모가 너무 커서 이제는 후원자 전용으로만 운영 중임
  월 60달러짜리 취미 프로젝트라 유지가 빠듯함. 나중에 지원이 늘면 봇 방어 솔루션을 붙여 다시 열 수도 있음
  하지만 이런 문제는 나만 겪는 게 아니라는 걸 알고 놀랐음. 결국 인터넷이 점점 닫히는 방향으로 가는 것 같음
- robots.txt로 “여기서 tar 파일 받아가라”고 알려줄 방법이 있는지 궁금함
  표준에 그런 기능이 있는지 모르겠음
- 봇이 토렌트를 쓴다면 공유 통계 조작도 가능함
  예전에 나도 개인 트래커에서 추방당하지 않으려고 업로드 비율을 부풀린 적이 있었음
- 봇이 사이트를 적대적 존재로 간주한다는 건 심각한 문제임
  사이트 소유자의 의사를 무시하는 건 잘못된 접근임
- 사실 대부분의 “AI 스크래퍼”는 단순한 재귀 크롤러 스크립트임
  진짜 AI가 페이지를 읽고 판단하는 게 아니라, 링크를 따라가며 문서를 긁는 자동화 코드일 뿐임
AI가 자유로운 웹 생태계를 파괴하고 있음
내 웹호스트가 갑자기 폭증한 봇 트래픽 때문에 계정을 정지시켰음
결국 새 호스트로 옮겼지만, 개인 운영자는 이런 상황에서 희망이 없음
AI 기업들은 무한한 자원을 갖고 있고, 피해에는 관심이 없음
냉소적으로 보면, 이건 의도된 전략일지도 모름 — 무료 사이트를 없애서 사람들이 결국 AI 모델을 통해서만 정보를 얻도록 만드는 것임
- AI 요약 서비스가 독립 웹의 트래픽 절반 이상을 빼앗고 있음
  정보 공유의 경제성이 무너지고 있음
  결국 소수 기업이 가치를 독점하고, 나중엔 엔쉬티피케이션(enshittification) 이 시작될 것임
내 아이 학교 PTA 웹사이트를 관리하는데, OpenAI 봇이 이벤트 캘린더를 무작위로 긁어감
연도 1000년부터 3000년까지 요청이 이어졌음
User-Agent를 차단하자 4시간쯤 지나서야 멈췄음
나는 Google Cloud의 e2-micro VPS에서 정적 웹사이트와 cgit 인스턴스를 운영 중임
160일 동안 OpenAI와 Claude에서 850만 건 넘는 요청을 받았음
그래서 lighttpd에서 User-Agent에 “claude|openai”가 있으면 403을 반환하도록 설정했고, nftables로 속도 제한을 걸었음
- 이런 봇들은 그나마 “양심적인” 쪽임
  진짜 문제는 주거용 프록시를 이용한 봇넷임. 일반 브라우저인 척하며 들어옴
- OpenAI는 공식 봇 IP 목록을 공개하지만, Anthropic은 그렇지 않음
- 흥미롭게도 내 GitHub 블로그는 이런 스크래핑이 전혀 없음
  Microsoft가 막고 있는 걸까, 아니면 내 블로그가 봇이 관심 없는 수준인 걸까 싶음
Cloudflare는 이제 AI 스크래퍼 탐지 서비스를 제공함
탐지된 봇을 무한 루프의 AI 생성 페이지로 유도함
- 하지만 이렇게 하려면 모든 트래픽을 Cloudflare를 거쳐야 함
  결국 제3자가 내 콘텐츠 접근 권한을 결정하게 되는 셈이라 불편함
- Cloudflare는 VPN, 희귀 브라우저 사용자에게 접근 문제를 자주 일으킴
  나도 불만이 많아서 결국 제거했음
- “TLS 추가 및 제거 서비스”로는 적절하지 않다고 생각함
- 관련 아이디어로 Poison Fountain 프로젝트가 있음
- Cloudflare가 충분히 많은 사이트를 확보하면, AI 기업에 캐시 접근료를 부과할 수도 있음
SQLite 팀도 비슷한 문제를 겪었음
창시자 Richard Hipp이 “그냥 전체 저장소를 복제하면 되는데, 굳이 남들 피해주며 긁어간다”며 ‘이기적 행위’ 를 비판했음
관련 포럼 글 참고
- 하지만 누군가는 “악의적이라니, 너무 과장된 표현”이라고 반박했음
시간이 갈수록, 모든 크롤링을 Common Crawl 같은 공용 채널로 통합해야 한다는 생각이 듦
서버 부하를 줄이면서도 웹의 개방성과 스크래핑 가능성을 유지해야 함
예를 들어 /well-known/ 경로 아래에 타임스탬프가 있는 데이터 덤프 링크를 두는 식으로 표준화할 수 있음
- MetaBrainz가 이미 이런 방식을 사용함 — 전체 DB를 tarball로 제공함
  나도 한 시간 정도 걸려 다운로드했고, 이후엔 로컬 쿼리로 해결함
  하지만 대부분은 여전히 스크래핑이 더 쉽기 때문에 덤프를 안 씀
- 나는 저작권 제도 개편이 필요하다고 봄
  일정 기간 후 데이터를 “국가 데이터셋”에 기부하면, AI 학습용으로 활용하고 수익을 저작권자에게 분배하는 구조를 제안함
  이렇게 하면 AI 개발자, 저작권자, 대중 모두가 이익을 얻을 수 있음
- 나도 개인적으로 Tampermonkey 스크립트로 소규모 스크래핑을 함
  AI를 이용해 코드를 생성하고 VPS 가격 리스트 같은 걸 자동 수집함
  예전엔 lowendtalk의 모든 헤드라인을 긁어와 LLM 분석용 데이터셋으로 만들기도 했음
- /llms.txt 같은 표준 파일을 만들어, LLM이 필요한 순수 텍스트 데이터만 제공하는 것도 방법일 것 같음
  URL, 주소, 전화번호 등은 제거하고, <item>과 <subitem> 같은 최소한의 마크업만 유지하는 식임
  다만 많은 사이트가 형식만 맞춘 빈 파일을 둘 가능성이 있음
- 사실 이건 기술 문제가 아니라 경제 구조의 문제임
  거대 자본이 단기 이익을 위해 웹을 망가뜨리고 있음
  하지만 결국 적응과 균형이 생길 것이라 믿음
요즘은 AI 스크래퍼뿐 아니라, 사용자 자체가 요약 요청을 통해 간접 스크래핑을 함
예를 들어 Firefox는 링크를 클릭하지 않아도 요약 미리보기를 제공함
관련 이미지
- 이 기능은 로컬에서 llama.cpp(wllama) 로 실행되는 SmolLM2-360M 모델이 요약을 생성함
  결국 브라우저가 직접 페이지를 가져와 요약하므로, 사이트 입장에서는 동일한 요청으로 보임
  Mozilla 공식 설명 참고
- 문제는 세 가지임
  1. AI 기업의 비윤리적 크롤링
  2. 사용자의 에이전트 기반 요약 요청
  3. 이런 에이전트가 인간보다 비효율적이면서도 훨씬 빠름
- 하지만 사용자들이 “훈련된” 게 아니라, 단순히 LLM이 정말 잘 작동하기 때문에 쓰는 것임
요즘 스크래퍼들은 주거용 IP 풀을 이용해 탐지를 피함
- 이런 IP 풀을 제공하는 ISP가 새로운 수익 모델을 만든 건 아닌지 의심됨
- 게다가 이제는 실제 브라우저를 구동하는 봇도 많아서 Cloudflare 캡차도 통과함
  이런 상황에서 방어책이 얼마나 오래 유효할지 모르겠음

답변달기