1P by GN⁺ 11일전 | ★ favorite | 댓글 1개
  • 최근 AI 기업들의 무단 데이터 수집으로 MetaBrainz의 서버가 과부하를 겪고 있음
  • 이들은 robots.txt 규칙을 무시하고 MusicBrainz 데이터를 페이지 단위로 크롤링하며, 이는 수백 년이 걸릴 비효율적 방식임
  • 같은 행위가 ListenBrainz API에도 확산되어, 서비스 보호를 위해 인증 토큰 요구 및 일부 API 폐쇄 조치가 시행됨
  • LB Radio는 로그인 사용자만 이용 가능하며, API 호출 시에도 Authorization 헤더가 필요함
  • 이러한 조치는 정상 사용자 접근성을 유지하기 위한 필수 대응으로 설명됨

AI 스크레이퍼로 인한 서버 과부하 문제

  • MetaBrainz 팀은 최근 몇 달간 AI 모델 학습용 데이터 수집을 위한 무단 크롤링에 대응 중임
    • 일부 AI 기업이 robots.txt 등 기본적 인터넷 예절을 무시하고 데이터를 긁어감
    • MusicBrainz 데이터를 한 페이지씩 요청하는 방식으로 접근, 전체 다운로드보다 비효율적이며 서버 부하 초래
  • 이러한 접근은 수백 년이 걸릴 수준의 비효율성을 가지며, 결과적으로 정상 사용자 접근 방해로 이어짐

ListenBrainz API 보호 조치

  • AI 스크레이퍼가 ListenBrainz의 여러 API 엔드포인트를 대상으로 데이터 수집을 시도함
  • 이에 따라 다음과 같은 변경이 이루어짐:
    • /metadata/lookup API(GET 및 POST)는 Authorization 토큰이 있어야 작동
    • ListenBrainz Labs APImbid-mapping, mbid-mapping-release, mbid-mapping-explain 엔드포인트는 삭제됨
      • 해당 API는 원래 디버깅용으로 제공되었으며, 향후 새 매퍼용 엔드포인트로 대체 예정
    • LB Radio는 로그인 사용자만 이용 가능하며, API 호출 시 Authorization 헤더 필요

서비스 안정성 확보를 위한 긴급 대응

  • MetaBrainz는 이번 조치가 서비스 과부하 방지와 정상 운영 유지를 위한 불가피한 결정이라 밝힘
  • 사용자에게 예고 없는 변경으로 불편을 끼친 점을 사과하며, 연말 프로젝트 완료 후 에러 메시지 개선 예정

커뮤니티 반응

  • 댓글에서는 AI 스크레이퍼의 비효율적 접근 방식자동화된 웹 스파이더 구조에 대한 논의가 이어짐
    • 일부 사용자는 “AI 작업자들의 무능”을 지적
    • 다른 사용자는 “자동화된 크롤러가 단순히 링크를 따라가며 데이터를 수집하기 때문”이라 설명

전체적 의미

  • MetaBrainz의 조치는 AI 데이터 수집으로 인한 오픈 데이터 프로젝트의 피해를 보여주는 사례
  • 공공 API의 지속 가능성을 위해 인증 강화와 접근 제한이 불가피해지고 있음
Hacker News 의견들
  • Metabrainz는 정말 훌륭한 공익 데이터베이스
    예전에 EFF 블로그 글에 이 주제로 글을 쓴 적이 있음
    Metabrainz 같은 공공 데이터는 AI 봇이 가져가도 괜찮지만, 지금처럼 비효율적인 방식으로 긁어가는 게 문제임
    결국 조정 실패의 문제임. Metabrainz는 봇의 선의를 가정하지만, 봇은 사이트가 데이터를 숨긴다고 생각함
    “API를 그만 두드리고, 여기 있는 gzipped tar 파일을 한 번에 받아가라”고 말해도 믿지 않음
    차라리 토렌트 파일로 제공하면 봇이 데이터를 더 잘 공유하게 될 수도 있음

    • 나도 AI 스크래퍼 때문에 내 사이트 tvnfo.com을 닫았음
      2016년부터 공개했지만, 리소스 소모가 너무 커서 이제는 후원자 전용으로만 운영 중임
      월 60달러짜리 취미 프로젝트라 유지가 빠듯함. 나중에 지원이 늘면 봇 방어 솔루션을 붙여 다시 열 수도 있음
      하지만 이런 문제는 나만 겪는 게 아니라는 걸 알고 놀랐음. 결국 인터넷이 점점 닫히는 방향으로 가는 것 같음
    • robots.txt로 “여기서 tar 파일 받아가라”고 알려줄 방법이 있는지 궁금함
      표준에 그런 기능이 있는지 모르겠음
    • 봇이 토렌트를 쓴다면 공유 통계 조작도 가능함
      예전에 나도 개인 트래커에서 추방당하지 않으려고 업로드 비율을 부풀린 적이 있었음
    • 봇이 사이트를 적대적 존재로 간주한다는 건 심각한 문제임
      사이트 소유자의 의사를 무시하는 건 잘못된 접근임
    • 사실 대부분의 “AI 스크래퍼”는 단순한 재귀 크롤러 스크립트
      진짜 AI가 페이지를 읽고 판단하는 게 아니라, 링크를 따라가며 문서를 긁는 자동화 코드일 뿐임
  • AI가 자유로운 웹 생태계를 파괴하고 있음
    내 웹호스트가 갑자기 폭증한 봇 트래픽 때문에 계정을 정지시켰음
    결국 새 호스트로 옮겼지만, 개인 운영자는 이런 상황에서 희망이 없음
    AI 기업들은 무한한 자원을 갖고 있고, 피해에는 관심이 없음
    냉소적으로 보면, 이건 의도된 전략일지도 모름 — 무료 사이트를 없애서 사람들이 결국 AI 모델을 통해서만 정보를 얻도록 만드는 것임

    • AI 요약 서비스가 독립 웹의 트래픽 절반 이상을 빼앗고 있음
      정보 공유의 경제성이 무너지고 있음
      결국 소수 기업이 가치를 독점하고, 나중엔 엔쉬티피케이션(enshittification) 이 시작될 것임
  • 내 아이 학교 PTA 웹사이트를 관리하는데, OpenAI 봇이 이벤트 캘린더를 무작위로 긁어감
    연도 1000년부터 3000년까지 요청이 이어졌음
    User-Agent를 차단하자 4시간쯤 지나서야 멈췄음

  • 나는 Google Cloud의 e2-micro VPS에서 정적 웹사이트와 cgit 인스턴스를 운영 중임
    160일 동안 OpenAI와 Claude에서 850만 건 넘는 요청을 받았음
    그래서 lighttpd에서 User-Agent에 “claude|openai”가 있으면 403을 반환하도록 설정했고, nftables로 속도 제한을 걸었음

    • 이런 봇들은 그나마 “양심적인” 쪽임
      진짜 문제는 주거용 프록시를 이용한 봇넷임. 일반 브라우저인 척하며 들어옴
    • OpenAI는 공식 봇 IP 목록을 공개하지만, Anthropic은 그렇지 않음
    • 흥미롭게도 내 GitHub 블로그는 이런 스크래핑이 전혀 없음
      Microsoft가 막고 있는 걸까, 아니면 내 블로그가 봇이 관심 없는 수준인 걸까 싶음
  • Cloudflare는 이제 AI 스크래퍼 탐지 서비스를 제공함
    탐지된 봇을 무한 루프의 AI 생성 페이지로 유도함

    • 하지만 이렇게 하려면 모든 트래픽을 Cloudflare를 거쳐야 함
      결국 제3자가 내 콘텐츠 접근 권한을 결정하게 되는 셈이라 불편함
    • Cloudflare는 VPN, 희귀 브라우저 사용자에게 접근 문제를 자주 일으킴
      나도 불만이 많아서 결국 제거했음
    • “TLS 추가 및 제거 서비스”로는 적절하지 않다고 생각함
    • 관련 아이디어로 Poison Fountain 프로젝트가 있음
    • Cloudflare가 충분히 많은 사이트를 확보하면, AI 기업에 캐시 접근료를 부과할 수도 있음
  • SQLite 팀도 비슷한 문제를 겪었음
    창시자 Richard Hipp이 “그냥 전체 저장소를 복제하면 되는데, 굳이 남들 피해주며 긁어간다”며 ‘이기적 행위’ 를 비판했음
    관련 포럼 글 참고

    • 하지만 누군가는 “악의적이라니, 너무 과장된 표현”이라고 반박했음
  • 시간이 갈수록, 모든 크롤링을 Common Crawl 같은 공용 채널로 통합해야 한다는 생각이 듦
    서버 부하를 줄이면서도 웹의 개방성과 스크래핑 가능성을 유지해야 함
    예를 들어 /well-known/ 경로 아래에 타임스탬프가 있는 데이터 덤프 링크를 두는 식으로 표준화할 수 있음

    • MetaBrainz가 이미 이런 방식을 사용함 — 전체 DB를 tarball로 제공함
      나도 한 시간 정도 걸려 다운로드했고, 이후엔 로컬 쿼리로 해결함
      하지만 대부분은 여전히 스크래핑이 더 쉽기 때문에 덤프를 안 씀
    • 나는 저작권 제도 개편이 필요하다고 봄
      일정 기간 후 데이터를 “국가 데이터셋”에 기부하면, AI 학습용으로 활용하고 수익을 저작권자에게 분배하는 구조를 제안함
      이렇게 하면 AI 개발자, 저작권자, 대중 모두가 이익을 얻을 수 있음
    • 나도 개인적으로 Tampermonkey 스크립트로 소규모 스크래핑을 함
      AI를 이용해 코드를 생성하고 VPS 가격 리스트 같은 걸 자동 수집함
      예전엔 lowendtalk의 모든 헤드라인을 긁어와 LLM 분석용 데이터셋으로 만들기도 했음
    • /llms.txt 같은 표준 파일을 만들어, LLM이 필요한 순수 텍스트 데이터만 제공하는 것도 방법일 것 같음
      URL, 주소, 전화번호 등은 제거하고, <item><subitem> 같은 최소한의 마크업만 유지하는 식임
      다만 많은 사이트가 형식만 맞춘 빈 파일을 둘 가능성이 있음
    • 사실 이건 기술 문제가 아니라 경제 구조의 문제
      거대 자본이 단기 이익을 위해 웹을 망가뜨리고 있음
      하지만 결국 적응과 균형이 생길 것이라 믿음
  • 요즘은 AI 스크래퍼뿐 아니라, 사용자 자체가 요약 요청을 통해 간접 스크래핑을 함
    예를 들어 Firefox는 링크를 클릭하지 않아도 요약 미리보기를 제공함
    관련 이미지

    • 이 기능은 로컬에서 llama.cpp(wllama) 로 실행되는 SmolLM2-360M 모델이 요약을 생성함
      결국 브라우저가 직접 페이지를 가져와 요약하므로, 사이트 입장에서는 동일한 요청으로 보임
      Mozilla 공식 설명 참고
    • 문제는 세 가지임
      1. AI 기업의 비윤리적 크롤링
      2. 사용자의 에이전트 기반 요약 요청
      3. 이런 에이전트가 인간보다 비효율적이면서도 훨씬 빠름
    • 하지만 사용자들이 “훈련된” 게 아니라, 단순히 LLM이 정말 잘 작동하기 때문에 쓰는 것임
  • 요즘 스크래퍼들은 주거용 IP 풀을 이용해 탐지를 피함

    • 이런 IP 풀을 제공하는 ISP가 새로운 수익 모델을 만든 건 아닌지 의심됨
    • 게다가 이제는 실제 브라우저를 구동하는 봇도 많아서 Cloudflare 캡차도 통과함
      이런 상황에서 방어책이 얼마나 오래 유효할지 모르겠음