# AI 스크레이퍼 때문에 좋은 서비스를 유지할 수 없는 이유

> Clean Markdown view of GeekNews topic #25807. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=25807](https://news.hada.io/topic?id=25807)
- GeekNews Markdown: [https://news.hada.io/topic/25807.md](https://news.hada.io/topic/25807.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-01-14T17:33:24+09:00
- Updated: 2026-01-14T17:33:24+09:00
- Original source: [blog.metabrainz.org](https://blog.metabrainz.org/2025/12/11/we-cant-have-nice-things-because-of-ai-scrapers/)
- Points: 1
- Comments: 1

## Topic Body

- 최근 **AI 기업들의 무단 데이터 수집**으로 MetaBrainz의 서버가 과부하를 겪고 있음  
- 이들은 **robots.txt 규칙을 무시**하고 MusicBrainz 데이터를 **페이지 단위로 크롤링**하며, 이는 수백 년이 걸릴 비효율적 방식임  
- 같은 행위가 **ListenBrainz API**에도 확산되어, 서비스 보호를 위해 **인증 토큰 요구 및 일부 API 폐쇄** 조치가 시행됨  
- **LB Radio**는 로그인 사용자만 이용 가능하며, API 호출 시에도 **Authorization 헤더**가 필요함  
- 이러한 조치는 **정상 사용자 접근성을 유지하기 위한 필수 대응**으로 설명됨  

---

### AI 스크레이퍼로 인한 서버 과부하 문제
- MetaBrainz 팀은 최근 몇 달간 **AI 모델 학습용 데이터 수집을 위한 무단 크롤링**에 대응 중임  
  - 일부 AI 기업이 **robots.txt 등 기본적 인터넷 예절을 무시**하고 데이터를 긁어감  
  - MusicBrainz 데이터를 **한 페이지씩 요청**하는 방식으로 접근, 전체 다운로드보다 비효율적이며 서버 부하 초래  
- 이러한 접근은 **수백 년이 걸릴 수준의 비효율성**을 가지며, 결과적으로 **정상 사용자 접근 방해**로 이어짐  

### ListenBrainz API 보호 조치
- AI 스크레이퍼가 **ListenBrainz의 여러 API 엔드포인트**를 대상으로 데이터 수집을 시도함  
- 이에 따라 다음과 같은 변경이 이루어짐:
  - `/metadata/lookup` API(GET 및 POST)는 **Authorization 토큰**이 있어야 작동  
  - **ListenBrainz Labs API**의 `mbid-mapping`, `mbid-mapping-release`, `mbid-mapping-explain` 엔드포인트는 삭제됨  
    - 해당 API는 원래 **디버깅용**으로 제공되었으며, 향후 **새 매퍼용 엔드포인트**로 대체 예정  
  - **LB Radio**는 로그인 사용자만 이용 가능하며, API 호출 시 **Authorization 헤더** 필요  

### 서비스 안정성 확보를 위한 긴급 대응
- MetaBrainz는 이번 조치가 **서비스 과부하 방지와 정상 운영 유지**를 위한 불가피한 결정이라 밝힘  
- 사용자에게 **예고 없는 변경**으로 불편을 끼친 점을 사과하며, 연말 프로젝트 완료 후 **에러 메시지 개선** 예정  

### 커뮤니티 반응
- 댓글에서는 AI 스크레이퍼의 **비효율적 접근 방식**과 **자동화된 웹 스파이더 구조**에 대한 논의가 이어짐  
  - 일부 사용자는 “AI 작업자들의 무능”을 지적  
  - 다른 사용자는 “자동화된 크롤러가 단순히 링크를 따라가며 데이터를 수집하기 때문”이라 설명  

### 전체적 의미
- MetaBrainz의 조치는 **AI 데이터 수집으로 인한 오픈 데이터 프로젝트의 피해**를 보여주는 사례  
- **공공 API의 지속 가능성**을 위해 인증 강화와 접근 제한이 불가피해지고 있음

## Comments



### Comment 49209

- Author: neo
- Created: 2026-01-14T17:33:25+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=46608840) 
- Metabrainz는 정말 훌륭한 **공익 데이터베이스**임  
  예전에 [EFF 블로그 글](https://www.eff.org/deeplinks/2021/06/organizing-public-interest-musicbrainz)에 이 주제로 글을 쓴 적이 있음  
  Metabrainz 같은 공공 데이터는 AI 봇이 가져가도 괜찮지만, 지금처럼 **비효율적인 방식**으로 긁어가는 게 문제임  
  결국 **조정 실패**의 문제임. Metabrainz는 봇의 선의를 가정하지만, 봇은 사이트가 데이터를 숨긴다고 생각함  
  “API를 그만 두드리고, 여기 있는 gzipped tar 파일을 한 번에 받아가라”고 말해도 믿지 않음  
  차라리 토렌트 파일로 제공하면 봇이 데이터를 더 잘 공유하게 될 수도 있음
  - 나도 AI 스크래퍼 때문에 내 사이트 [tvnfo.com](https://tvnfo.com)을 닫았음  
    2016년부터 공개했지만, **리소스 소모**가 너무 커서 이제는 후원자 전용으로만 운영 중임  
    월 60달러짜리 취미 프로젝트라 유지가 빠듯함. 나중에 지원이 늘면 **봇 방어 솔루션**을 붙여 다시 열 수도 있음  
    하지만 이런 문제는 나만 겪는 게 아니라는 걸 알고 놀랐음. 결국 인터넷이 점점 닫히는 방향으로 가는 것 같음
  - robots.txt로 “여기서 tar 파일 받아가라”고 알려줄 방법이 있는지 궁금함  
    표준에 그런 기능이 있는지 모르겠음
  - 봇이 토렌트를 쓴다면 **공유 통계 조작**도 가능함  
    예전에 나도 개인 트래커에서 추방당하지 않으려고 업로드 비율을 부풀린 적이 있었음
  - 봇이 사이트를 **적대적 존재로 간주**한다는 건 심각한 문제임  
    사이트 소유자의 의사를 무시하는 건 잘못된 접근임
  - 사실 대부분의 “AI 스크래퍼”는 단순한 **재귀 크롤러 스크립트**임  
    진짜 AI가 페이지를 읽고 판단하는 게 아니라, 링크를 따라가며 문서를 긁는 자동화 코드일 뿐임

- AI가 **자유로운 웹 생태계**를 파괴하고 있음  
  내 웹호스트가 갑자기 폭증한 봇 트래픽 때문에 계정을 정지시켰음  
  결국 새 호스트로 옮겼지만, 개인 운영자는 이런 상황에서 희망이 없음  
  AI 기업들은 무한한 자원을 갖고 있고, 피해에는 관심이 없음  
  냉소적으로 보면, 이건 의도된 전략일지도 모름 — 무료 사이트를 없애서 사람들이 결국 AI 모델을 통해서만 정보를 얻도록 만드는 것임
  - AI 요약 서비스가 독립 웹의 **트래픽 절반 이상을 빼앗고 있음**  
    정보 공유의 경제성이 무너지고 있음  
    결국 소수 기업이 가치를 독점하고, 나중엔 **엔쉬티피케이션(enshittification)** 이 시작될 것임

- 내 아이 학교 PTA 웹사이트를 관리하는데, OpenAI 봇이 **이벤트 캘린더를 무작위로 긁어감**  
  연도 1000년부터 3000년까지 요청이 이어졌음  
  User-Agent를 차단하자 4시간쯤 지나서야 멈췄음

- 나는 Google Cloud의 e2-micro VPS에서 **정적 웹사이트와 cgit 인스턴스**를 운영 중임  
  160일 동안 OpenAI와 Claude에서 850만 건 넘는 요청을 받았음  
  그래서 lighttpd에서 User-Agent에 “claude|openai”가 있으면 403을 반환하도록 설정했고, **nftables로 속도 제한**을 걸었음  
  - 이런 봇들은 그나마 “양심적인” 쪽임  
    진짜 문제는 **주거용 프록시를 이용한 봇넷**임. 일반 브라우저인 척하며 들어옴  
  - OpenAI는 [공식 봇 IP 목록](https://platform.openai.com/docs/bots)을 공개하지만, Anthropic은 그렇지 않음  
  - 흥미롭게도 내 GitHub 블로그는 이런 스크래핑이 전혀 없음  
    Microsoft가 막고 있는 걸까, 아니면 내 블로그가 **봇이 관심 없는 수준**인 걸까 싶음

- Cloudflare는 이제 **AI 스크래퍼 탐지 서비스**를 제공함  
  탐지된 봇을 **무한 루프의 AI 생성 페이지**로 유도함
  - 하지만 이렇게 하려면 모든 트래픽을 Cloudflare를 거쳐야 함  
    결국 제3자가 내 콘텐츠 접근 권한을 결정하게 되는 셈이라 불편함  
  - Cloudflare는 VPN, 희귀 브라우저 사용자에게 **접근 문제**를 자주 일으킴  
    나도 불만이 많아서 결국 제거했음  
  - “TLS 추가 및 제거 서비스”로는 적절하지 않다고 생각함  
  - 관련 아이디어로 [Poison Fountain](https://news.ycombinator.com/item?id=46577464) 프로젝트가 있음  
  - Cloudflare가 충분히 많은 사이트를 확보하면, **AI 기업에 캐시 접근료를 부과**할 수도 있음

- SQLite 팀도 비슷한 문제를 겪었음  
  창시자 Richard Hipp이 “그냥 전체 저장소를 복제하면 되는데, 굳이 남들 피해주며 긁어간다”며 **‘이기적 행위’** 를 비판했음  
  [관련 포럼 글](https://sqlite.org/forum/forumpost/7d3eb059f81ff694) 참고  
  - 하지만 누군가는 “악의적이라니, 너무 과장된 표현”이라고 반박했음

- 시간이 갈수록, 모든 크롤링을 **Common Crawl 같은 공용 채널**로 통합해야 한다는 생각이 듦  
  서버 부하를 줄이면서도 웹의 **개방성과 스크래핑 가능성**을 유지해야 함  
  예를 들어 `/well-known/` 경로 아래에 **타임스탬프가 있는 데이터 덤프 링크**를 두는 식으로 표준화할 수 있음
  - MetaBrainz가 이미 이런 방식을 사용함 — 전체 DB를 tarball로 제공함  
    나도 한 시간 정도 걸려 다운로드했고, 이후엔 로컬 쿼리로 해결함  
    하지만 대부분은 여전히 **스크래핑이 더 쉽기 때문에** 덤프를 안 씀  
  - 나는 **저작권 제도 개편**이 필요하다고 봄  
    일정 기간 후 데이터를 “국가 데이터셋”에 기부하면, AI 학습용으로 활용하고 수익을 저작권자에게 분배하는 구조를 제안함  
    이렇게 하면 AI 개발자, 저작권자, 대중 모두가 이익을 얻을 수 있음  
  - 나도 개인적으로 **Tampermonkey 스크립트**로 소규모 스크래핑을 함  
    AI를 이용해 코드를 생성하고 VPS 가격 리스트 같은 걸 자동 수집함  
    예전엔 lowendtalk의 모든 헤드라인을 긁어와 **LLM 분석용 데이터셋**으로 만들기도 했음  
  - `/llms.txt` 같은 표준 파일을 만들어, LLM이 필요한 **순수 텍스트 데이터만 제공**하는 것도 방법일 것 같음  
    URL, 주소, 전화번호 등은 제거하고, `&lt;item&gt;`과 `&lt;subitem&gt;` 같은 최소한의 마크업만 유지하는 식임  
    다만 많은 사이트가 형식만 맞춘 **빈 파일**을 둘 가능성이 있음  
  - 사실 이건 기술 문제가 아니라 **경제 구조의 문제**임  
    거대 자본이 단기 이익을 위해 웹을 망가뜨리고 있음  
    하지만 결국 **적응과 균형**이 생길 것이라 믿음

- 요즘은 AI 스크래퍼뿐 아니라, **사용자 자체가 요약 요청을 통해 간접 스크래핑**을 함  
  예를 들어 Firefox는 링크를 클릭하지 않아도 **요약 미리보기**를 제공함  
  [관련 이미지](https://imgur.com/a/3E17Dts)
  - 이 기능은 **로컬에서 llama.cpp(wllama)** 로 실행되는 SmolLM2-360M 모델이 요약을 생성함  
    결국 브라우저가 직접 페이지를 가져와 요약하므로, 사이트 입장에서는 동일한 요청으로 보임  
    [Mozilla 공식 설명](https://blog.mozilla.org/en/mozilla/ai/ai-tech/ai-link-previews-firefox/) 참고  
  - 문제는 세 가지임  
    1) AI 기업의 **비윤리적 크롤링**  
    2) 사용자의 **에이전트 기반 요약 요청**  
    3) 이런 에이전트가 인간보다 **비효율적이면서도 훨씬 빠름**  
  - 하지만 사용자들이 “훈련된” 게 아니라, 단순히 **LLM이 정말 잘 작동하기 때문**에 쓰는 것임

- 요즘 스크래퍼들은 **주거용 IP 풀**을 이용해 탐지를 피함  
  - 이런 IP 풀을 제공하는 **ISP가 새로운 수익 모델**을 만든 건 아닌지 의심됨  
  - 게다가 이제는 **실제 브라우저를 구동하는 봇**도 많아서 Cloudflare 캡차도 통과함  
    이런 상황에서 방어책이 얼마나 오래 유효할지 모르겠음
