Metabrainz는 정말 훌륭한 공익 데이터베이스임
예전에 EFF 블로그 글에 이 주제로 글을 쓴 적이 있음
Metabrainz 같은 공공 데이터는 AI 봇이 가져가도 괜찮지만, 지금처럼 비효율적인 방식으로 긁어가는 게 문제임
결국 조정 실패의 문제임. Metabrainz는 봇의 선의를 가정하지만, 봇은 사이트가 데이터를 숨긴다고 생각함
“API를 그만 두드리고, 여기 있는 gzipped tar 파일을 한 번에 받아가라”고 말해도 믿지 않음
차라리 토렌트 파일로 제공하면 봇이 데이터를 더 잘 공유하게 될 수도 있음
나도 AI 스크래퍼 때문에 내 사이트 tvnfo.com을 닫았음
2016년부터 공개했지만, 리소스 소모가 너무 커서 이제는 후원자 전용으로만 운영 중임
월 60달러짜리 취미 프로젝트라 유지가 빠듯함. 나중에 지원이 늘면 봇 방어 솔루션을 붙여 다시 열 수도 있음
하지만 이런 문제는 나만 겪는 게 아니라는 걸 알고 놀랐음. 결국 인터넷이 점점 닫히는 방향으로 가는 것 같음
robots.txt로 “여기서 tar 파일 받아가라”고 알려줄 방법이 있는지 궁금함
표준에 그런 기능이 있는지 모르겠음
봇이 토렌트를 쓴다면 공유 통계 조작도 가능함
예전에 나도 개인 트래커에서 추방당하지 않으려고 업로드 비율을 부풀린 적이 있었음
봇이 사이트를 적대적 존재로 간주한다는 건 심각한 문제임
사이트 소유자의 의사를 무시하는 건 잘못된 접근임
사실 대부분의 “AI 스크래퍼”는 단순한 재귀 크롤러 스크립트임
진짜 AI가 페이지를 읽고 판단하는 게 아니라, 링크를 따라가며 문서를 긁는 자동화 코드일 뿐임
AI가 자유로운 웹 생태계를 파괴하고 있음
내 웹호스트가 갑자기 폭증한 봇 트래픽 때문에 계정을 정지시켰음
결국 새 호스트로 옮겼지만, 개인 운영자는 이런 상황에서 희망이 없음
AI 기업들은 무한한 자원을 갖고 있고, 피해에는 관심이 없음
냉소적으로 보면, 이건 의도된 전략일지도 모름 — 무료 사이트를 없애서 사람들이 결국 AI 모델을 통해서만 정보를 얻도록 만드는 것임
AI 요약 서비스가 독립 웹의 트래픽 절반 이상을 빼앗고 있음
정보 공유의 경제성이 무너지고 있음
결국 소수 기업이 가치를 독점하고, 나중엔 엔쉬티피케이션(enshittification) 이 시작될 것임
내 아이 학교 PTA 웹사이트를 관리하는데, OpenAI 봇이 이벤트 캘린더를 무작위로 긁어감
연도 1000년부터 3000년까지 요청이 이어졌음
User-Agent를 차단하자 4시간쯤 지나서야 멈췄음
나는 Google Cloud의 e2-micro VPS에서 정적 웹사이트와 cgit 인스턴스를 운영 중임
160일 동안 OpenAI와 Claude에서 850만 건 넘는 요청을 받았음
그래서 lighttpd에서 User-Agent에 “claude|openai”가 있으면 403을 반환하도록 설정했고, nftables로 속도 제한을 걸었음
이런 봇들은 그나마 “양심적인” 쪽임
진짜 문제는 주거용 프록시를 이용한 봇넷임. 일반 브라우저인 척하며 들어옴
Cloudflare가 충분히 많은 사이트를 확보하면, AI 기업에 캐시 접근료를 부과할 수도 있음
SQLite 팀도 비슷한 문제를 겪었음
창시자 Richard Hipp이 “그냥 전체 저장소를 복제하면 되는데, 굳이 남들 피해주며 긁어간다”며 ‘이기적 행위’ 를 비판했음 관련 포럼 글 참고
하지만 누군가는 “악의적이라니, 너무 과장된 표현”이라고 반박했음
시간이 갈수록, 모든 크롤링을 Common Crawl 같은 공용 채널로 통합해야 한다는 생각이 듦
서버 부하를 줄이면서도 웹의 개방성과 스크래핑 가능성을 유지해야 함
예를 들어 /well-known/ 경로 아래에 타임스탬프가 있는 데이터 덤프 링크를 두는 식으로 표준화할 수 있음
MetaBrainz가 이미 이런 방식을 사용함 — 전체 DB를 tarball로 제공함
나도 한 시간 정도 걸려 다운로드했고, 이후엔 로컬 쿼리로 해결함
하지만 대부분은 여전히 스크래핑이 더 쉽기 때문에 덤프를 안 씀
나는 저작권 제도 개편이 필요하다고 봄
일정 기간 후 데이터를 “국가 데이터셋”에 기부하면, AI 학습용으로 활용하고 수익을 저작권자에게 분배하는 구조를 제안함
이렇게 하면 AI 개발자, 저작권자, 대중 모두가 이익을 얻을 수 있음
나도 개인적으로 Tampermonkey 스크립트로 소규모 스크래핑을 함
AI를 이용해 코드를 생성하고 VPS 가격 리스트 같은 걸 자동 수집함
예전엔 lowendtalk의 모든 헤드라인을 긁어와 LLM 분석용 데이터셋으로 만들기도 했음
/llms.txt 같은 표준 파일을 만들어, LLM이 필요한 순수 텍스트 데이터만 제공하는 것도 방법일 것 같음
URL, 주소, 전화번호 등은 제거하고, <item>과 <subitem> 같은 최소한의 마크업만 유지하는 식임
다만 많은 사이트가 형식만 맞춘 빈 파일을 둘 가능성이 있음
사실 이건 기술 문제가 아니라 경제 구조의 문제임
거대 자본이 단기 이익을 위해 웹을 망가뜨리고 있음
하지만 결국 적응과 균형이 생길 것이라 믿음
요즘은 AI 스크래퍼뿐 아니라, 사용자 자체가 요약 요청을 통해 간접 스크래핑을 함
예를 들어 Firefox는 링크를 클릭하지 않아도 요약 미리보기를 제공함 관련 이미지
이 기능은 로컬에서 llama.cpp(wllama) 로 실행되는 SmolLM2-360M 모델이 요약을 생성함
결국 브라우저가 직접 페이지를 가져와 요약하므로, 사이트 입장에서는 동일한 요청으로 보임 Mozilla 공식 설명 참고
문제는 세 가지임
AI 기업의 비윤리적 크롤링
사용자의 에이전트 기반 요약 요청
이런 에이전트가 인간보다 비효율적이면서도 훨씬 빠름
하지만 사용자들이 “훈련된” 게 아니라, 단순히 LLM이 정말 잘 작동하기 때문에 쓰는 것임
요즘 스크래퍼들은 주거용 IP 풀을 이용해 탐지를 피함
이런 IP 풀을 제공하는 ISP가 새로운 수익 모델을 만든 건 아닌지 의심됨
게다가 이제는 실제 브라우저를 구동하는 봇도 많아서 Cloudflare 캡차도 통과함
이런 상황에서 방어책이 얼마나 오래 유효할지 모르겠음
Hacker News 의견들
Metabrainz는 정말 훌륭한 공익 데이터베이스임
예전에 EFF 블로그 글에 이 주제로 글을 쓴 적이 있음
Metabrainz 같은 공공 데이터는 AI 봇이 가져가도 괜찮지만, 지금처럼 비효율적인 방식으로 긁어가는 게 문제임
결국 조정 실패의 문제임. Metabrainz는 봇의 선의를 가정하지만, 봇은 사이트가 데이터를 숨긴다고 생각함
“API를 그만 두드리고, 여기 있는 gzipped tar 파일을 한 번에 받아가라”고 말해도 믿지 않음
차라리 토렌트 파일로 제공하면 봇이 데이터를 더 잘 공유하게 될 수도 있음
2016년부터 공개했지만, 리소스 소모가 너무 커서 이제는 후원자 전용으로만 운영 중임
월 60달러짜리 취미 프로젝트라 유지가 빠듯함. 나중에 지원이 늘면 봇 방어 솔루션을 붙여 다시 열 수도 있음
하지만 이런 문제는 나만 겪는 게 아니라는 걸 알고 놀랐음. 결국 인터넷이 점점 닫히는 방향으로 가는 것 같음
표준에 그런 기능이 있는지 모르겠음
예전에 나도 개인 트래커에서 추방당하지 않으려고 업로드 비율을 부풀린 적이 있었음
사이트 소유자의 의사를 무시하는 건 잘못된 접근임
진짜 AI가 페이지를 읽고 판단하는 게 아니라, 링크를 따라가며 문서를 긁는 자동화 코드일 뿐임
AI가 자유로운 웹 생태계를 파괴하고 있음
내 웹호스트가 갑자기 폭증한 봇 트래픽 때문에 계정을 정지시켰음
결국 새 호스트로 옮겼지만, 개인 운영자는 이런 상황에서 희망이 없음
AI 기업들은 무한한 자원을 갖고 있고, 피해에는 관심이 없음
냉소적으로 보면, 이건 의도된 전략일지도 모름 — 무료 사이트를 없애서 사람들이 결국 AI 모델을 통해서만 정보를 얻도록 만드는 것임
정보 공유의 경제성이 무너지고 있음
결국 소수 기업이 가치를 독점하고, 나중엔 엔쉬티피케이션(enshittification) 이 시작될 것임
내 아이 학교 PTA 웹사이트를 관리하는데, OpenAI 봇이 이벤트 캘린더를 무작위로 긁어감
연도 1000년부터 3000년까지 요청이 이어졌음
User-Agent를 차단하자 4시간쯤 지나서야 멈췄음
나는 Google Cloud의 e2-micro VPS에서 정적 웹사이트와 cgit 인스턴스를 운영 중임
160일 동안 OpenAI와 Claude에서 850만 건 넘는 요청을 받았음
그래서 lighttpd에서 User-Agent에 “claude|openai”가 있으면 403을 반환하도록 설정했고, nftables로 속도 제한을 걸었음
진짜 문제는 주거용 프록시를 이용한 봇넷임. 일반 브라우저인 척하며 들어옴
Microsoft가 막고 있는 걸까, 아니면 내 블로그가 봇이 관심 없는 수준인 걸까 싶음
Cloudflare는 이제 AI 스크래퍼 탐지 서비스를 제공함
탐지된 봇을 무한 루프의 AI 생성 페이지로 유도함
결국 제3자가 내 콘텐츠 접근 권한을 결정하게 되는 셈이라 불편함
나도 불만이 많아서 결국 제거했음
SQLite 팀도 비슷한 문제를 겪었음
창시자 Richard Hipp이 “그냥 전체 저장소를 복제하면 되는데, 굳이 남들 피해주며 긁어간다”며 ‘이기적 행위’ 를 비판했음
관련 포럼 글 참고
시간이 갈수록, 모든 크롤링을 Common Crawl 같은 공용 채널로 통합해야 한다는 생각이 듦
서버 부하를 줄이면서도 웹의 개방성과 스크래핑 가능성을 유지해야 함
예를 들어
/well-known/경로 아래에 타임스탬프가 있는 데이터 덤프 링크를 두는 식으로 표준화할 수 있음나도 한 시간 정도 걸려 다운로드했고, 이후엔 로컬 쿼리로 해결함
하지만 대부분은 여전히 스크래핑이 더 쉽기 때문에 덤프를 안 씀
일정 기간 후 데이터를 “국가 데이터셋”에 기부하면, AI 학습용으로 활용하고 수익을 저작권자에게 분배하는 구조를 제안함
이렇게 하면 AI 개발자, 저작권자, 대중 모두가 이익을 얻을 수 있음
AI를 이용해 코드를 생성하고 VPS 가격 리스트 같은 걸 자동 수집함
예전엔 lowendtalk의 모든 헤드라인을 긁어와 LLM 분석용 데이터셋으로 만들기도 했음
/llms.txt같은 표준 파일을 만들어, LLM이 필요한 순수 텍스트 데이터만 제공하는 것도 방법일 것 같음URL, 주소, 전화번호 등은 제거하고,
<item>과<subitem>같은 최소한의 마크업만 유지하는 식임다만 많은 사이트가 형식만 맞춘 빈 파일을 둘 가능성이 있음
거대 자본이 단기 이익을 위해 웹을 망가뜨리고 있음
하지만 결국 적응과 균형이 생길 것이라 믿음
요즘은 AI 스크래퍼뿐 아니라, 사용자 자체가 요약 요청을 통해 간접 스크래핑을 함
예를 들어 Firefox는 링크를 클릭하지 않아도 요약 미리보기를 제공함
관련 이미지
결국 브라우저가 직접 페이지를 가져와 요약하므로, 사이트 입장에서는 동일한 요청으로 보임
Mozilla 공식 설명 참고
요즘 스크래퍼들은 주거용 IP 풀을 이용해 탐지를 피함
이런 상황에서 방어책이 얼마나 오래 유효할지 모르겠음