누가 이런 공격적인 스크래퍼들을 운영하는지 궁금함
AI 연구소라면 데이터를 모으기 위해 수많은 사이트를 동시에 긁는 게 효율적이겠지만, 평판 리스크를 감수하면서까지 인기 사이트를 과부하시키는 이유를 모르겠음
이런 경우를 보면 기술적 역량이나 배려심이 부족한 경우가 많음
아마 AI가 직접 만든 스크래퍼를 대충 테스트하고 바로 배포했을 가능성이 큼
게다가 이들은 ‘residential IP provider’를 통해 신원을 숨기므로 평판 리스크도 없음
설령 OpenAI나 Anthropic 같은 대형 기업이라 해도, 사람들은 그냥 넘어갈 것 같음
초기에 OpenAI나 Anthropic 같은 미국 대기업들이 의심받았지만, 실제로는 개인 AI 에이전트들이 웹페이지를 긁는 경우가 점점 늘고 있음
Claude Cowork 같은 도구로 사용자가 직접 크롤러를 만들 수 있어서, 나도 NASA 사이트를 긁다가 404 페이지를 폭격해 일시 차단된 적이 있음
결국 ‘좋은 의도’의 사용자조차 웹 트래픽 패턴을 바꾸고 있음
관련 통계는 Cloudflare AI Insights에서 볼 수 있음
내 개인 사이트도 종종 스크래퍼에 의해 마비됨
OpenAI의 GPTBot 외에는 대부분 처음 듣는 작은 회사들이었고, 일부는 User-Agent조차 숨김
이미 Common Crawl에 있는 데이터인데 왜 굳이 긁는지 이해가 안 됨
아마 누군가 Claude Code에게 “LWN 전체를 아카이브하라”고 시킨 것 같음
LWN에는 여러 메일링 리스트 아카이브가 포함되어 있어서 그게 이유일 수도 있음
AI가 오픈소스 코드를 마치 자신들이 쓴 것처럼 재판매하며 라이선스 우회를 하는 게 큰 문제임
코드뿐 아니라 다른 콘텐츠도 마찬가지로 긁어가고 있음
나는 오래된 DOS 게임 관련 프로젝트를 했는데, Claude가 내 코드를 거의 그대로 긁어다가 다른 라이선스로 재생산함
변수명만 살짝 바꾸고 구조는 동일했음
이런 걸 회사에서 했다면 바로 해고감임
그런데 AI가 하면 “공정 이용”이라며 도덕적 정당성을 주장하는 게 이상함
결국 지적 재산 세탁이 새 버전의 돈세탁처럼 되어버림
다만 AI가 그렇게 하는 게 법적으로 허용된다고 판결된 적은 없음, 단지 AI 업계가 그렇게 주장할 뿐임
이런 스크래핑은 단순한 AI 데이터 수집이 아닐 수도 있음
FOSS 사이트들이 지속적으로 공격받고 있는데, 경제성이 맞지 않음
혹시 기술 업계나 오픈소스 커뮤니티를 교란하려는 의도일 수도 있음
닉한 게임 모딩 커뮤니티들도 같은 공격을 받았음
비영리 프로젝트인데도 DDOS 수준의 트래픽이 몰려서 결국 로그인 벽을 세워야 했음
아마 데이터 과학자들이 AI로 만든 스크래퍼가 사이트를 얼마나 자주 치는지 신경도 안 쓰는 경우가 많을 듯함
내가 지켜보던 몇몇 포럼도 결국 로그인 없이는 읽을 수 없게 됨
나도 소규모 브라우저 게임 위키를 운영하는데, Claude와 OpenAI를 포함한 수많은 봇들이 공격적으로 긁어감
대부분은 주거용 IP를 사용했고, 단순히 “인터넷의 모든 것은 내 것”이라 생각하는 사람들이 문제의 근원 같음
지역 기반 취미 커뮤니티라면 차단을 좀 더 과감하게 할 수 있어서 다행임
내 블로그는 재미없어서 스크래핑 문제를 겪지 않음
그런데 그 블로그 덕분에 Git Brag라는 걸 처음 알게 됨. 꽤 흥미로움
LLM을 지루하게 만들 수 있다면 그건 오히려 대단한 일임
“수만 개의 주소가 연루된 DDOS 공격”이라는 말처럼, 공격이 엄청나게 분산되어 있음
작은 사이트에서도 수천 개의 IP에서 트래픽이 몰려옴
이런 공격은 대부분 residential proxy 서비스를 통해 이루어짐
BrightData가 대표적이고, 데이터센터 IP보다 비싸지만 차단이 어려움
git.ardour.org도 100만 개 이상의 IP에서 무의미한 git 스크래핑을 당함
가장 관대한 해석은 AI 회사들이 CommonCrawl 같은 대체 리소스를 모르고 직접 긁는 것이고,
가장 나쁜 해석은 단순히 반사회적 개발자들이 아무 생각 없이 만든 봇임
이런 공격을 “Distributed Intelligence Logic Denial Of Service (DILDOS) ”라고 부르고 싶음
Residential proxy는 사실상 악성코드로 취급해야 함
백신 정의에 추가하고 앱스토어에서도 퇴출시켜야 함
이게 정말 AI 학습용 스크래핑인지 궁금함
일반 DDOS와 구분이 안 된다면 확신할 수 없지 않나 생각함
하지만 LWN은 30년 가까이 운영되었는데, AI 크롤링 이전에는 DDOS가 없었음
지금은 공격이 멈춘 듯함
메인 페이지도 정상적으로 로드됨
나는 블로그 스크래퍼를 막기 위해 JavaScript 메서드를 덮어쓰기로 페이지 내용을 비워버림
Shadow DOM으로 요소를 숨기면 더 어렵게 만들 수 있음
다만 이런 방법은 Playwright나 Selenium 같은 테스트 도구와 검색엔진 인덱싱에 문제를 일으킴
하지만 이런 방식이 실제로 효과가 있었는지는 확신할 수 없음
함수가 쓰레기 데이터를 생성하도록 만들어 봇을 혼란시키는 것도 재밌는 아이디어임
어떤 사람은 “AI 회사들이 경쟁 사이트를 DDOS로 마비시켜 데이터 독점을 노린다”고 주장함
하지만 그건 음모론처럼 들림
일종의 ‘사다리 걷어차기’ 전략일 수도 있음
그런데 LWN은 이미 오래된 뉴스레터 사이트라 가치 있는 데이터가 거의 없음
이런 사이트를 긁는다고 해서 AI가 얻을 게 없고, 오히려 과도한 피해망상처럼 보임
Hacker News 의견들
누가 이런 공격적인 스크래퍼들을 운영하는지 궁금함
AI 연구소라면 데이터를 모으기 위해 수많은 사이트를 동시에 긁는 게 효율적이겠지만, 평판 리스크를 감수하면서까지 인기 사이트를 과부하시키는 이유를 모르겠음
아마 AI가 직접 만든 스크래퍼를 대충 테스트하고 바로 배포했을 가능성이 큼
게다가 이들은 ‘residential IP provider’를 통해 신원을 숨기므로 평판 리스크도 없음
설령 OpenAI나 Anthropic 같은 대형 기업이라 해도, 사람들은 그냥 넘어갈 것 같음
Claude Cowork 같은 도구로 사용자가 직접 크롤러를 만들 수 있어서, 나도 NASA 사이트를 긁다가 404 페이지를 폭격해 일시 차단된 적이 있음
결국 ‘좋은 의도’의 사용자조차 웹 트래픽 패턴을 바꾸고 있음
관련 통계는 Cloudflare AI Insights에서 볼 수 있음
OpenAI의 GPTBot 외에는 대부분 처음 듣는 작은 회사들이었고, 일부는 User-Agent조차 숨김
이미 Common Crawl에 있는 데이터인데 왜 굳이 긁는지 이해가 안 됨
AI가 오픈소스 코드를 마치 자신들이 쓴 것처럼 재판매하며 라이선스 우회를 하는 게 큰 문제임
코드뿐 아니라 다른 콘텐츠도 마찬가지로 긁어가고 있음
변수명만 살짝 바꾸고 구조는 동일했음
이런 걸 회사에서 했다면 바로 해고감임
그런데 AI가 하면 “공정 이용”이라며 도덕적 정당성을 주장하는 게 이상함
이런 스크래핑은 단순한 AI 데이터 수집이 아닐 수도 있음
FOSS 사이트들이 지속적으로 공격받고 있는데, 경제성이 맞지 않음
혹시 기술 업계나 오픈소스 커뮤니티를 교란하려는 의도일 수도 있음
비영리 프로젝트인데도 DDOS 수준의 트래픽이 몰려서 결국 로그인 벽을 세워야 했음
대부분은 주거용 IP를 사용했고, 단순히 “인터넷의 모든 것은 내 것”이라 생각하는 사람들이 문제의 근원 같음
내 블로그는 재미없어서 스크래핑 문제를 겪지 않음
“수만 개의 주소가 연루된 DDOS 공격”이라는 말처럼, 공격이 엄청나게 분산되어 있음
작은 사이트에서도 수천 개의 IP에서 트래픽이 몰려옴
BrightData가 대표적이고, 데이터센터 IP보다 비싸지만 차단이 어려움
가장 나쁜 해석은 단순히 반사회적 개발자들이 아무 생각 없이 만든 봇임
Residential proxy는 사실상 악성코드로 취급해야 함
백신 정의에 추가하고 앱스토어에서도 퇴출시켜야 함
이게 정말 AI 학습용 스크래핑인지 궁금함
일반 DDOS와 구분이 안 된다면 확신할 수 없지 않나 생각함
지금은 공격이 멈춘 듯함
메인 페이지도 정상적으로 로드됨
나는 블로그 스크래퍼를 막기 위해 JavaScript 메서드를 덮어쓰기로 페이지 내용을 비워버림
Shadow DOM으로 요소를 숨기면 더 어렵게 만들 수 있음
다만 이런 방법은 Playwright나 Selenium 같은 테스트 도구와 검색엔진 인덱싱에 문제를 일으킴
어떤 사람은 “AI 회사들이 경쟁 사이트를 DDOS로 마비시켜 데이터 독점을 노린다”고 주장함
이런 사이트를 긁는다고 해서 AI가 얻을 게 없고, 오히려 과도한 피해망상처럼 보임