LWN이 지금까지 겪은 가장 심각한 스크레이퍼 공격을 받고 있음
(social.kernel.org)- LWN.net이 수만 개의 주소에서 발생한 대규모 스크레이핑 기반 DDoS 공격을 받고 있으며, 사이트 응답 속도가 저하되고 있음
- Jonathan Corbet은 AI 관련 스크레이퍼로부터 사이트를 방어해야 하는 상황을 언급하며, 독자 접근에 장벽을 두고 싶지 않지만 필요할 수 있다고 밝힘
- 커뮤니티에서는 Bright Data 등 상업적 데이터 수집업체가 공격의 배후일 가능성이 언급되었으며, 여러 사용자가 비슷한 트래픽 급증을 보고함
- 일부는 RSS 구독, 정적 사이트 생성, LLM 타피트(tarpit) 등으로 대응 중이며, Azure·Google·AliCloud 등 대형 클라우드 IP에서 공격이 발생했다는 사례도 공유됨
- 이번 사태는 AI 데이터 수집이 웹 생태계의 안정성과 창작자의 지속 가능성에 미치는 피해를 드러내는 사례로 주목됨
LWN.net에 대한 대규모 스크레이퍼 공격
-
Jonathan Corbet은 LWN.net이 지금까지 겪은 가장 심각한 스크레이퍼 공격을 받고 있다고 밝힘
- 공격은 수만 개의 IP 주소를 동원한 DDoS 형태로, 사이트 응답성이 저하되고 있음
- 그는 “AI 관련 스크레이퍼로부터 LWN을 방어하는 일은 하고 싶지 않은 일”이라며, 독자 접근에 장벽을 두는 조치를 원치 않지만 필요할 수 있다고 언급
-
Corbet은 공격 주체를 특정할 수 없다고 했으며, Bright Data 또는 유사한 경쟁사가 관련됐을 가능성을 언급
- CPU 부하가 심각할 때가 있으며, 서버 확장은 가능하지만 “공들여 쓴 기사를 그런 사람들에게 먹이기 위해 비용을 내야 하는 것은 짜증난다”고 표현
커뮤니티의 반응과 제안
- Tristan Colgate-McFarlane은 검색 엔진이 도용된 콘텐츠를 우선 노출함으로써 원 저작자의 트래픽과 광고 수익을 빼앗고 있다고 지적
- 여러 사용자가 AI 스크레이퍼 트래픽 급증을 경험했다고 보고
- Light Owl은 자신의 사이트 트래픽이 평소보다 20배 증가했다고 언급
- Ben Tasker는 LLM 타피트(tarpit) 로봇 함정으로 일부 요청을 차단하고 있다고 설명
- 일부는 Azure, Google, AliCloud 등 대형 클라우드 IP에서 공격이 발생했다고 보고
- Dec, mx alex tax1a, David Gerard 등이 각자 MSFT·Google·Ali IP 대역 차단 사례를 공유
대응 방안 논의
- Riku Voipio는 구독자 전용 서버(subscriber.lwn.net) 사용을 제안했으나, Corbet은 신규 구독자 유입이 어려워질 수 있다고 답변
- Jani Nikula는 등록 사용자 전용 접근을 제안했으나, Corbet은 이미 봇이 계정을 생성하는 문제가 있어 실효성이 낮다고 언급
- trademark는 콘텐츠 샤딩(sharding) 으로 캐시 효율을 높이자고 제안했으나, Corbet은 캐시가 문제가 아니라고 답변
다른 사이트 운영자들의 경험 공유
- 여러 운영자들이 비슷한 공격 패턴을 보고
- Dec는 PHP 취약점 스캔과 wp-admin 로그인 시도가 MSFT IP에서 발생했다고 언급
- David Gerard는 RationalWiki에서 자바스크립트 기반 쿠키 검증으로 대응 중이며, Googlebot까지 차단되는 부작용이 있다고 설명
- Catherine(whitequark)은 404 응답 처리만으로 서버 부하를 완화하고 있다고 언급
커뮤니티 내 인식
- 일부는 “웹이 진정으로 망가지고 있다”고 표현하며, AI 스크레이핑이 웹 생태계의 붕괴를 가속화하고 있다고 비판
- Ayush Agarwal은 커널 커뮤니티 내에서도 LLM 사용이 소규모 사이트에 피해를 주는 현실을 인식해야 한다고 지적
- Martin Roukala는 “너무 관련성이 높아서 생긴 문제”라며 자조적으로 언급했으나, Jani Nikula는 “스크레이퍼는 그런 것에 신경 쓰지 않는다”고 답함
Hacker News 의견들
-
누가 이런 공격적인 스크래퍼들을 운영하는지 궁금함
AI 연구소라면 데이터를 모으기 위해 수많은 사이트를 동시에 긁는 게 효율적이겠지만, 평판 리스크를 감수하면서까지 인기 사이트를 과부하시키는 이유를 모르겠음- 이런 경우를 보면 기술적 역량이나 배려심이 부족한 경우가 많음
아마 AI가 직접 만든 스크래퍼를 대충 테스트하고 바로 배포했을 가능성이 큼
게다가 이들은 ‘residential IP provider’를 통해 신원을 숨기므로 평판 리스크도 없음
설령 OpenAI나 Anthropic 같은 대형 기업이라 해도, 사람들은 그냥 넘어갈 것 같음 - 초기에 OpenAI나 Anthropic 같은 미국 대기업들이 의심받았지만, 실제로는 개인 AI 에이전트들이 웹페이지를 긁는 경우가 점점 늘고 있음
Claude Cowork 같은 도구로 사용자가 직접 크롤러를 만들 수 있어서, 나도 NASA 사이트를 긁다가 404 페이지를 폭격해 일시 차단된 적이 있음
결국 ‘좋은 의도’의 사용자조차 웹 트래픽 패턴을 바꾸고 있음
관련 통계는 Cloudflare AI Insights에서 볼 수 있음 - 내 개인 사이트도 종종 스크래퍼에 의해 마비됨
OpenAI의 GPTBot 외에는 대부분 처음 듣는 작은 회사들이었고, 일부는 User-Agent조차 숨김
이미 Common Crawl에 있는 데이터인데 왜 굳이 긁는지 이해가 안 됨 - 아마 누군가 Claude Code에게 “LWN 전체를 아카이브하라”고 시킨 것 같음
- LWN에는 여러 메일링 리스트 아카이브가 포함되어 있어서 그게 이유일 수도 있음
- 이런 경우를 보면 기술적 역량이나 배려심이 부족한 경우가 많음
-
AI가 오픈소스 코드를 마치 자신들이 쓴 것처럼 재판매하며 라이선스 우회를 하는 게 큰 문제임
코드뿐 아니라 다른 콘텐츠도 마찬가지로 긁어가고 있음- 나는 오래된 DOS 게임 관련 프로젝트를 했는데, Claude가 내 코드를 거의 그대로 긁어다가 다른 라이선스로 재생산함
변수명만 살짝 바꾸고 구조는 동일했음
이런 걸 회사에서 했다면 바로 해고감임
그런데 AI가 하면 “공정 이용”이라며 도덕적 정당성을 주장하는 게 이상함 - 결국 지적 재산 세탁이 새 버전의 돈세탁처럼 되어버림
- 다만 AI가 그렇게 하는 게 법적으로 허용된다고 판결된 적은 없음, 단지 AI 업계가 그렇게 주장할 뿐임
- 나는 오래된 DOS 게임 관련 프로젝트를 했는데, Claude가 내 코드를 거의 그대로 긁어다가 다른 라이선스로 재생산함
-
이런 스크래핑은 단순한 AI 데이터 수집이 아닐 수도 있음
FOSS 사이트들이 지속적으로 공격받고 있는데, 경제성이 맞지 않음
혹시 기술 업계나 오픈소스 커뮤니티를 교란하려는 의도일 수도 있음- 닉한 게임 모딩 커뮤니티들도 같은 공격을 받았음
비영리 프로젝트인데도 DDOS 수준의 트래픽이 몰려서 결국 로그인 벽을 세워야 했음 - 아마 데이터 과학자들이 AI로 만든 스크래퍼가 사이트를 얼마나 자주 치는지 신경도 안 쓰는 경우가 많을 듯함
- 내가 지켜보던 몇몇 포럼도 결국 로그인 없이는 읽을 수 없게 됨
- 나도 소규모 브라우저 게임 위키를 운영하는데, Claude와 OpenAI를 포함한 수많은 봇들이 공격적으로 긁어감
대부분은 주거용 IP를 사용했고, 단순히 “인터넷의 모든 것은 내 것”이라 생각하는 사람들이 문제의 근원 같음 - 지역 기반 취미 커뮤니티라면 차단을 좀 더 과감하게 할 수 있어서 다행임
- 닉한 게임 모딩 커뮤니티들도 같은 공격을 받았음
-
내 블로그는 재미없어서 스크래핑 문제를 겪지 않음
- 그런데 그 블로그 덕분에 Git Brag라는 걸 처음 알게 됨. 꽤 흥미로움
- LLM을 지루하게 만들 수 있다면 그건 오히려 대단한 일임
-
“수만 개의 주소가 연루된 DDOS 공격”이라는 말처럼, 공격이 엄청나게 분산되어 있음
작은 사이트에서도 수천 개의 IP에서 트래픽이 몰려옴- 이런 공격은 대부분 residential proxy 서비스를 통해 이루어짐
BrightData가 대표적이고, 데이터센터 IP보다 비싸지만 차단이 어려움 - git.ardour.org도 100만 개 이상의 IP에서 무의미한 git 스크래핑을 당함
- 가장 관대한 해석은 AI 회사들이 CommonCrawl 같은 대체 리소스를 모르고 직접 긁는 것이고,
가장 나쁜 해석은 단순히 반사회적 개발자들이 아무 생각 없이 만든 봇임 - 이런 공격을 “Distributed Intelligence Logic Denial Of Service (DILDOS) ”라고 부르고 싶음
- 이런 공격은 대부분 residential proxy 서비스를 통해 이루어짐
-
Residential proxy는 사실상 악성코드로 취급해야 함
백신 정의에 추가하고 앱스토어에서도 퇴출시켜야 함 -
이게 정말 AI 학습용 스크래핑인지 궁금함
일반 DDOS와 구분이 안 된다면 확신할 수 없지 않나 생각함- 하지만 LWN은 30년 가까이 운영되었는데, AI 크롤링 이전에는 DDOS가 없었음
-
지금은 공격이 멈춘 듯함
메인 페이지도 정상적으로 로드됨 -
나는 블로그 스크래퍼를 막기 위해 JavaScript 메서드를 덮어쓰기로 페이지 내용을 비워버림
Shadow DOM으로 요소를 숨기면 더 어렵게 만들 수 있음
다만 이런 방법은 Playwright나 Selenium 같은 테스트 도구와 검색엔진 인덱싱에 문제를 일으킴- 하지만 이런 방식이 실제로 효과가 있었는지는 확신할 수 없음
- 함수가 쓰레기 데이터를 생성하도록 만들어 봇을 혼란시키는 것도 재밌는 아이디어임
-
어떤 사람은 “AI 회사들이 경쟁 사이트를 DDOS로 마비시켜 데이터 독점을 노린다”고 주장함
- 하지만 그건 음모론처럼 들림
- 일종의 ‘사다리 걷어차기’ 전략일 수도 있음
- 그런데 LWN은 이미 오래된 뉴스레터 사이트라 가치 있는 데이터가 거의 없음
이런 사이트를 긁는다고 해서 AI가 얻을 게 없고, 오히려 과도한 피해망상처럼 보임