LWN이 지금까지 겪은 가장 심각한 스크레이퍼 공격을 받고 있음

(social.kernel.org)

1P by GN⁺ 6달전 | ★ favorite | 댓글 1개

LWN.net이 수만 개의 주소에서 발생한 대규모 스크레이핑 기반 DDoS 공격을 받고 있으며, 사이트 응답 속도가 저하되고 있음
Jonathan Corbet은 AI 관련 스크레이퍼로부터 사이트를 방어해야 하는 상황을 언급하며, 독자 접근에 장벽을 두고 싶지 않지만 필요할 수 있다고 밝힘
커뮤니티에서는 Bright Data 등 상업적 데이터 수집업체가 공격의 배후일 가능성이 언급되었으며, 여러 사용자가 비슷한 트래픽 급증을 보고함
일부는 RSS 구독, 정적 사이트 생성, LLM 타피트(tarpit) 등으로 대응 중이며, Azure·Google·AliCloud 등 대형 클라우드 IP에서 공격이 발생했다는 사례도 공유됨
이번 사태는 AI 데이터 수집이 웹 생태계의 안정성과 창작자의 지속 가능성에 미치는 피해를 드러내는 사례로 주목됨

LWN.net에 대한 대규모 스크레이퍼 공격

Jonathan Corbet은 LWN.net이 지금까지 겪은 가장 심각한 스크레이퍼 공격을 받고 있다고 밝힘
- 공격은 수만 개의 IP 주소를 동원한 DDoS 형태로, 사이트 응답성이 저하되고 있음
- 그는 “AI 관련 스크레이퍼로부터 LWN을 방어하는 일은 하고 싶지 않은 일”이라며, 독자 접근에 장벽을 두는 조치를 원치 않지만 필요할 수 있다고 언급
Corbet은 공격 주체를 특정할 수 없다고 했으며, Bright Data 또는 유사한 경쟁사가 관련됐을 가능성을 언급
- CPU 부하가 심각할 때가 있으며, 서버 확장은 가능하지만 “공들여 쓴 기사를 그런 사람들에게 먹이기 위해 비용을 내야 하는 것은 짜증난다”고 표현

커뮤니티의 반응과 제안

Tristan Colgate-McFarlane은 검색 엔진이 도용된 콘텐츠를 우선 노출함으로써 원 저작자의 트래픽과 광고 수익을 빼앗고 있다고 지적
여러 사용자가 AI 스크레이퍼 트래픽 급증을 경험했다고 보고
- Light Owl은 자신의 사이트 트래픽이 평소보다 20배 증가했다고 언급
- Ben Tasker는 LLM 타피트(tarpit) 로봇 함정으로 일부 요청을 차단하고 있다고 설명
일부는 Azure, Google, AliCloud 등 대형 클라우드 IP에서 공격이 발생했다고 보고
- Dec, mx alex tax1a, David Gerard 등이 각자 MSFT·Google·Ali IP 대역 차단 사례를 공유

대응 방안 논의

Riku Voipio는 구독자 전용 서버(subscriber.lwn.net) 사용을 제안했으나, Corbet은 신규 구독자 유입이 어려워질 수 있다고 답변
Jani Nikula는 등록 사용자 전용 접근을 제안했으나, Corbet은 이미 봇이 계정을 생성하는 문제가 있어 실효성이 낮다고 언급
trademark는 콘텐츠 샤딩(sharding) 으로 캐시 효율을 높이자고 제안했으나, Corbet은 캐시가 문제가 아니라고 답변

다른 사이트 운영자들의 경험 공유

여러 운영자들이 비슷한 공격 패턴을 보고
- Dec는 PHP 취약점 스캔과 wp-admin 로그인 시도가 MSFT IP에서 발생했다고 언급
- David Gerard는 RationalWiki에서 자바스크립트 기반 쿠키 검증으로 대응 중이며, Googlebot까지 차단되는 부작용이 있다고 설명
- Catherine(whitequark)은 404 응답 처리만으로 서버 부하를 완화하고 있다고 언급

커뮤니티 내 인식

일부는 “웹이 진정으로 망가지고 있다”고 표현하며, AI 스크레이핑이 웹 생태계의 붕괴를 가속화하고 있다고 비판
Ayush Agarwal은 커널 커뮤니티 내에서도 LLM 사용이 소규모 사이트에 피해를 주는 현실을 인식해야 한다고 지적
Martin Roukala는 “너무 관련성이 높아서 생긴 문제”라며 자조적으로 언급했으나, Jani Nikula는 “스크레이퍼는 그런 것에 신경 쓰지 않는다”고 답함

GN⁺ 6달전 [-]

Hacker News 의견들

누가 이런 공격적인 스크래퍼들을 운영하는지 궁금함
AI 연구소라면 데이터를 모으기 위해 수많은 사이트를 동시에 긁는 게 효율적이겠지만, 평판 리스크를 감수하면서까지 인기 사이트를 과부하시키는 이유를 모르겠음
- 이런 경우를 보면 기술적 역량이나 배려심이 부족한 경우가 많음
  아마 AI가 직접 만든 스크래퍼를 대충 테스트하고 바로 배포했을 가능성이 큼
  게다가 이들은 ‘residential IP provider’를 통해 신원을 숨기므로 평판 리스크도 없음
  설령 OpenAI나 Anthropic 같은 대형 기업이라 해도, 사람들은 그냥 넘어갈 것 같음
- 초기에 OpenAI나 Anthropic 같은 미국 대기업들이 의심받았지만, 실제로는 개인 AI 에이전트들이 웹페이지를 긁는 경우가 점점 늘고 있음
  Claude Cowork 같은 도구로 사용자가 직접 크롤러를 만들 수 있어서, 나도 NASA 사이트를 긁다가 404 페이지를 폭격해 일시 차단된 적이 있음
  결국 ‘좋은 의도’의 사용자조차 웹 트래픽 패턴을 바꾸고 있음
  관련 통계는 Cloudflare AI Insights에서 볼 수 있음
- 내 개인 사이트도 종종 스크래퍼에 의해 마비됨
  OpenAI의 GPTBot 외에는 대부분 처음 듣는 작은 회사들이었고, 일부는 User-Agent조차 숨김
  이미 Common Crawl에 있는 데이터인데 왜 굳이 긁는지 이해가 안 됨
- 아마 누군가 Claude Code에게 “LWN 전체를 아카이브하라”고 시킨 것 같음
- LWN에는 여러 메일링 리스트 아카이브가 포함되어 있어서 그게 이유일 수도 있음
AI가 오픈소스 코드를 마치 자신들이 쓴 것처럼 재판매하며 라이선스 우회를 하는 게 큰 문제임
코드뿐 아니라 다른 콘텐츠도 마찬가지로 긁어가고 있음
- 나는 오래된 DOS 게임 관련 프로젝트를 했는데, Claude가 내 코드를 거의 그대로 긁어다가 다른 라이선스로 재생산함
  변수명만 살짝 바꾸고 구조는 동일했음
  이런 걸 회사에서 했다면 바로 해고감임
  그런데 AI가 하면 “공정 이용”이라며 도덕적 정당성을 주장하는 게 이상함
- 결국 지적 재산 세탁이 새 버전의 돈세탁처럼 되어버림
- 다만 AI가 그렇게 하는 게 법적으로 허용된다고 판결된 적은 없음, 단지 AI 업계가 그렇게 주장할 뿐임
이런 스크래핑은 단순한 AI 데이터 수집이 아닐 수도 있음
FOSS 사이트들이 지속적으로 공격받고 있는데, 경제성이 맞지 않음
혹시 기술 업계나 오픈소스 커뮤니티를 교란하려는 의도일 수도 있음
- 닉한 게임 모딩 커뮤니티들도 같은 공격을 받았음
  비영리 프로젝트인데도 DDOS 수준의 트래픽이 몰려서 결국 로그인 벽을 세워야 했음
- 아마 데이터 과학자들이 AI로 만든 스크래퍼가 사이트를 얼마나 자주 치는지 신경도 안 쓰는 경우가 많을 듯함
- 내가 지켜보던 몇몇 포럼도 결국 로그인 없이는 읽을 수 없게 됨
- 나도 소규모 브라우저 게임 위키를 운영하는데, Claude와 OpenAI를 포함한 수많은 봇들이 공격적으로 긁어감
  대부분은 주거용 IP를 사용했고, 단순히 “인터넷의 모든 것은 내 것”이라 생각하는 사람들이 문제의 근원 같음
- 지역 기반 취미 커뮤니티라면 차단을 좀 더 과감하게 할 수 있어서 다행임
내 블로그는 재미없어서 스크래핑 문제를 겪지 않음
- 그런데 그 블로그 덕분에 Git Brag라는 걸 처음 알게 됨. 꽤 흥미로움
- LLM을 지루하게 만들 수 있다면 그건 오히려 대단한 일임
“수만 개의 주소가 연루된 DDOS 공격”이라는 말처럼, 공격이 엄청나게 분산되어 있음
작은 사이트에서도 수천 개의 IP에서 트래픽이 몰려옴
- 이런 공격은 대부분 residential proxy 서비스를 통해 이루어짐
  BrightData가 대표적이고, 데이터센터 IP보다 비싸지만 차단이 어려움
- git.ardour.org도 100만 개 이상의 IP에서 무의미한 git 스크래핑을 당함
- 가장 관대한 해석은 AI 회사들이 CommonCrawl 같은 대체 리소스를 모르고 직접 긁는 것이고,
  가장 나쁜 해석은 단순히 반사회적 개발자들이 아무 생각 없이 만든 봇임
- 이런 공격을 “Distributed Intelligence Logic Denial Of Service (DILDOS) ”라고 부르고 싶음
Residential proxy는 사실상 악성코드로 취급해야 함
백신 정의에 추가하고 앱스토어에서도 퇴출시켜야 함
이게 정말 AI 학습용 스크래핑인지 궁금함
일반 DDOS와 구분이 안 된다면 확신할 수 없지 않나 생각함
- 하지만 LWN은 30년 가까이 운영되었는데, AI 크롤링 이전에는 DDOS가 없었음
지금은 공격이 멈춘 듯함
메인 페이지도 정상적으로 로드됨
나는 블로그 스크래퍼를 막기 위해 JavaScript 메서드를 덮어쓰기로 페이지 내용을 비워버림
Shadow DOM으로 요소를 숨기면 더 어렵게 만들 수 있음
다만 이런 방법은 Playwright나 Selenium 같은 테스트 도구와 검색엔진 인덱싱에 문제를 일으킴
- 하지만 이런 방식이 실제로 효과가 있었는지는 확신할 수 없음
- 함수가 쓰레기 데이터를 생성하도록 만들어 봇을 혼란시키는 것도 재밌는 아이디어임
어떤 사람은 “AI 회사들이 경쟁 사이트를 DDOS로 마비시켜 데이터 독점을 노린다”고 주장함
- 하지만 그건 음모론처럼 들림
- 일종의 ‘사다리 걷어차기’ 전략일 수도 있음
- 그런데 LWN은 이미 오래된 뉴스레터 사이트라 가치 있는 데이터가 거의 없음
  이런 사이트를 긁는다고 해서 AI가 얻을 게 없고, 오히려 과도한 피해망상처럼 보임

답변달기

LWN이 지금까지 겪은 가장 심각한 스크레이퍼 공격을 받고 있음

LWN.net에 대한 대규모 스크레이퍼 공격

커뮤니티의 반응과 제안

대응 방안 논의

다른 사이트 운영자들의 경험 공유

커뮤니티 내 인식

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들