# LWN이 지금까지 겪은 가장 심각한 스크레이퍼 공격을 받고 있음

> Clean Markdown view of GeekNews topic #25935. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=25935](https://news.hada.io/topic?id=25935)
- GeekNews Markdown: [https://news.hada.io/topic/25935.md](https://news.hada.io/topic/25935.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-01-19T04:37:00+09:00
- Updated: 2026-01-19T04:37:00+09:00
- Original source: [social.kernel.org](https://social.kernel.org/notice/B2JlhcxNTfI8oDVoyO)
- Points: 1
- Comments: 1

## Topic Body

- **LWN.net**이 수만 개의 주소에서 발생한 **대규모 스크레이핑 기반 DDoS 공격**을 받고 있으며, 사이트 응답 속도가 저하되고 있음  
- Jonathan Corbet은 **AI 관련 스크레이퍼**로부터 사이트를 방어해야 하는 상황을 언급하며, 독자 접근에 장벽을 두고 싶지 않지만 필요할 수 있다고 밝힘  
- 커뮤니티에서는 **Bright Data** 등 상업적 데이터 수집업체가 공격의 배후일 가능성이 언급되었으며, 여러 사용자가 **비슷한 트래픽 급증**을 보고함  
- 일부는 **RSS 구독, 정적 사이트 생성, LLM 타피트(tarpit)** 등으로 대응 중이며, Azure·Google·AliCloud 등 대형 클라우드 IP에서 공격이 발생했다는 사례도 공유됨  
- 이번 사태는 **AI 데이터 수집이 웹 생태계의 안정성과 창작자의 지속 가능성에 미치는 피해**를 드러내는 사례로 주목됨  

---

### LWN.net에 대한 대규모 스크레이퍼 공격
- Jonathan Corbet은 LWN.net이 지금까지 겪은 **가장 심각한 스크레이퍼 공격**을 받고 있다고 밝힘  
  - 공격은 **수만 개의 IP 주소**를 동원한 DDoS 형태로, 사이트 응답성이 저하되고 있음  
  - 그는 “AI 관련 스크레이퍼로부터 LWN을 방어하는 일은 하고 싶지 않은 일”이라며, 독자 접근에 장벽을 두는 조치를 원치 않지만 필요할 수 있다고 언급  

- Corbet은 공격 주체를 특정할 수 없다고 했으며, **Bright Data 또는 유사한 경쟁사**가 관련됐을 가능성을 언급  
  - CPU 부하가 심각할 때가 있으며, 서버 확장은 가능하지만 “공들여 쓴 기사를 그런 사람들에게 먹이기 위해 비용을 내야 하는 것은 짜증난다”고 표현  

### 커뮤니티의 반응과 제안
- Tristan Colgate-McFarlane은 **검색 엔진이 도용된 콘텐츠를 우선 노출**함으로써 원 저작자의 트래픽과 광고 수익을 빼앗고 있다고 지적  
- 여러 사용자가 **AI 스크레이퍼 트래픽 급증**을 경험했다고 보고  
  - Light Owl은 자신의 사이트 트래픽이 평소보다 20배 증가했다고 언급  
  - Ben Tasker는 **LLM 타피트(tarpit)** 로봇 함정으로 일부 요청을 차단하고 있다고 설명  
- 일부는 **Azure, Google, AliCloud** 등 대형 클라우드 IP에서 공격이 발생했다고 보고  
  - Dec, mx alex tax1a, David Gerard 등이 각자 **MSFT·Google·Ali IP 대역 차단** 사례를 공유  

### 대응 방안 논의
- Riku Voipio는 **구독자 전용 서버(subscriber.lwn.net)** 사용을 제안했으나, Corbet은 신규 구독자 유입이 어려워질 수 있다고 답변  
- Jani Nikula는 **등록 사용자 전용 접근**을 제안했으나, Corbet은 이미 **봇이 계정을 생성하는 문제**가 있어 실효성이 낮다고 언급  
- trademark는 **콘텐츠 샤딩(sharding)** 으로 캐시 효율을 높이자고 제안했으나, Corbet은 캐시가 문제가 아니라고 답변  

### 다른 사이트 운영자들의 경험 공유
- 여러 운영자들이 **비슷한 공격 패턴**을 보고  
  - Dec는 PHP 취약점 스캔과 wp-admin 로그인 시도가 MSFT IP에서 발생했다고 언급  
  - David Gerard는 RationalWiki에서 **자바스크립트 기반 쿠키 검증**으로 대응 중이며, Googlebot까지 차단되는 부작용이 있다고 설명  
  - Catherine(whitequark)은 **404 응답 처리만으로 서버 부하를 완화**하고 있다고 언급  

### 커뮤니티 내 인식
- 일부는 “웹이 진정으로 망가지고 있다”고 표현하며, **AI 스크레이핑이 웹 생태계의 붕괴를 가속화**하고 있다고 비판  
- Ayush Agarwal은 커널 커뮤니티 내에서도 **LLM 사용이 소규모 사이트에 피해를 주는 현실**을 인식해야 한다고 지적  
- Martin Roukala는 “너무 관련성이 높아서 생긴 문제”라며 자조적으로 언급했으나, Jani Nikula는 “스크레이퍼는 그런 것에 신경 쓰지 않는다”고 답함  

---

## Comments


### Comment 49435

- Author: neo
- Created: 2026-01-19T04:37:00+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=46651887) 
- 누가 이런 **공격적인 스크래퍼**들을 운영하는지 궁금함  
  AI 연구소라면 데이터를 모으기 위해 수많은 사이트를 동시에 긁는 게 효율적이겠지만, 평판 리스크를 감수하면서까지 인기 사이트를 과부하시키는 이유를 모르겠음
  - 이런 경우를 보면 **기술적 역량이나 배려심**이 부족한 경우가 많음  
    아마 AI가 직접 만든 스크래퍼를 대충 테스트하고 바로 배포했을 가능성이 큼  
    게다가 이들은 ‘residential IP provider’를 통해 신원을 숨기므로 평판 리스크도 없음  
    설령 OpenAI나 Anthropic 같은 대형 기업이라 해도, 사람들은 그냥 넘어갈 것 같음
  - 초기에 OpenAI나 Anthropic 같은 미국 대기업들이 의심받았지만, 실제로는 **개인 AI 에이전트**들이 웹페이지를 긁는 경우가 점점 늘고 있음  
    Claude Cowork 같은 도구로 사용자가 직접 크롤러를 만들 수 있어서, 나도 NASA 사이트를 긁다가 **404 페이지를 폭격**해 일시 차단된 적이 있음  
    결국 ‘좋은 의도’의 사용자조차 웹 트래픽 패턴을 바꾸고 있음  
    관련 통계는 [Cloudflare AI Insights](https://radar.cloudflare.com/ai-insights#ai-bot-crawler-traffic)에서 볼 수 있음
  - 내 개인 사이트도 종종 스크래퍼에 의해 마비됨  
    OpenAI의 GPTBot 외에는 대부분 처음 듣는 **작은 회사들**이었고, 일부는 User-Agent조차 숨김  
    이미 Common Crawl에 있는 데이터인데 왜 굳이 긁는지 이해가 안 됨
  - 아마 누군가 Claude Code에게 “LWN 전체를 아카이브하라”고 시킨 것 같음
  - LWN에는 여러 **메일링 리스트 아카이브**가 포함되어 있어서 그게 이유일 수도 있음

- AI가 오픈소스 코드를 마치 자신들이 쓴 것처럼 재판매하며 **라이선스 우회**를 하는 게 큰 문제임  
  코드뿐 아니라 다른 콘텐츠도 마찬가지로 긁어가고 있음
  - 나는 오래된 DOS 게임 관련 프로젝트를 했는데, Claude가 내 코드를 거의 그대로 긁어다가 다른 라이선스로 **재생산**함  
    변수명만 살짝 바꾸고 구조는 동일했음  
    이런 걸 회사에서 했다면 바로 해고감임  
    그런데 AI가 하면 “공정 이용”이라며 도덕적 정당성을 주장하는 게 이상함
  - 결국 **지적 재산 세탁**이 새 버전의 돈세탁처럼 되어버림
  - 다만 AI가 그렇게 하는 게 법적으로 허용된다고 **판결된 적은 없음**, 단지 AI 업계가 그렇게 주장할 뿐임

- 이런 스크래핑은 단순한 AI 데이터 수집이 아닐 수도 있음  
  FOSS 사이트들이 지속적으로 공격받고 있는데, **경제성이 맞지 않음**  
  혹시 기술 업계나 오픈소스 커뮤니티를 교란하려는 의도일 수도 있음
  - 닉한 게임 모딩 커뮤니티들도 같은 공격을 받았음  
    비영리 프로젝트인데도 DDOS 수준의 트래픽이 몰려서 결국 **로그인 벽**을 세워야 했음
  - 아마 데이터 과학자들이 AI로 만든 스크래퍼가 사이트를 얼마나 자주 치는지 신경도 안 쓰는 경우가 많을 듯함
  - 내가 지켜보던 몇몇 포럼도 결국 로그인 없이는 읽을 수 없게 됨
  - 나도 소규모 **브라우저 게임 위키**를 운영하는데, Claude와 OpenAI를 포함한 수많은 봇들이 공격적으로 긁어감  
    대부분은 **주거용 IP**를 사용했고, 단순히 “인터넷의 모든 것은 내 것”이라 생각하는 사람들이 문제의 근원 같음
  - 지역 기반 취미 커뮤니티라면 차단을 좀 더 과감하게 할 수 있어서 다행임

- 내 블로그는 **재미없어서** 스크래핑 문제를 겪지 않음
  - 그런데 그 블로그 덕분에 Git Brag라는 걸 처음 알게 됨. 꽤 흥미로움
  - LLM을 지루하게 만들 수 있다면 그건 오히려 대단한 일임

- “수만 개의 주소가 연루된 DDOS 공격”이라는 말처럼, 공격이 **엄청나게 분산되어 있음**  
  작은 사이트에서도 수천 개의 IP에서 트래픽이 몰려옴
  - 이런 공격은 대부분 **residential proxy 서비스**를 통해 이루어짐  
    BrightData가 대표적이고, 데이터센터 IP보다 비싸지만 차단이 어려움
  - git.ardour.org도 100만 개 이상의 IP에서 **무의미한 git 스크래핑**을 당함
  - 가장 관대한 해석은 AI 회사들이 CommonCrawl 같은 대체 리소스를 모르고 **직접 긁는 것**이고,  
    가장 나쁜 해석은 단순히 **반사회적 개발자들**이 아무 생각 없이 만든 봇임
  - 이런 공격을 “**Distributed Intelligence Logic Denial Of Service (DILDOS)** ”라고 부르고 싶음

- **Residential proxy**는 사실상 악성코드로 취급해야 함  
  백신 정의에 추가하고 앱스토어에서도 퇴출시켜야 함

- 이게 정말 AI 학습용 스크래핑인지 궁금함  
  일반 DDOS와 구분이 안 된다면 확신할 수 없지 않나 생각함
  - 하지만 LWN은 30년 가까이 운영되었는데, **AI 크롤링 이전에는 DDOS가 없었음**

- 지금은 공격이 멈춘 듯함  
  메인 페이지도 정상적으로 로드됨

- 나는 블로그 스크래퍼를 막기 위해 **JavaScript 메서드를 덮어쓰기**로 페이지 내용을 비워버림  
  Shadow DOM으로 요소를 숨기면 더 어렵게 만들 수 있음  
  다만 이런 방법은 **Playwright나 Selenium** 같은 테스트 도구와 검색엔진 인덱싱에 문제를 일으킴
  - 하지만 이런 방식이 실제로 효과가 있었는지는 **확신할 수 없음**
  - 함수가 **쓰레기 데이터를 생성**하도록 만들어 봇을 혼란시키는 것도 재밌는 아이디어임

- 어떤 사람은 “AI 회사들이 경쟁 사이트를 **DDOS로 마비시켜 데이터 독점**을 노린다”고 주장함  
  - 하지만 그건 **음모론**처럼 들림
  - 일종의 ‘사다리 걷어차기’ 전략일 수도 있음
  - 그런데 LWN은 이미 오래된 뉴스레터 사이트라 **가치 있는 데이터가 거의 없음**  
    이런 사이트를 긁는다고 해서 AI가 얻을 게 없고, 오히려 과도한 피해망상처럼 보임