Hacker News 의견들
  • 누가 이런 공격적인 스크래퍼들을 운영하는지 궁금함
    AI 연구소라면 데이터를 모으기 위해 수많은 사이트를 동시에 긁는 게 효율적이겠지만, 평판 리스크를 감수하면서까지 인기 사이트를 과부하시키는 이유를 모르겠음

    • 이런 경우를 보면 기술적 역량이나 배려심이 부족한 경우가 많음
      아마 AI가 직접 만든 스크래퍼를 대충 테스트하고 바로 배포했을 가능성이 큼
      게다가 이들은 ‘residential IP provider’를 통해 신원을 숨기므로 평판 리스크도 없음
      설령 OpenAI나 Anthropic 같은 대형 기업이라 해도, 사람들은 그냥 넘어갈 것 같음
    • 초기에 OpenAI나 Anthropic 같은 미국 대기업들이 의심받았지만, 실제로는 개인 AI 에이전트들이 웹페이지를 긁는 경우가 점점 늘고 있음
      Claude Cowork 같은 도구로 사용자가 직접 크롤러를 만들 수 있어서, 나도 NASA 사이트를 긁다가 404 페이지를 폭격해 일시 차단된 적이 있음
      결국 ‘좋은 의도’의 사용자조차 웹 트래픽 패턴을 바꾸고 있음
      관련 통계는 Cloudflare AI Insights에서 볼 수 있음
    • 내 개인 사이트도 종종 스크래퍼에 의해 마비됨
      OpenAI의 GPTBot 외에는 대부분 처음 듣는 작은 회사들이었고, 일부는 User-Agent조차 숨김
      이미 Common Crawl에 있는 데이터인데 왜 굳이 긁는지 이해가 안 됨
    • 아마 누군가 Claude Code에게 “LWN 전체를 아카이브하라”고 시킨 것 같음
    • LWN에는 여러 메일링 리스트 아카이브가 포함되어 있어서 그게 이유일 수도 있음
  • AI가 오픈소스 코드를 마치 자신들이 쓴 것처럼 재판매하며 라이선스 우회를 하는 게 큰 문제임
    코드뿐 아니라 다른 콘텐츠도 마찬가지로 긁어가고 있음

    • 나는 오래된 DOS 게임 관련 프로젝트를 했는데, Claude가 내 코드를 거의 그대로 긁어다가 다른 라이선스로 재생산
      변수명만 살짝 바꾸고 구조는 동일했음
      이런 걸 회사에서 했다면 바로 해고감임
      그런데 AI가 하면 “공정 이용”이라며 도덕적 정당성을 주장하는 게 이상함
    • 결국 지적 재산 세탁이 새 버전의 돈세탁처럼 되어버림
    • 다만 AI가 그렇게 하는 게 법적으로 허용된다고 판결된 적은 없음, 단지 AI 업계가 그렇게 주장할 뿐임
  • 이런 스크래핑은 단순한 AI 데이터 수집이 아닐 수도 있음
    FOSS 사이트들이 지속적으로 공격받고 있는데, 경제성이 맞지 않음
    혹시 기술 업계나 오픈소스 커뮤니티를 교란하려는 의도일 수도 있음

    • 닉한 게임 모딩 커뮤니티들도 같은 공격을 받았음
      비영리 프로젝트인데도 DDOS 수준의 트래픽이 몰려서 결국 로그인 벽을 세워야 했음
    • 아마 데이터 과학자들이 AI로 만든 스크래퍼가 사이트를 얼마나 자주 치는지 신경도 안 쓰는 경우가 많을 듯함
    • 내가 지켜보던 몇몇 포럼도 결국 로그인 없이는 읽을 수 없게 됨
    • 나도 소규모 브라우저 게임 위키를 운영하는데, Claude와 OpenAI를 포함한 수많은 봇들이 공격적으로 긁어감
      대부분은 주거용 IP를 사용했고, 단순히 “인터넷의 모든 것은 내 것”이라 생각하는 사람들이 문제의 근원 같음
    • 지역 기반 취미 커뮤니티라면 차단을 좀 더 과감하게 할 수 있어서 다행임
  • 내 블로그는 재미없어서 스크래핑 문제를 겪지 않음

    • 그런데 그 블로그 덕분에 Git Brag라는 걸 처음 알게 됨. 꽤 흥미로움
    • LLM을 지루하게 만들 수 있다면 그건 오히려 대단한 일임
  • “수만 개의 주소가 연루된 DDOS 공격”이라는 말처럼, 공격이 엄청나게 분산되어 있음
    작은 사이트에서도 수천 개의 IP에서 트래픽이 몰려옴

    • 이런 공격은 대부분 residential proxy 서비스를 통해 이루어짐
      BrightData가 대표적이고, 데이터센터 IP보다 비싸지만 차단이 어려움
    • git.ardour.org도 100만 개 이상의 IP에서 무의미한 git 스크래핑을 당함
    • 가장 관대한 해석은 AI 회사들이 CommonCrawl 같은 대체 리소스를 모르고 직접 긁는 것이고,
      가장 나쁜 해석은 단순히 반사회적 개발자들이 아무 생각 없이 만든 봇임
    • 이런 공격을 “Distributed Intelligence Logic Denial Of Service (DILDOS) ”라고 부르고 싶음
  • Residential proxy는 사실상 악성코드로 취급해야 함
    백신 정의에 추가하고 앱스토어에서도 퇴출시켜야 함

  • 이게 정말 AI 학습용 스크래핑인지 궁금함
    일반 DDOS와 구분이 안 된다면 확신할 수 없지 않나 생각함

    • 하지만 LWN은 30년 가까이 운영되었는데, AI 크롤링 이전에는 DDOS가 없었음
  • 지금은 공격이 멈춘 듯함
    메인 페이지도 정상적으로 로드됨

  • 나는 블로그 스크래퍼를 막기 위해 JavaScript 메서드를 덮어쓰기로 페이지 내용을 비워버림
    Shadow DOM으로 요소를 숨기면 더 어렵게 만들 수 있음
    다만 이런 방법은 Playwright나 Selenium 같은 테스트 도구와 검색엔진 인덱싱에 문제를 일으킴

    • 하지만 이런 방식이 실제로 효과가 있었는지는 확신할 수 없음
    • 함수가 쓰레기 데이터를 생성하도록 만들어 봇을 혼란시키는 것도 재밌는 아이디어임
  • 어떤 사람은 “AI 회사들이 경쟁 사이트를 DDOS로 마비시켜 데이터 독점을 노린다”고 주장함

    • 하지만 그건 음모론처럼 들림
    • 일종의 ‘사다리 걷어차기’ 전략일 수도 있음
    • 그런데 LWN은 이미 오래된 뉴스레터 사이트라 가치 있는 데이터가 거의 없음
      이런 사이트를 긁는다고 해서 AI가 얻을 게 없고, 오히려 과도한 피해망상처럼 보임