Cloudflare, AI 데이터 크롤러 기본 차단 도입

(nytimes.com)

3P by GN⁺ 2달전 | ★ favorite | 댓글 2개

Cloudflare가 A.I. 데이터 스크래퍼를 기본적으로 차단하는 새로운 설정을 도입함
웹사이트 소유자는 권한을 부여하지 않는 한 자동으로 AI 봇의 크롤링이 차단됨
AI 모델 훈련에 필요한 고품질 데이터의 수집과 관련해 인터넷 콘텐츠 보호 역할을 강화함
콘텐츠 제작자와 미디어는 무단 데이터 사용에 대한 우려를 계속 표명함
AI 기업과 콘텐츠 소유자 간의 법적 분쟁이 점점 더 빈번해지는 추세임

Cloudflare AI 데이터 스크래퍼 기본 차단 기능 도입

Cloudflare는 온라인 트래픽 관리와 보안 서비스를 제공하는 기술 기업
최근 AI 기업들이 웹사이트 데이터를 무단으로 수집하는 현상이 증가함에 따라, Cloudflare는 고객이 자동으로 AI 데이터 스크래퍼의 접근을 차단할 수 있는 권한 기반 새 설정을 도입함

새로운 기본 정책과 그 변화

새롭게 도입된 이 기능을 통해, 웹사이트는 기본적으로 AI 봇의 자동 크롤링(스크래핑) 을 차단할 수 있음
데이터 크롤링이 필요하다면, 웹사이트 소유자가 별도로 접근 권한을 수동 부여해야 함
기존에는 Cloudflare가 해커나 악성 행위자로 간주하지 않은 봇이 자유롭게 웹사이트 정보를 수집할 수 있었음

Cloudflare의 정책 변화 이유

Cloudflare CEO인 Matthew Prince는 이번 조치가 "인터넷상의 원본 콘텐츠 보호와 웹 퍼블리셔 권익을 강화하기 위함"이라고 강조함
AI 기업이 무단으로 인터넷 데이터를 활용하게 되면 콘텐츠 제작자가 새로운 콘텐츠를 생산할 유인이 감소하는 문제가 발생함
Cloudflare 네트워크는 전 세계 인터넷 트래픽의 약 20% 를 처리함
최근 웹상에서 AI 크롤러 활동이 급증하고 있어 이에 대응하는 정책 추진임

AI 데이터와 업계 갈등 심화

OpenAI, Anthropic, Google 등 AI 모델 개발을 위한 대규모 데이터 수집 경쟁이 치열함
고품질의 웹 데이터는 AI 모델의 정교함과 결과물 품질에 핵심적인 역할을 하고 있음
그 결과, 웹사이트 운영자, 언론사, 저작권자들은 무단 데이터 수집 및 미보상에 대해 항의함

법적 분쟁 확대 사례

2025년 6월 Reddit가 Anthropic을 상대로, 2023년 The New York Times가 OpenAI 및 Microsoft를 상대로 AI 훈련 데이터 무단 활용과 저작권 침해라는 이유로 각각 소송을 제기함
OpenAI와 Microsoft는 이러한 저작권 침해 주장에 대해 부인하고 있음

결론

Cloudflare의 새로운 AI 데이터 수집 기본 차단 정책은 AI 산업과 콘텐츠 소유자 간 데이터 접근 및 활용의 윤리∙법적 기준에 중대한 영향을 미침
이번 정책 변화는 AI 생태계 내에서 콘텐츠 권리 보호와 사전 동의의 표준을 정립하는 데 중요한 계기가 되고 있음.

▲

xguru 2달전 [-]

Cloudflare, AI 봇을 위한 크롤링별 과금(pay-per-crawl) 도입

답변달기

▲

GN⁺ 2달전 [-]

Hacker News 의견

사람들이 잘 인식하지 못하는 부분으로는, 우리가 온라인에서 하는 거의 모든 행위가 지금까지 OpenAI, Anthropic 같은 회사에 무료로 훈련 데이터를 제공하는 역할만 해왔고, 그 과정에서 실제 가치를 만든 인간들은 소외된다는 점 강조 방향성은 100% 맞다고 생각하지만 이 해결책이 혁신적이라고 보긴 어렵고, AI 기생 현상에 대항하는 훨씬 더 많은 혁신 필요성에 대한 희망 표현
- Cloudflare나 비슷한 업체들이 오히려 인터넷의 자유로움을 망치고 있다는 주장 실제로 인증을 핑계로 너무 자주 사이트가 느려지거나 차단이 돼서 1998년 수준의 느린 로딩 경험 발생 광고회사가 사용자를 추적하고 수익화하는 것을 허가하는 브라우저만 정상적으로 쓸 수 있는 시대가 되고 있고, Cloudflare는 문제 해결이 아니라 중간에 끼어서 돈을 챙기고 전체 인터넷 경험의 질을 떨어뜨리고 있다는 비판
- 나는 온라인에 글을 쓰는 이유가 내 생각을 공유하고 싶기 때문이며, 이것이 인공지능 훈련 데이터로 쓰이든 사람이 읽든 상관없이 만족함
- 나는 공개된 인터넷 데이터를 자유롭게 AI 훈련에 사용하는 것이 100% 괜찮다고 생각함 다만 너무 빠른 속도의 크롤링으로 소규모 웹사이트 운영이 어려워질 만큼 부담을 주는 것은 절대 용납할 수 없으며, 이런 현상은 진정한 공공재의 비극으로 생각함
- Cloudflare가 정말로 모든 AI 데이터 스크래핑을 완벽하게 막을 수 있을지 회의적임 이런 조치가 실제로는 크롤링을 더 어렵고 비싸게 만들어서, 매일 모든 페이지를 긁어방송자의 비용을 발생시키는 걸 차단하겠지만, 결국 데이터가 여러 데이터셋 어딘가엔 들어가게 될 것이라는 전망
해당 기능을 켜봤는데 robots.txt가 자동으로 바뀌는 것만 확인함 어떤 추가적인 동작이 있는지는 확실치 않음 robots.txt 파일에 다양한 AI 봇과 크롤러를 차단하는 설정이 추가됨
- "User-agent: CCBot disallow: /"라는 부분을 보고 CCBot(Common Crawl)은 AI 전용인지 의문 제기 CCBot이 이미 예전부터 여러 robots.txt에 차단되어 있었음 Common Crawl이 컨텐츠 사용 방식까지 통제할 수 있는지, CC가 페어유스(fair use)에 의존한다면 라이선스 비용 청구나 2차 이용 허락과 관련된 권리가 실제로 있는지 궁금함 웹사이트 약관이 사이트 운영자가 타인의(사용자) 컨텐츠를 LLM 용도로 재라이선스하고, 수익을 공유할 수 있도록 허용하는 경우가 많은지 의문
- Cloudflare가 오리지널 컨텐츠 보호를 이유로 기본 설정을 바꾼다고 하지만, 실제 robots.txt 안내문엔 예외적으로 'AI RAG(Retrieval Augmented Generation)' 용도 자체는 허용하는데, 언어모델 훈련보다 오히려 RAG가 작가들의 수익을 훨씬 실시간으로 저해하니 이상함
- 구글도 결국은 웹 인덱싱과 AI 훈련을 동시에 위해 데이터를 긁어가고 결국 선택을 강요할 수 있다는 생각 웹사이트 운영자가 만약 AI 학습에 협조하지 않으면 구글 검색 노출도 포기해야 하는 상황이 오면 굉장히 미묘한 딜레마 발생
- 내 개인적인 취미 사이트들에서는 user-agent에 'bot'이 들어가 있고 robots.txt, humans.txt, favicon.ico 외 파일을 요청하면 444 스테이터스(즉시 연결종료)로 응답 검색엔진 대부분은 CIDR 블록을 블랙홀로 처리함 아마 이런 식으로 하는 사람은 나뿐일 것 같음
- 신문사 중에는 LLM 크롤러뿐 아니라 ChatGPT 검색 기능까지 동시에 막은 사례가 있는데, Cloudflare의 설정은 그보다는 훨씬 합리적인 기본값
이번 헤드라인은 다소 오해를 줄 수 있음 현재는 Cloudflare를 쓰는 사이트가 '옵트인'식으로 AI 봇 전체 차단을 빠르게 켤 수 있게 됐지만, 기본값은 아니며 자동 적용은 아님 Cloudflare가 원하면 이런 일괄조치를 임의로 할 수 있다는 점이 그들의 권한이 막강함을 보여줌
- 정말로 기본값이 아니냐는 질문 등장 Cloudflare 공식 블로그 글에선 기본 설정 변경을 언급
- 이제는 AI 봇과 웹사이트 간에 적대적 관계가 됐음 Cloudflare는 그 상황에 단지 대응하고 있을 뿐 DDoS 방어도 비슷한 맥락 아닌지 질문
- Cloudflare가 제대로된 방어 수단보단 인터넷을 느리게만 만드는 것 같음 실제로 제공하는 챌린지를 반나절 안에 뚫지 못한 적이 없음 이러한 조치는 결국 AI SEO를 위한 중개 시장에 몸을 담기 위한 첫 단계로 생각함 Cloudflare 본질은 사이트를 위해서가 아니라 스크래퍼와 퍼블리셔 중간에서 수수료를 챙기려는 시도로 해석 Cloudflare를 미워함
Cloudflare를 통해 서비스되는 내 데이터 사용량이 2년 전 20gb에서 100gb로 급증함 실제 방문자는 절반 이하로 줄었는데도 트래픽만 커진 걸로 봐서, Cloudflare 입장에선 리소스 비용 절감을 위해 이러한 조치를 한다고 예상
- 대규모 트래픽에서 대역폭 비용이 비싸다는 점에 수긍
HN에선 봇 트래픽 때문에 웹사이트가 느려진다는 불평이 종종 나오는데 사이트 운영자로서 이해가 잘 안됨 Cloudflare 캐시를 기본적으로 쓰면 트래픽 대부분이 캐시로 소화되고, 서버 부담 거의 없을 텐데 CPU와 대역폭 비용도 요즘 많이 저렴하지 않은가 다들 왜 이렇게 민감한지 궁금함
- 나도 큰 사이트를 운영하는데 수십만 페이지에 걸쳐 10개 언어로 제공, 총 수백만 페이지 규모며 RPS 1000 가까이 나옴 AI 크롤러가 한 번에 100~200 RPS를 여러 IP로 분산해서 보내면 비싼 엔드포인트를 집중적으로 두들기고, 기존 로봇 차단조치로도 감당이 안 돼 DDoS와 비슷한 효과 발생
- 나 역시 AI 트래픽으로 다운된 경험 있음 캐시를 여러 단계로 사용해도, 공개 API 중 인증 없이 노출되는 일부 엔드포인트는 캐시가 안 되는데, 이 부분을 반복적으로 두들기면 결국 사이트가 내려감 수백만 개의 페이지를 짧은 시간 내에 미스캐시로 동시 리젠하면 요청이 쌓이고 에러가 발생, 에러는 캐시 미완성으로 돌아가는 악순환 AI 트래픽이 이런 엔드포인트를 계속 때리면 문제 지속
- 기본적으로 Cloudflare를 쓴다는 가정부터가 문제임 단순 사이트 운영에도 이게 필수요소가 된 시대인가 반문
- 사람들이 주로 지적하는 AI 트래픽 문제는 ‘date range로 모든 포스트를 조회’ 같은 API를 끝없이 두드리는 크롤러에 많이 집중됐음
- 나 역시 이런 강한 반응이 다소 의아하지만, 최적화가 안 된 사이트에선 AI 크롤러로부터 탈출하고 싶어하는 건 이해 관련 도구 중 빠르게 가장 많이 확산된 것이 Anubis checker로 보임 github 링크 AI 트래픽이 분산 크롤러임을 감안할 때도, 협업적으로 제한하는 오픈소스 소프트웨어가 더 활성화될 필요성 느낌 HTTP 상태코드 "420 Enhance Your Calm" 식의 대응이 웹에 더 필요함을 언급 참고 링크
AI 회사들이 허락 없이 여러 웹사이트 데이터를 써버리면 디지털 컨텐츠 생산 의욕이 사라질 테고, 결국 AI의 성장 구조 자체가 다른 디지털 활동을 저해하며, 마지막엔 웹까지 파괴할 것이라는 걱정 표현 (재미있게도 AI에게 웹 자체가 '먹잇감'임)
- 전 세계적으로 광고 차단기 사용률이 30%라서, 디지털 컨텐츠 저해 논리가 좀 더 복합적이라는 의견
- AI가 궁극적으로 하고 싶은 일(인간과의 다양한 상호작용 및 경제활동)이 이뤄지지 않으면 AI도 결국 데이터 자원이 고갈됨
- 지금은 자본주의가 사람을 주된 착취 대상으로 삼게 됐듯, AI도 구조적으로 비슷한 길을 걷는다는 시각
Cloudflare가 사전 구성된 규칙을 통해 robots.txt를 지키고 정직하게 행동하는 AI 봇이나 크롤러는 잡아낼 수 있지만, 이미 Perplexity 등 일부 회사는 트래픽을 위장하고 있어 이런 차단이 오히려 정직한 봇만 피해를 보고, 은폐를 유도하지 않는지 의문 이런 현상, 즉 암전(arms race)은 20년 전부터 지속되어왔고 새로운 현상은 아님 Cloudflare의 글로벌 신호와 봇 스코어링, 트래픽 지문화 덕분에 위장한 AI 봇도 잘 판별해내는 구조임 관련 설명 링크도 공유 blog.cloudflare.com 참고
- 정직하고 투명한 봇만 규제하면 위장된 은폐 크롤링만 더 늘지 않냐는 질문에, 이미 20년 넘게 이런 암투가 벌어져왔고 완전히 새로운 일도, 답도 아니라고 생각함
- Super Bot Fight Mode의 Block AI Bots 옵션이 실제로 봇 트래픽 대부분을 잘 제거해줬고 robots.txt나 user agent 의존성이 아니라 트래픽 패턴을 분석하는 접근이었음 덕분에 내 툴이 작동하려면 별도 우회 규칙 필요할 정도
- Cloudflare는 그들이 좋아하지 않는 유저에겐 인터넷 사용을 무척 힘들게 만들 방법을 잘 알고 있음 robots.txt로 봇이 악의적으로 분류되지 않게 해두면 사이트 단위로 허용 여지가 생기지만, 나머진 Cloudflare만의 처리법을 쓰게 될 것
- 대량 스크래핑하는 AI 봇은 클라우드플레어 입장에선 사실상 숨기기 어려우며, 지문화 및 네트워크 레벨에서 여러 신호로 판별 가능 실제로 대기업들은 Cloudflare와 직접 소통하고 있어서 결국 경고나 대응 등 다양한 수단이 있는 상황으로 예상
주요 AI 회사들은 정말로 robots.txt를 존중할까 공개된 크롤러 일부만 지킬지 모를 뿐, 결국 물 밑에선 숨겨진 방식으로 크롤링을 돌리고 있는 의심 실제로 책, 이미지, 유저 데이터까지 불법적으로 긁어다 쓴 전적이 있음
- 소규모 크롤러들이 대형 기업을 가장해 차단을 피하려는 경우도 많아 구분이 어려움
- robots.txt를 지키는 것은 어디까지나 관례일 뿐이며, 딱히 법적/기술적 강제는 없음 약관에 robots.txt 정책 준수 조항을 명시할 수도 있지만, 실제 위력은 의문
- 이 트래픽의 상당 부분이 AI가 직접적 스크래핑이 아니라, 인간이 AI에게 질문하면 그때 인터넷을 조사하러 다니는 형태일 수도 있음 브라우저처럼 리서치 용도까지 robots.txt 규제범위로 볼지, 인덱싱 용도로만 볼지 혼란
- Cloudflare의 게이트키퍼 역할 자체는 탐탁지 않지만, AI회사에 실제로 영향력을 행사할 수 있는 위치임
현재 차단 대상 AI 봇 목록은 매우 짧음 참고 링크
- Cloudflare 설명에선 Common Crawl(CCBot)도 AI Bots로 구분되어 차단 옵션에 들어감 하지만 Common Crawl은 실제로 AI 전용 봇이 아니며, 오픈 크롤링 인프라임 참고 링크
- Cloudflare는 방대한 웹 트래픽을 관측하고 있어서 지금 잡힌 봇 리스트는 발생 빈도가 높은 것 위주이고, 앞으로 발견되는 봇이 있으면 계속 추가될 듯 실제로 모든 크롤러를 차단하는 건 불가능하겠지만 인터넷 전체를 기준으로 보면 Cloudflare만큼 많은 봇을 탐지할 곳은 드물 것
- 이런 차단만으로도 대다수 사이트의 트래픽을 절반 이하로 줄이는 효과 있을 듯
웹의 주요 진화(웹2의 울타리화, 웹3의 허망함, 그리고 지금)는 점점 커뮤니티와 지식 저장소 역할에서 멀어지는 방향에 가까움 퀄리티나 기술은 계속 발전해오면서도, 그만큼 상실된 것도 많음

답변달기