Cloudflare Radar: AI 인사이트
(radar.cloudflare.com)- Cloudflare Radar에 AI Insights 전용 페이지가 추가되어 AI 봇·크롤러 트래픽, DNS 기반 생성형 AI 서비스 인기, robots.txt 지시문, Workers AI 모델 사용 추세를 한 화면에서 파악 가능
- AI 봇 및 크롤러 트래픽 그래프는 ai.robots.txt 리스트를 바탕으로 상위 UA의 시계열/요약 데이터를 제공하고, Radar API·Data Explorer로 세분 분석 지원
- 1.1.1.1 DNS 데이터를 이용한 생성형 AI 서비스 순위는 일간 집계로 변화 추이를 보여주며, 2025년 1월 말 DeepSeek의 급상승(1/26 등장→1/29 3위) 같은 신흥 서비스의 급격한 변동 확인
- robots.txt 분석은 상위 10,000 도메인의 AI 관련 Allow/Disallow 지시문을 집계해 범주별 차단 경향을 시각화하며, 뉴스·미디어 영역의 광범위한 비허용 추세 표출
- Workers AI 모델/작업 인기도는 공유 데이터를 바탕으로 모델·태스크별 사용량 추세와 기간 비교를 제공하여 빠르게 진화하는 모델 생태계의 흐름 이해에 기여
개요
- Cloudflare는 Radar에 AI Insights 페이지를 신설하여 AI 관련 트래픽 동향·서비스 인기·접근 제어·모델 사용을 통합 제공
- 데이터 출처는 1.1.1.1 DNS 트래픽, ai.robots.txt 사용자 에이전트 목록, Workers AI 공유 데이터, Radar API/Data Explorer 연계
AI 봇 및 크롤러 트래픽 동향
-
상위 5개 AI 봇/크롤러의 활동을 기간별로 시각화하여 요청 강도·주기성 파악 제공
- 사용자 에이전트 수집 기준은 ai.robots.txt 리스트를 참조하며 지속 업데이트
- 시계열/요약 API 엔드포인트를 통해 프로그램적 접근 지원
-
Data Explorer에서 AI 봇 전체 집합에 대한 광역 동향 탐색 가능
- 운영자는 지역·기간·UA 기준으로 이상 트래픽 점검 가능
- 내부 대응 정책과의 상관 분석에 활용 가능
생성형 AI 서비스의 인기
-
1.1.1.1 DNS 요청량을 기반으로 공개 생성형 AI 서비스의 상대 순위를 일 단위로 제공
- 2023/2024 연례 리뷰에서는 ChatGPT 1위 지속 기록
- 2025년 1월 말에는 6–10위권 변동성이 높게 관찰
-
DeepSeek은 1월 26일 첫 등장 후 1월 29일 3위로 급상승 기록
- 급성장 신흥 서비스 감지에 유용한 고빈도 순위 데이터 제공
- Radar API에서
serviceCategory=Generative%20AI
매개변수로 원자료 시계열 접근 가능
robots.txt 파일 분석
- 상위 10,000 도메인을 주기적으로 수집해 AI 관련 Allow/Disallow 지시문을 집계
- 그래프는 완전 허용/비허용·부분 허용/비허용을 사용자 에이전트별로 요약
- 뉴스·미디어 카테고리는 AI UA에 대한 광범위한 비허용 경향 표출
- Allow 지시문 기준에서는 명시적 허용 사이트 수가 크게 감소
- UA 미기재 및 와일드카드 부재 시 기본 전면 허용 동작 주의
- Radar API·Data Explorer로 봇별/지시문별 필터 분석 지원
Workers AI 모델 및 작업 인기도
-
Workers AI에서 공개 지원되는 모델·작업(Task) 사용 추세를 공유 데이터 기반으로 시각화
- 모델 인기도/작업 인기도를 각각 시계열·요약으로 제공
- Data Explorer에서 기간 비교(timeCompare) 기능으로 전월 대비 증감 분석 가능
- 모델 예시: 텍스트 생성, 이미지 생성, 음성 인식, 이미지 분류 등 다양한 태스크 커버
- 신규 강력 모델 출시 시 조기 가시화를 통해 선제 대응에 활용
결론과 시사점
- AI 생태계는 급격한 변동성을 보이며 신생 서비스가 단기간 급성장하는 사례 다수
- 생성형 서비스 확산과 함께 콘텐츠 스크래핑·저작권·접근 통제 이슈가 지속적 긴장 관계
-
AI Insights 페이지는 트래픽·인기·접근 제어·모델 사용을 통합적으로 제공하여 업계 관찰자·실무자의 시기적 동향 파악에 유용
- 운영자는 Radar API·Data Explorer를 통한 자동화된 모니터링·리포팅 체계를 구축 가능
- robots.txt 지시문 전략과 CDN/보안 정책을 연계해 AI 봇 대응 정교화 가능
Hacker News 의견
- OpenAI가 WebBotAuth를 통해 인증 상태 "In Progress"임을 확인함, Cloudflare가 "좋은 봇"의 문지기로 자리 잡으려는 움직임인 것 같음, "In Progress" 상태가 존재한다는 것 자체가 의미 있음, 다른 기업엔 그냥 "No"인데 OpenAI에겐 "아직은 아니지만, CF에 계획은 알렸음"이라고 함
- Cloudflare가 이중 수익 창출을 노리는 것 같음, CDN 이용자에게 요금을 받고, 이제는 그 이용자의 콘텐츠 접근 권한을 위해서도 또 돈을 받는 구조임, OpenAI가 이렇게 당하는 모습은 통쾌함도 있지만 여기서 끝나지는 않을 것 같음, Kagi나 다른 검색엔진들이 계속 저렴하고 쓸모 있을 수 있을지 의문임, Internet Archive 같은 서비스들은 이 상황에서 어떻게 운영할지 궁금함
- Cloudflare가 웹사이트의 원치 않는 트래픽을 막는 일을 하고 있다는 게 왜 이렇게 놀랍게 느껴지는지 이해가 안 됨, 원래 이게 그들의 사업 모델임
- 사실 봇을 좀 더 합리적으로 인증할 수 있는 방식이 정말 오래 전부터 필요했음, 이건 AI 봇에만 국한된 게 아님
- Cloudflare가 이제 인터넷 게이트키퍼들 대열에 합류한 셈임, 지금은 OpenAI만 이런 인증을 받으려고 하고, Amazon도 어느 정도 따라간 모양임, 다른 기업들은 이런 요구에 맞서길 바람
- Eastdakota(Cloudflare CEO)가 "요즘 모두가 치열하게 다음 시대 게임에 뛰어들기 위해 분주함, 내가 다시 한자리를 마련해줄 수 있음"이라고 했고, Sam(아마 OpenAI 쪽)이 "내가 자리에서 밀렸던 건 몰랐음"이라 하자, Eastdakota는 "완전히 밀린 건 아니지만, 이미 후회할 상황이 됨" 이란 식으로 대화함
- 정말 놀라운 데이터임, "Generative AI services popularity" 차트에서 ChatGPT가 1위인 건 당연한데 Character.AI가 Anthropic, Perplexity, xAI를 앞질러 2위인 게 놀라움, 이 데이터는 각 서비스의 DNS 캐시 전략의 영향을 크게 받았을 수 있다고 생각함, 또 다른 흥미로운 차트는 "Workers AI model popularity"임, llama-3-8b-instruct가 4월 이래 점유율 30~40%로 1위를 달리고 있는데, 이처럼 인기 많은 소형 LLM은 드뭄, 원래는 Meta의 m2m100-1.2b나 Alphabet의 Gemma 3 270M이 좀 더 활용될 줄 알았음, 아마도 CF worker에 올릴 수 있는 가장 강력한 모델을 쓰다 보니 그런 거 같음, 좀 더 다양한 인기 분석은 내 "LLM Assistant Census" 블로그 포스트 참고 바람
Generative AI 서비스 순위 보기
Workers AI 모델 순위 보기
LLM Assistant Census- DNS 캐시가 결과를 왜 왜곡하는지 궁금함, Cloudflare가 사이트 프록시할 때 전체 HTTP 요청을 다 볼 수 있는데 굳이 DNS 질의만으로 통계 집계했을 것 같지 않음, 다른 댓글에서 DNS 얘기가 나오던데 통계 집계 방식에 뭔가 누락된 건지 의문임
- Character.AI는 젊은 이용자들 사이에서 엄청 인기 많음, 그래서 2위에 오른 것도 그리 놀랍지 않음
- 최근에 각 회사가 웹을 얼마나 깊게 크롤링하는지 알아보려고 함, 그 결과 OpenAI 봇이 가장 철저했음, 405개의 링크를 따라갔음
크롤링 데이터 자세히 보기- 흥미로운 통계임, 내 허니팟에선 GPTBot이 최대 92단계 깊이까지 왔음, 아마 내 사이트가 덜 흥미로워서인 듯함
- Cloudflare가 봇 판정에 있어 AI Bot을 어떻게 정의할지 직접 정함, 예를 들어 Common Crawl의 CCBot은 다양한 목적으로 활용되고 있는데(연구 논문 1만 건 이상 인용됨), Cloudflare는 CCBot을 그냥 "AI Bot"으로 간주함, 그런데 실제로 웹사이트 운영자들 대부분이 어떤 봇이 AI Bot인지, 그 목록이 왜 그렇게 선정됐는지 잘 모를 것 같음
- "Top Browser & user agents"에서 Firerox가 점유율 3.8%란 사실이 슬픔
Cloudflare 브라우저 통계- 내가 보기엔 Firefox는 상위 5개 브라우저 중 유일하게 기본값으로 사전 설치가 되지 않는 브라우저임, 사람 대부분은 기본값에서 벗어날 만큼 불편함을 느끼지 않음, 그래서 90% 이상은 Firefox처럼 대체 브라우저를 찾기까지 가지 않음
- 그 초창기에는 Firefox가 더 좋은 브라우저였고, 기존 브라우저들이 제공하지 않던 실질적 기능 덕분에 시장 점유율을 확보했었음, 지금의 Firefox는 차별점 없는 Chrome 아류에 불과함, 애드온 등을 알지 못하는 일반 사용자가 Firefox를 선택할 이유가 없음, Firefox가 정말 유용한 기능(예: 내장 광고/방해요소 차단 등)을 갖추면 시장을 다시 잡을 수 있을 텐데 실제로 그럴 생각이 없어 보임
- 광고 회사가 만든 브라우저를 어떻게 자발적으로 사용하는지 이해가 안 됨, Chrome 유저 대다수는 이런 사실을 모르긴 하겠지만, 여기 글 읽는 사람 중에도 Google 그리고 Chrome의 본질을 알면서 쓰는 경우도 많을 거임
- Firefox가 Cloudflare 통계에서 봇으로 자동 분류되어서 점유율에서 빠지는 영향이 어느 정도나 될지 궁금함
- Firefox는 user agent 정보를 제대로(어쩌면 기본적으로도) 제공하지 않아서 이 점유율이 실제보다 더 낮게 나올 수도 있음
- DNS request에 기반한 AI 랭킹 데이터가 흥미로움, 4주 단위로 봤을 때 Character.AI가 주말엔 꾸준히 2위, Claude가 3위고 평일엔 둘이 순위가 바뀌는 패턴임, 근데 집계 그래프가 일요일~월요일 구간에서 순위 전환을 보임, 아마 미국 시간대와 UTC 차이에서 기인하는 현상인 듯함
- 이 데이터는 AI 기업과 퍼블리셔 모두에게 엄청난 가치가 있음, Cloudflare는 누가 언제 무엇을 얼마나 크롤링하는지에 대해 전례 없는 가시성을 갖게 됨, 이게 머지않아 고급 유료 상품(우선 봇 인증 서비스, 상세 크롤링 분석 등)으로 출시될 수도 있다고 생각함
- 이게 Cloudflare 성장에 매우 큰 레버리지 역할을 할 것임, OpenAI 등 주요 업체로부터 최대한 많은 수익을 뽑아낼 계획임
- Anthropic API로 검색한 뒤 사용자 트래픽을 링크 그대로 해당 사이트로 넘기면 Cloudflare가 이 검색을 Anthropic 쪽으로 매칭할 수 없게 됨, 그래서 크롤링 대비 추천 트래픽 비율이 실제와는 다를 수 있음
- 아마도 이런 통계에는 자신의 정체를 숨기기 위해 레지덴셜 프록시 등을 쓰는 악성 크롤러는 포함되지 않았으리라 생각함
- WebBotAuth 인증에 대해 Cloudflare에 아무도 굴복하지 않고 이 시도가 실패하길 진심으로 바람