# Cloudflare Radar: AI 인사이트

> Clean Markdown view of GeekNews topic #22855. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=22855](https://news.hada.io/topic?id=22855)
- GeekNews Markdown: [https://news.hada.io/topic/22855.md](https://news.hada.io/topic/22855.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-09-02T09:52:30+09:00
- Updated: 2025-09-02T09:52:30+09:00
- Original source: [radar.cloudflare.com](https://radar.cloudflare.com/ai-insights)
- Points: 1
- Comments: 1

## Topic Body

- Cloudflare Radar에 **AI Insights 전용 페이지**가 추가되어 AI 봇·크롤러 트래픽, DNS 기반 **생성형 AI 서비스 인기**, robots.txt 지시문, Workers AI 모델 사용 추세를 **한 화면에서 파악** 가능  
- **AI 봇 및 크롤러 트래픽 그래프**는 ai.robots.txt 리스트를 바탕으로 상위 UA의 **시계열/요약 데이터**를 제공하고, Radar API·Data Explorer로 **세분 분석** 지원  
- 1.1.1.1 DNS 데이터를 이용한 **생성형 AI 서비스 순위**는 일간 집계로 변화 추이를 보여주며, 2025년 1월 말 **DeepSeek의 급상승(1/26 등장→1/29 3위)** 같은 신흥 서비스의 **급격한 변동** 확인  
- **robots.txt 분석**은 상위 10,000 도메인의 AI 관련 Allow/Disallow 지시문을 집계해 **범주별 차단 경향**을 시각화하며, 뉴스·미디어 영역의 **광범위한 비허용 추세** 표출  
- **Workers AI 모델/작업 인기도**는 공유 데이터를 바탕으로 **모델·태스크별 사용량 추세**와 기간 비교를 제공하여 **빠르게 진화하는 모델 생태계**의 흐름 이해에 기여  
  
---  
### 개요  
- Cloudflare는 Radar에 **AI Insights 페이지**를 신설하여 AI 관련 **트래픽 동향·서비스 인기·접근 제어·모델 사용**을 통합 제공  
- 데이터 출처는 **1.1.1.1 DNS 트래픽**, **ai.robots.txt 사용자 에이전트 목록**, **Workers AI 공유 데이터**, Radar **API/Data Explorer** 연계  
  
### AI 봇 및 크롤러 트래픽 동향  
- **상위 5개 AI 봇/크롤러**의 활동을 기간별로 시각화하여 **요청 강도·주기성** 파악 제공  
  - 사용자 에이전트 수집 기준은 **ai.robots.txt 리스트**를 참조하며 지속 업데이트  
  - **시계열/요약 API 엔드포인트**를 통해 프로그램적 접근 지원  
- **Data Explorer**에서 AI 봇 전체 집합에 대한 **광역 동향** 탐색 가능  
  - 운영자는 지역·기간·UA 기준으로 **이상 트래픽** 점검 가능  
  - 내부 대응 정책과의 **상관 분석**에 활용 가능  
  
### 생성형 AI 서비스의 인기  
- **1.1.1.1 DNS 요청량**을 기반으로 공개 생성형 AI 서비스의 **상대 순위**를 일 단위로 제공  
  - 2023/2024 연례 리뷰에서는 **ChatGPT 1위 지속** 기록  
  - 2025년 1월 말에는 **6–10위권 변동성**이 높게 관찰  
- **DeepSeek**은 1월 26일 첫 등장 후 **1월 29일 3위**로 급상승 기록  
  - **급성장 신흥 서비스** 감지에 유용한 **고빈도 순위 데이터** 제공  
  - Radar API에서 `serviceCategory=Generative%20AI` 매개변수로 **원자료 시계열** 접근 가능  
  
### robots.txt 파일 분석  
- 상위 **10,000 도메인**을 주기적으로 수집해 **AI 관련 Allow/Disallow 지시문**을 집계  
  - 그래프는 **완전 허용/비허용·부분 허용/비허용**을 사용자 에이전트별로 요약  
  - 뉴스·미디어 카테고리는 **AI UA에 대한 광범위한 비허용** 경향 표출  
- Allow 지시문 기준에서는 **명시적 허용 사이트 수가 크게 감소**  
  - UA 미기재 및 와일드카드 부재 시 **기본 전면 허용** 동작 주의  
  - Radar API·Data Explorer로 **봇별/지시문별 필터 분석** 지원  
  
### Workers AI 모델 및 작업 인기도  
- **Workers AI**에서 공개 지원되는 **모델·작업(Task)** 사용 추세를 **공유 데이터** 기반으로 시각화  
  - **모델 인기도/작업 인기도**를 각각 시계열·요약으로 제공  
  - Data Explorer에서 **기간 비교(timeCompare)** 기능으로 **전월 대비 증감** 분석 가능  
- 모델 예시: 텍스트 생성, 이미지 생성, 음성 인식, 이미지 분류 등 **다양한 태스크** 커버  
  - 신규 강력 모델 출시 시 **조기 가시화**를 통해 **선제 대응**에 활용  
  
### 결론과 시사점  
- AI 생태계는 **급격한 변동성**을 보이며 신생 서비스가 **단기간 급성장**하는 사례 다수  
  - 생성형 서비스 확산과 함께 **콘텐츠 스크래핑·저작권·접근 통제** 이슈가 **지속적 긴장 관계**  
- **AI Insights 페이지**는 **트래픽·인기·접근 제어·모델 사용**을 통합적으로 제공하여 **업계 관찰자·실무자**의 **시기적 동향 파악**에 유용  
  - 운영자는 Radar API·Data Explorer를 통한 **자동화된 모니터링·리포팅** 체계를 구축 가능  
  - **robots.txt 지시문 전략**과 **CDN/보안 정책**을 연계해 **AI 봇 대응** 정교화 가능

## Comments



### Comment 43239

- Author: neo
- Created: 2025-09-02T09:52:30+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=45093090) 
* OpenAI가 WebBotAuth를 통해 인증 상태 "In Progress"임을 확인함, Cloudflare가 "좋은 봇"의 문지기로 자리 잡으려는 움직임인 것 같음, "In Progress" 상태가 존재한다는 것 자체가 의미 있음, 다른 기업엔 그냥 "No"인데 OpenAI에겐 "아직은 아니지만, CF에 계획은 알렸음"이라고 함
  * Cloudflare가 이중 수익 창출을 노리는 것 같음, CDN 이용자에게 요금을 받고, 이제는 그 이용자의 콘텐츠 접근 권한을 위해서도 또 돈을 받는 구조임, OpenAI가 이렇게 당하는 모습은 통쾌함도 있지만 여기서 끝나지는 않을 것 같음, Kagi나 다른 검색엔진들이 계속 저렴하고 쓸모 있을 수 있을지 의문임, Internet Archive 같은 서비스들은 이 상황에서 어떻게 운영할지 궁금함
  * Cloudflare가 웹사이트의 원치 않는 트래픽을 막는 일을 하고 있다는 게 왜 이렇게 놀랍게 느껴지는지 이해가 안 됨, 원래 이게 그들의 사업 모델임
  * 사실 봇을 좀 더 합리적으로 인증할 수 있는 방식이 정말 오래 전부터 필요했음, 이건 AI 봇에만 국한된 게 아님
  * Cloudflare가 이제 인터넷 게이트키퍼들 대열에 합류한 셈임, 지금은 OpenAI만 이런 인증을 받으려고 하고, Amazon도 어느 정도 따라간 모양임, 다른 기업들은 이런 요구에 맞서길 바람
  * Eastdakota(Cloudflare CEO)가 "요즘 모두가 치열하게 다음 시대 게임에 뛰어들기 위해 분주함, 내가 다시 한자리를 마련해줄 수 있음"이라고 했고, Sam(아마 OpenAI 쪽)이 "내가 자리에서 밀렸던 건 몰랐음"이라 하자, Eastdakota는 "완전히 밀린 건 아니지만, 이미 후회할 상황이 됨" 이란 식으로 대화함
* 정말 놀라운 데이터임, "Generative AI services popularity" 차트에서 ChatGPT가 1위인 건 당연한데 Character.AI가 Anthropic, Perplexity, xAI를 앞질러 2위인 게 놀라움, 이 데이터는 각 서비스의 DNS 캐시 전략의 영향을 크게 받았을 수 있다고 생각함, 또 다른 흥미로운 차트는 "Workers AI model popularity"임, llama-3-8b-instruct가 4월 이래 점유율 30~40%로 1위를 달리고 있는데, 이처럼 인기 많은 소형 LLM은 드뭄, 원래는 Meta의 m2m100-1.2b나 Alphabet의 Gemma 3 270M이 좀 더 활용될 줄 알았음, 아마도 CF worker에 올릴 수 있는 가장 강력한 모델을 쓰다 보니 그런 거 같음, 좀 더 다양한 인기 분석은 내 "LLM Assistant Census" 블로그 포스트 참고 바람  
  [Generative AI 서비스 순위 보기](https://radar.cloudflare.com/ai-insights#generative-ai-services-popularity)  
  [Workers AI 모델 순위 보기](https://radar.cloudflare.com/ai-insights?dateRange=24w#workers-ai-model-popularity)  
  [LLM Assistant Census](https://aleyan.com/blog/2025-llm-assistant-census/)
  * DNS 캐시가 결과를 왜 왜곡하는지 궁금함, Cloudflare가 사이트 프록시할 때 전체 HTTP 요청을 다 볼 수 있는데 굳이 DNS 질의만으로 통계 집계했을 것 같지 않음, 다른 댓글에서 DNS 얘기가 나오던데 통계 집계 방식에 뭔가 누락된 건지 의문임
  * Character.AI는 젊은 이용자들 사이에서 엄청 인기 많음, 그래서 2위에 오른 것도 그리 놀랍지 않음
* 최근에 각 회사가 웹을 얼마나 깊게 크롤링하는지 알아보려고 함, 그 결과 OpenAI 봇이 가장 철저했음, 405개의 링크를 따라갔음  
  [크롤링 데이터 자세히 보기](https://deep.43z.one)
  * 흥미로운 통계임, 내 허니팟에선 GPTBot이 최대 92단계 깊이까지 왔음, 아마 내 사이트가 덜 흥미로워서인 듯함
* Cloudflare가 봇 판정에 있어 AI Bot을 어떻게 정의할지 직접 정함, 예를 들어 Common Crawl의 CCBot은 다양한 목적으로 활용되고 있는데(연구 논문 1만 건 이상 인용됨), Cloudflare는 CCBot을 그냥 "AI Bot"으로 간주함, 그런데 실제로 웹사이트 운영자들 대부분이 어떤 봇이 AI Bot인지, 그 목록이 왜 그렇게 선정됐는지 잘 모를 것 같음
* "Top Browser & user agents"에서 Firerox가 점유율 3.8%란 사실이 슬픔  
  [Cloudflare 브라우저 통계](https://radar.cloudflare.com/adoption-and-usage)
  * 내가 보기엔 Firefox는 상위 5개 브라우저 중 유일하게 기본값으로 사전 설치가 되지 않는 브라우저임, 사람 대부분은 기본값에서 벗어날 만큼 불편함을 느끼지 않음, 그래서 90% 이상은 Firefox처럼 대체 브라우저를 찾기까지 가지 않음
  * 그 초창기에는 Firefox가 더 좋은 브라우저였고, 기존 브라우저들이 제공하지 않던 실질적 기능 덕분에 시장 점유율을 확보했었음, 지금의 Firefox는 차별점 없는 Chrome 아류에 불과함, 애드온 등을 알지 못하는 일반 사용자가 Firefox를 선택할 이유가 없음, Firefox가 정말 유용한 기능(예: 내장 광고/방해요소 차단 등)을 갖추면 시장을 다시 잡을 수 있을 텐데 실제로 그럴 생각이 없어 보임
  * 광고 회사가 만든 브라우저를 어떻게 자발적으로 사용하는지 이해가 안 됨, Chrome 유저 대다수는 이런 사실을 모르긴 하겠지만, 여기 글 읽는 사람 중에도 Google 그리고 Chrome의 본질을 알면서 쓰는 경우도 많을 거임
  * Firefox가 Cloudflare 통계에서 봇으로 자동 분류되어서 점유율에서 빠지는 영향이 어느 정도나 될지 궁금함
  * Firefox는 user agent 정보를 제대로(어쩌면 기본적으로도) 제공하지 않아서 이 점유율이 실제보다 더 낮게 나올 수도 있음
* DNS request에 기반한 AI 랭킹 데이터가 흥미로움, 4주 단위로 봤을 때 Character.AI가 주말엔 꾸준히 2위, Claude가 3위고 평일엔 둘이 순위가 바뀌는 패턴임, 근데 집계 그래프가 일요일~월요일 구간에서 순위 전환을 보임, 아마 미국 시간대와 UTC 차이에서 기인하는 현상인 듯함
* 이 데이터는 AI 기업과 퍼블리셔 모두에게 엄청난 가치가 있음, Cloudflare는 누가 언제 무엇을 얼마나 크롤링하는지에 대해 전례 없는 가시성을 갖게 됨, 이게 머지않아 고급 유료 상품(우선 봇 인증 서비스, 상세 크롤링 분석 등)으로 출시될 수도 있다고 생각함
  * 이게 Cloudflare 성장에 매우 큰 레버리지 역할을 할 것임, OpenAI 등 주요 업체로부터 최대한 많은 수익을 뽑아낼 계획임
* Anthropic API로 검색한 뒤 사용자 트래픽을 링크 그대로 해당 사이트로 넘기면 Cloudflare가 이 검색을 Anthropic 쪽으로 매칭할 수 없게 됨, 그래서 크롤링 대비 추천 트래픽 비율이 실제와는 다를 수 있음
* 아마도 이런 통계에는 자신의 정체를 숨기기 위해 레지덴셜 프록시 등을 쓰는 악성 크롤러는 포함되지 않았으리라 생각함
* WebBotAuth 인증에 대해 Cloudflare에 아무도 굴복하지 않고 이 시도가 실패하길 진심으로 바람
