OpenAI가 WebBotAuth를 통해 인증 상태 "In Progress"임을 확인함, Cloudflare가 "좋은 봇"의 문지기로 자리 잡으려는 움직임인 것 같음, "In Progress" 상태가 존재한다는 것 자체가 의미 있음, 다른 기업엔 그냥 "No"인데 OpenAI에겐 "아직은 아니지만, CF에 계획은 알렸음"이라고 함
Cloudflare가 이중 수익 창출을 노리는 것 같음, CDN 이용자에게 요금을 받고, 이제는 그 이용자의 콘텐츠 접근 권한을 위해서도 또 돈을 받는 구조임, OpenAI가 이렇게 당하는 모습은 통쾌함도 있지만 여기서 끝나지는 않을 것 같음, Kagi나 다른 검색엔진들이 계속 저렴하고 쓸모 있을 수 있을지 의문임, Internet Archive 같은 서비스들은 이 상황에서 어떻게 운영할지 궁금함
Cloudflare가 웹사이트의 원치 않는 트래픽을 막는 일을 하고 있다는 게 왜 이렇게 놀랍게 느껴지는지 이해가 안 됨, 원래 이게 그들의 사업 모델임
사실 봇을 좀 더 합리적으로 인증할 수 있는 방식이 정말 오래 전부터 필요했음, 이건 AI 봇에만 국한된 게 아님
Cloudflare가 이제 인터넷 게이트키퍼들 대열에 합류한 셈임, 지금은 OpenAI만 이런 인증을 받으려고 하고, Amazon도 어느 정도 따라간 모양임, 다른 기업들은 이런 요구에 맞서길 바람
Eastdakota(Cloudflare CEO)가 "요즘 모두가 치열하게 다음 시대 게임에 뛰어들기 위해 분주함, 내가 다시 한자리를 마련해줄 수 있음"이라고 했고, Sam(아마 OpenAI 쪽)이 "내가 자리에서 밀렸던 건 몰랐음"이라 하자, Eastdakota는 "완전히 밀린 건 아니지만, 이미 후회할 상황이 됨" 이란 식으로 대화함
정말 놀라운 데이터임, "Generative AI services popularity" 차트에서 ChatGPT가 1위인 건 당연한데 Character.AI가 Anthropic, Perplexity, xAI를 앞질러 2위인 게 놀라움, 이 데이터는 각 서비스의 DNS 캐시 전략의 영향을 크게 받았을 수 있다고 생각함, 또 다른 흥미로운 차트는 "Workers AI model popularity"임, llama-3-8b-instruct가 4월 이래 점유율 30~40%로 1위를 달리고 있는데, 이처럼 인기 많은 소형 LLM은 드뭄, 원래는 Meta의 m2m100-1.2b나 Alphabet의 Gemma 3 270M이 좀 더 활용될 줄 알았음, 아마도 CF worker에 올릴 수 있는 가장 강력한 모델을 쓰다 보니 그런 거 같음, 좀 더 다양한 인기 분석은 내 "LLM Assistant Census" 블로그 포스트 참고 바람 Generative AI 서비스 순위 보기 Workers AI 모델 순위 보기 LLM Assistant Census
DNS 캐시가 결과를 왜 왜곡하는지 궁금함, Cloudflare가 사이트 프록시할 때 전체 HTTP 요청을 다 볼 수 있는데 굳이 DNS 질의만으로 통계 집계했을 것 같지 않음, 다른 댓글에서 DNS 얘기가 나오던데 통계 집계 방식에 뭔가 누락된 건지 의문임
Character.AI는 젊은 이용자들 사이에서 엄청 인기 많음, 그래서 2위에 오른 것도 그리 놀랍지 않음
최근에 각 회사가 웹을 얼마나 깊게 크롤링하는지 알아보려고 함, 그 결과 OpenAI 봇이 가장 철저했음, 405개의 링크를 따라갔음 크롤링 데이터 자세히 보기
흥미로운 통계임, 내 허니팟에선 GPTBot이 최대 92단계 깊이까지 왔음, 아마 내 사이트가 덜 흥미로워서인 듯함
Cloudflare가 봇 판정에 있어 AI Bot을 어떻게 정의할지 직접 정함, 예를 들어 Common Crawl의 CCBot은 다양한 목적으로 활용되고 있는데(연구 논문 1만 건 이상 인용됨), Cloudflare는 CCBot을 그냥 "AI Bot"으로 간주함, 그런데 실제로 웹사이트 운영자들 대부분이 어떤 봇이 AI Bot인지, 그 목록이 왜 그렇게 선정됐는지 잘 모를 것 같음
"Top Browser & user agents"에서 Firerox가 점유율 3.8%란 사실이 슬픔 Cloudflare 브라우저 통계
내가 보기엔 Firefox는 상위 5개 브라우저 중 유일하게 기본값으로 사전 설치가 되지 않는 브라우저임, 사람 대부분은 기본값에서 벗어날 만큼 불편함을 느끼지 않음, 그래서 90% 이상은 Firefox처럼 대체 브라우저를 찾기까지 가지 않음
그 초창기에는 Firefox가 더 좋은 브라우저였고, 기존 브라우저들이 제공하지 않던 실질적 기능 덕분에 시장 점유율을 확보했었음, 지금의 Firefox는 차별점 없는 Chrome 아류에 불과함, 애드온 등을 알지 못하는 일반 사용자가 Firefox를 선택할 이유가 없음, Firefox가 정말 유용한 기능(예: 내장 광고/방해요소 차단 등)을 갖추면 시장을 다시 잡을 수 있을 텐데 실제로 그럴 생각이 없어 보임
광고 회사가 만든 브라우저를 어떻게 자발적으로 사용하는지 이해가 안 됨, Chrome 유저 대다수는 이런 사실을 모르긴 하겠지만, 여기 글 읽는 사람 중에도 Google 그리고 Chrome의 본질을 알면서 쓰는 경우도 많을 거임
Firefox가 Cloudflare 통계에서 봇으로 자동 분류되어서 점유율에서 빠지는 영향이 어느 정도나 될지 궁금함
Firefox는 user agent 정보를 제대로(어쩌면 기본적으로도) 제공하지 않아서 이 점유율이 실제보다 더 낮게 나올 수도 있음
DNS request에 기반한 AI 랭킹 데이터가 흥미로움, 4주 단위로 봤을 때 Character.AI가 주말엔 꾸준히 2위, Claude가 3위고 평일엔 둘이 순위가 바뀌는 패턴임, 근데 집계 그래프가 일요일~월요일 구간에서 순위 전환을 보임, 아마 미국 시간대와 UTC 차이에서 기인하는 현상인 듯함
이 데이터는 AI 기업과 퍼블리셔 모두에게 엄청난 가치가 있음, Cloudflare는 누가 언제 무엇을 얼마나 크롤링하는지에 대해 전례 없는 가시성을 갖게 됨, 이게 머지않아 고급 유료 상품(우선 봇 인증 서비스, 상세 크롤링 분석 등)으로 출시될 수도 있다고 생각함
이게 Cloudflare 성장에 매우 큰 레버리지 역할을 할 것임, OpenAI 등 주요 업체로부터 최대한 많은 수익을 뽑아낼 계획임
Anthropic API로 검색한 뒤 사용자 트래픽을 링크 그대로 해당 사이트로 넘기면 Cloudflare가 이 검색을 Anthropic 쪽으로 매칭할 수 없게 됨, 그래서 크롤링 대비 추천 트래픽 비율이 실제와는 다를 수 있음
아마도 이런 통계에는 자신의 정체를 숨기기 위해 레지덴셜 프록시 등을 쓰는 악성 크롤러는 포함되지 않았으리라 생각함
WebBotAuth 인증에 대해 Cloudflare에 아무도 굴복하지 않고 이 시도가 실패하길 진심으로 바람
Hacker News 의견
Generative AI 서비스 순위 보기
Workers AI 모델 순위 보기
LLM Assistant Census
크롤링 데이터 자세히 보기
Cloudflare 브라우저 통계