Cloudflare의 AI 플랫폼: 에이전트를 위한 추론 계층
(blog.cloudflare.com)- 다양한 모델과 제공자를 통합해 에이전트형 애플리케이션의 복잡성을 줄이는 통합 추론 계층을 구축
- AI Gateway와 Workers AI를 통해 70개 이상의 모델과 12개 이상의 제공자를 하나의 API로 호출 가능하며, 비용과 사용량을 중앙에서 관리
- 사용자 정의 모델을 직접 배포할 수 있도록 Replicate의 Cog 기술을 활용해 컨테이너 기반 모델 실행을 지원
- 전 세계 330개 도시의 인프라를 활용해 지연시간을 최소화하고, 장애 발생 시 자동 라우팅으로 안정적 추론 보장
- Replicate 팀이 Cloudflare에 합류해 모델 호스팅과 배포를 완전 통합, 에이전트 개발을 위한 단일 플랫폼으로 확장 중
Cloudflare AI Platform 개요
- AI 모델의 빠른 변화와 제공자 간 차이로 인해, 여러 모델을 조합해 사용하는 에이전트형 애플리케이션의 복잡성이 증가함
- 예를 들어 고객지원 에이전트는 메시지 분류에 빠른 모델, 계획 수립에 대형 모델, 실행에 경량 모델을 각각 사용
- 단일 제공자에 종속되지 않으면서 비용·신뢰성·지연시간을 통합 관리할 필요가 있음
- Cloudflare는 AI Gateway와 Workers AI를 기반으로, 모든 모델을 하나의 API로 호출할 수 있는 통합 추론 계층을 구축함
- 최근 대시보드 개편, 기본 게이트웨이 자동 설정, 업스트림 장애 자동 재시도, 세분화된 로깅 제어 기능을 추가
하나의 카탈로그, 하나의 통합 엔드포인트
- AI.run() 바인딩을 통해 Cloudflare Workers에서 타사 모델(OpenAI, Anthropic 등)을 직접 호출 가능
- Cloudflare 호스팅 모델에서 타사 모델로 전환 시 코드 한 줄만 수정하면 됨
- REST API 지원도 곧 제공 예정으로, 어떤 환경에서도 전체 모델 카탈로그 접근 가능
- 70개 이상의 모델, 12개 이상의 제공자를 하나의 API와 결제 단위로 이용 가능
- 주요 제공자: Alibaba Cloud, AssemblyAI, Bytedance, Google, InWorld, MiniMax, OpenAI, Pixverse, Recraft, Runway, Vidu
- 이미지·비디오·음성 모델을 포함해 멀티모달 애플리케이션 구축 가능
- 모든 모델 호출이 하나의 API로 통합되어 AI 사용량과 비용을 중앙에서 관리 가능
- 평균적으로 기업은 3.5개의 모델을 여러 제공자에서 호출하고 있으나, AI Gateway는 이를 단일 대시보드에서 추적 가능
- 요청 시 사용자 정의 메타데이터를 포함해 고객별·워크플로별 비용 분석 가능
사용자 모델 직접 배포 (Bring Your Own Model)
- AI Gateway는 모든 제공자의 모델을 통합 제공하지만, 사용자 데이터로 미세조정된 모델을 직접 배포할 수 있도록 준비 중
- 현재 엔터프라이즈 고객은 전용 인스턴스에서 커스텀 모델을 실행 중이며, 이를 일반 사용자에게 확장 예정
- Cloudflare는 Replicate의 Cog 기술을 활용해 머신러닝 모델을 컨테이너화
cog.yaml파일에 의존성 정의,predict.py파일에 추론 코드를 작성하면 자동으로 패키징- Cog는 CUDA, Python 버전, 가중치 로딩 등 복잡한 설정을 추상화
cog build명령으로 컨테이너 이미지를 빌드 후 Workers AI에 업로드하면, Cloudflare가 배포 및 서비스 수행- 향후 wrangler 명령어, GPU 스냅샷 기반 빠른 콜드 스타트, 고객용 API 제공 예정
- 내부 및 일부 외부 고객과 테스트 중이며, 누구나 자체 모델을 Workers AI에서 사용할 수 있도록 확장 계획
첫 토큰까지의 속도 최적화
- AI Gateway + Workers AI 조합은 실시간 응답이 중요한 라이브 에이전트에 특히 유리
- 전체 추론 시간이 3초라도, 첫 토큰이 50ms 빨리 도착하면 사용자 체감 속도 향상
- Cloudflare는 전 세계 330개 도시의 데이터센터를 통해 사용자와 추론 엔드포인트 간 네트워크 지연을 최소화
- Workers AI는 Kimi K2.5 및 실시간 음성 모델 등 에이전트 특화 오픈소스 모델을 호스팅
- AI Gateway를 통해 호출 시 코드와 추론이 동일 네트워크에서 실행되어 최저 지연시간 달성
자동 장애 조치 기반의 신뢰성
- 에이전트 워크플로는 단계 간 의존성이 높아 추론 안정성이 핵심
- AI Gateway는 동일 모델이 여러 제공자에 존재할 경우, 한 곳이 장애 시 자동으로 다른 제공자로 라우팅
- 개발자가 별도의 장애 처리 로직을 작성할 필요 없음
-
Agents SDK를 사용하는 장기 실행형 에이전트의 경우, 스트리밍 추론이연결 끊김에도 복원 가능
- AI Gateway가 스트리밍 응답을 독립적으로 버퍼링해, 중단 시 재연결 후 동일 응답을 재사용 가능
- 중복 과금 없이 동일 토큰을 복원하며, SDK의 체크포인트 기능과 결합 시 사용자에게 중단이 감지되지 않음
Replicate 통합
- Replicate 팀이 Cloudflare AI Platform 팀에 합류하여 완전한 통합 진행 중
- Replicate의 모든 모델을 AI Gateway로 이관하고, 호스팅 모델을 Cloudflare 인프라로 재플랫폼화
- 사용자는 기존 Replicate 모델을 AI Gateway에서 호출하거나, Replicate에 배포한 모델을 Workers AI에서 호스팅 가능
시작하기
- 개발자는 AI Gateway 문서 또는 Workers AI 문서에서 시작 가능
- Agents SDK를 통해 Cloudflare 상에서 에이전트 구축 가능
Cloudflare의 역할
- Cloudflare는 연결 중심 클라우드(connectivity cloud) 로서 기업 네트워크 보호, 대규모 애플리케이션 구축, 웹 성능 가속, DDoS 방어 및 Zero Trust 보안 지원
- 무료 앱 1.1.1.1을 통해 더 빠르고 안전한 인터넷 사용 가능
- Cloudflare의 사명은 더 나은 인터넷 구축이며, 관련 정보와 채용은 공식 웹사이트에서 확인 가능
Hacker News 의견들
-
결국 이건 openrouter에 Cloudflare Argo networking을 붙인 형태로 보임
Replicate 인수를 활용해 더 흥미로운 걸 만들 수 있을 것 같음
application-specific RL이 점점 좋아지고 있지만, 이를 scalable하게 배포할 방법이 부족함
Fireworks 같은 곳도 LORA를 확장 배포한다고 하지만 실제로는 잘 안 됨
그래서 지금은 내 앱의 기본 부하를 차고에 있는 3090 여러 대로 직접 호스팅 중임. 웃기지만 한 달에 1천 달러를 아끼는 셈임- 어떤 모델들을 돌리고 있고, 규모 확장 시 3090이 몇 대 필요한지 궁금함
-
이건 꽤 유용해 보임. Cloudflare가 좋은 도구들을 잘 모으고 있음
특히 D2는 사실상 유일한 sqlite-as-a-service로, 안정성도 좋고 무료 플랜 한도도 넉넉함- 문서와 마케팅에서는 “사용자별, 테넌트별 DB” 같은 활용을 강조하지만, 실제로는 Workers와 함께 쓰기 어렵음
새 DB를 바인딩하려면 Worker를 다시 배포해야 해서 사실상 불가능함 - 우리 경험상 D1의 안정성은 좋지 않았음
내부 네트워크 계층에서 쿼리가 몇 초, 심하면 수십 초씩 멈춤
일부 쿼리는 observability 대시보드에도 안 잡혀서 직접 타임아웃 감지를 넣지 않으면 문제를 모름
트랜잭션도 지원하지 않고, 이슈 스레드에서 PM이 구현 계획이 없다고 밝힘
데이터 일관성을 보장하려면 Durable Object를 써야 하는데, 그건 또 다른 비용과 트레이드오프가 있음
아이디어는 좋지만 프로덕션용으로는 신뢰하기 어려움, 취미 프로젝트엔 괜찮음 - D1-R2 백업 시스템을 Cloudflare가 기본 제공했으면 좋겠음
지금은 Worker에서 커스텀 코드로만 가능함 - D1의 10GB 제한은 너무 작음. 장난감 수준의 프로젝트 외엔 어렵다고 봄
- REST API를 곧 출시한다지만, Cloudflare lock-in을 유도하는 구조 같음
OpenRouter를 만든다면서 자체 런타임 바인딩만 지원하는 건 이해하기 어려움
- 문서와 마케팅에서는 “사용자별, 테넌트별 DB” 같은 활용을 강조하지만, 실제로는 Workers와 함께 쓰기 어렵음
-
Workers AI 모델 목록과
AI 모델 카탈로그의 모델 구성이 다름
“workers-ai/*” 네임스페이스에는 훨씬 적은 모델이 있음. 의도된 건지 궁금함- 예를 들어 “workers-ai/@cf/google/gemma-4-26b-a4b-it”이나
“workers-ai/@cf/nvidia/nemotron-3-120b-a12b” 같은 모델은
gateway.ai.cloudflare.com의 /models 엔드포인트에는 없음. 그런데 호스티드 모델로는 존재함
- 예를 들어 “workers-ai/@cf/google/gemma-4-26b-a4b-it”이나
-
나는 openrouter를 Cloudflare Workers에서 잘 쓰고 있음
모델이 오프라인일 때 cascading과 waterfalling 기능도 훨씬 뛰어남
V1에서는 그게 아직 안 되는 듯함
openrouter의 모든 점이 마음에 들어서 거의 팬 수준임 -
추론(inference) 계층 문제는 빠르게 해결되고 있음
다음으로 어려운 건 governance 계층, 즉 에이전트가 무엇을 할 수 있는지와 그 증명임
Cloudflare도 이 부분을 고민하고 있는지 궁금함- zero-trust 기반 자동 인증 시스템이 있으면 좋겠음
각 에이전트가 RBAC 자격 증명을 제출해 권한을 얻는 구조를 상상함
- zero-trust 기반 자동 인증 시스템이 있으면 좋겠음
-
Replicate 인수가 드디어 성과를 내는 모습이라 보기 좋음
-
모델 페이지에 가격 정보가 안 보임
직접 공급자에게 지불하는 것보다 얼마나 비싼지 궁금함
Cloudflare가 원가로 제공하는 걸까?
또 zero data retention이 기본값이 아니고, 일부 공급자에서는 아예 지원되지 않음
OpenAI와 Anthropic 스타일의 completions을 모두 반환할 수 있으면 좋겠음- Cloudflare 엔지니어임. 곧 가격 정보를 문서와 대시보드에 추가할 예정임
현재는 공급자 요금과 동일하며, unified billing credits를 통해 소액의 처리 수수료가 붙음
OpenAI/Anthropic 스타일 completions도 곧 지원 예정임
unified billing 설명 링크 - Workers AI의 가격 정보는 여기에 있음
- Cloudflare 엔지니어임. 곧 가격 정보를 문서와 대시보드에 추가할 예정임
-
결국 이건 openrouter와 유사한 서비스로 보임
- 맞음. 다만 모델 선택 폭이 좁음, 직접 모델을 가져오면 예외임
- 거기에 Argo networking이 추가된 형태임
-
꽤 큰 발표임. AWS Bedrock 대안으로 충분히 경쟁력 있어 보임
Anthropic이나 AWS보다 가동률(uptime) 이 더 높을 가능성도 있음