Cloudflare의 AI 플랫폼: 에이전트를 위한 추론 계층

(blog.cloudflare.com)

3P by GN⁺ 3달전 | ★ favorite | 댓글 1개

다양한 모델과 제공자를 통합해 에이전트형 애플리케이션의 복잡성을 줄이는 통합 추론 계층을 구축
AI Gateway와 Workers AI를 통해 70개 이상의 모델과 12개 이상의 제공자를 하나의 API로 호출 가능하며, 비용과 사용량을 중앙에서 관리
사용자 정의 모델을 직접 배포할 수 있도록 Replicate의 Cog 기술을 활용해 컨테이너 기반 모델 실행을 지원
전 세계 330개 도시의 인프라를 활용해 지연시간을 최소화하고, 장애 발생 시 자동 라우팅으로 안정적 추론 보장
Replicate 팀이 Cloudflare에 합류해 모델 호스팅과 배포를 완전 통합, 에이전트 개발을 위한 단일 플랫폼으로 확장 중

Cloudflare AI Platform 개요

AI 모델의 빠른 변화와 제공자 간 차이로 인해, 여러 모델을 조합해 사용하는 에이전트형 애플리케이션의 복잡성이 증가함
- 예를 들어 고객지원 에이전트는 메시지 분류에 빠른 모델, 계획 수립에 대형 모델, 실행에 경량 모델을 각각 사용
- 단일 제공자에 종속되지 않으면서 비용·신뢰성·지연시간을 통합 관리할 필요가 있음
Cloudflare는 AI Gateway와 Workers AI를 기반으로, 모든 모델을 하나의 API로 호출할 수 있는 통합 추론 계층을 구축함
- 최근 대시보드 개편, 기본 게이트웨이 자동 설정, 업스트림 장애 자동 재시도, 세분화된 로깅 제어 기능을 추가

하나의 카탈로그, 하나의 통합 엔드포인트

AI.run() 바인딩을 통해 Cloudflare Workers에서 타사 모델(OpenAI, Anthropic 등)을 직접 호출 가능
- Cloudflare 호스팅 모델에서 타사 모델로 전환 시 코드 한 줄만 수정하면 됨
- REST API 지원도 곧 제공 예정으로, 어떤 환경에서도 전체 모델 카탈로그 접근 가능
70개 이상의 모델, 12개 이상의 제공자를 하나의 API와 결제 단위로 이용 가능
- 주요 제공자: Alibaba Cloud, AssemblyAI, Bytedance, Google, InWorld, MiniMax, OpenAI, Pixverse, Recraft, Runway, Vidu
- 이미지·비디오·음성 모델을 포함해 멀티모달 애플리케이션 구축 가능
모든 모델 호출이 하나의 API로 통합되어 AI 사용량과 비용을 중앙에서 관리 가능
- 평균적으로 기업은 3.5개의 모델을 여러 제공자에서 호출하고 있으나, AI Gateway는 이를 단일 대시보드에서 추적 가능
- 요청 시 사용자 정의 메타데이터를 포함해 고객별·워크플로별 비용 분석 가능

사용자 모델 직접 배포 (Bring Your Own Model)

AI Gateway는 모든 제공자의 모델을 통합 제공하지만, 사용자 데이터로 미세조정된 모델을 직접 배포할 수 있도록 준비 중
- 현재 엔터프라이즈 고객은 전용 인스턴스에서 커스텀 모델을 실행 중이며, 이를 일반 사용자에게 확장 예정
Cloudflare는 Replicate의 Cog 기술을 활용해 머신러닝 모델을 컨테이너화
- cog.yaml 파일에 의존성 정의, predict.py 파일에 추론 코드를 작성하면 자동으로 패키징
- Cog는 CUDA, Python 버전, 가중치 로딩 등 복잡한 설정을 추상화
cog build 명령으로 컨테이너 이미지를 빌드 후 Workers AI에 업로드하면, Cloudflare가 배포 및 서비스 수행
- 향후 wrangler 명령어, GPU 스냅샷 기반 빠른 콜드 스타트, 고객용 API 제공 예정
- 내부 및 일부 외부 고객과 테스트 중이며, 누구나 자체 모델을 Workers AI에서 사용할 수 있도록 확장 계획

첫 토큰까지의 속도 최적화

AI Gateway + Workers AI 조합은 실시간 응답이 중요한 라이브 에이전트에 특히 유리
- 전체 추론 시간이 3초라도, 첫 토큰이 50ms 빨리 도착하면 사용자 체감 속도 향상
Cloudflare는 전 세계 330개 도시의 데이터센터를 통해 사용자와 추론 엔드포인트 간 네트워크 지연을 최소화
Workers AI는 Kimi K2.5 및 실시간 음성 모델 등 에이전트 특화 오픈소스 모델을 호스팅
- AI Gateway를 통해 호출 시 코드와 추론이 동일 네트워크에서 실행되어 최저 지연시간 달성

자동 장애 조치 기반의 신뢰성

에이전트 워크플로는 단계 간 의존성이 높아 추론 안정성이 핵심
- AI Gateway는 동일 모델이 여러 제공자에 존재할 경우, 한 곳이 장애 시 자동으로 다른 제공자로 라우팅
- 개발자가 별도의 장애 처리 로직을 작성할 필요 없음
Agents SDK를 사용하는 장기 실행형 에이전트의 경우, 스트리밍 추론이연결 끊김에도 복원 가능
- AI Gateway가 스트리밍 응답을 독립적으로 버퍼링해, 중단 시 재연결 후 동일 응답을 재사용 가능
- 중복 과금 없이 동일 토큰을 복원하며, SDK의 체크포인트 기능과 결합 시 사용자에게 중단이 감지되지 않음

Replicate 통합

Replicate 팀이 Cloudflare AI Platform 팀에 합류하여 완전한 통합 진행 중
- Replicate의 모든 모델을 AI Gateway로 이관하고, 호스팅 모델을 Cloudflare 인프라로 재플랫폼화
- 사용자는 기존 Replicate 모델을 AI Gateway에서 호출하거나, Replicate에 배포한 모델을 Workers AI에서 호스팅 가능

시작하기

개발자는 AI Gateway 문서 또는 Workers AI 문서에서 시작 가능
Agents SDK를 통해 Cloudflare 상에서 에이전트 구축 가능

Cloudflare의 역할

Cloudflare는 연결 중심 클라우드(connectivity cloud) 로서 기업 네트워크 보호, 대규모 애플리케이션 구축, 웹 성능 가속, DDoS 방어 및 Zero Trust 보안 지원
무료 앱 1.1.1.1을 통해 더 빠르고 안전한 인터넷 사용 가능
Cloudflare의 사명은 더 나은 인터넷 구축이며, 관련 정보와 채용은 공식 웹사이트에서 확인 가능

GN⁺ 3달전 [-]

Hacker News 의견들

결국 이건 openrouter에 Cloudflare Argo networking을 붙인 형태로 보임
Replicate 인수를 활용해 더 흥미로운 걸 만들 수 있을 것 같음
application-specific RL이 점점 좋아지고 있지만, 이를 scalable하게 배포할 방법이 부족함
Fireworks 같은 곳도 LORA를 확장 배포한다고 하지만 실제로는 잘 안 됨
그래서 지금은 내 앱의 기본 부하를 차고에 있는 3090 여러 대로 직접 호스팅 중임. 웃기지만 한 달에 1천 달러를 아끼는 셈임
- 어떤 모델들을 돌리고 있고, 규모 확장 시 3090이 몇 대 필요한지 궁금함
이건 꽤 유용해 보임. Cloudflare가 좋은 도구들을 잘 모으고 있음
특히 D2는 사실상 유일한 sqlite-as-a-service로, 안정성도 좋고 무료 플랜 한도도 넉넉함
- 문서와 마케팅에서는 “사용자별, 테넌트별 DB” 같은 활용을 강조하지만, 실제로는 Workers와 함께 쓰기 어렵음
  새 DB를 바인딩하려면 Worker를 다시 배포해야 해서 사실상 불가능함
- 우리 경험상 D1의 안정성은 좋지 않았음
  내부 네트워크 계층에서 쿼리가 몇 초, 심하면 수십 초씩 멈춤
  일부 쿼리는 observability 대시보드에도 안 잡혀서 직접 타임아웃 감지를 넣지 않으면 문제를 모름
  트랜잭션도 지원하지 않고, 이슈 스레드에서 PM이 구현 계획이 없다고 밝힘
  데이터 일관성을 보장하려면 Durable Object를 써야 하는데, 그건 또 다른 비용과 트레이드오프가 있음
  아이디어는 좋지만 프로덕션용으로는 신뢰하기 어려움, 취미 프로젝트엔 괜찮음
- D1-R2 백업 시스템을 Cloudflare가 기본 제공했으면 좋겠음
  지금은 Worker에서 커스텀 코드로만 가능함
- D1의 10GB 제한은 너무 작음. 장난감 수준의 프로젝트 외엔 어렵다고 봄
- REST API를 곧 출시한다지만, Cloudflare lock-in을 유도하는 구조 같음
  OpenRouter를 만든다면서 자체 런타임 바인딩만 지원하는 건 이해하기 어려움
Workers AI 모델 목록과
AI 모델 카탈로그의 모델 구성이 다름
“workers-ai/*” 네임스페이스에는 훨씬 적은 모델이 있음. 의도된 건지 궁금함
- 예를 들어 “workers-ai/@cf/google/gemma-4-26b-a4b-it”이나
  “workers-ai/@cf/nvidia/nemotron-3-120b-a12b” 같은 모델은
  gateway.ai.cloudflare.com의 /models 엔드포인트에는 없음. 그런데 호스티드 모델로는 존재함
나는 openrouter를 Cloudflare Workers에서 잘 쓰고 있음
모델이 오프라인일 때 cascading과 waterfalling 기능도 훨씬 뛰어남
V1에서는 그게 아직 안 되는 듯함
openrouter의 모든 점이 마음에 들어서 거의 팬 수준임
추론(inference) 계층 문제는 빠르게 해결되고 있음
다음으로 어려운 건 governance 계층, 즉 에이전트가 무엇을 할 수 있는지와 그 증명임
Cloudflare도 이 부분을 고민하고 있는지 궁금함
- zero-trust 기반 자동 인증 시스템이 있으면 좋겠음
  각 에이전트가 RBAC 자격 증명을 제출해 권한을 얻는 구조를 상상함
Replicate 인수가 드디어 성과를 내는 모습이라 보기 좋음
모델 페이지에 가격 정보가 안 보임
직접 공급자에게 지불하는 것보다 얼마나 비싼지 궁금함
Cloudflare가 원가로 제공하는 걸까?
또 zero data retention이 기본값이 아니고, 일부 공급자에서는 아예 지원되지 않음
OpenAI와 Anthropic 스타일의 completions을 모두 반환할 수 있으면 좋겠음
- Cloudflare 엔지니어임. 곧 가격 정보를 문서와 대시보드에 추가할 예정임
  현재는 공급자 요금과 동일하며, unified billing credits를 통해 소액의 처리 수수료가 붙음
  OpenAI/Anthropic 스타일 completions도 곧 지원 예정임
  unified billing 설명 링크
- Workers AI의 가격 정보는 여기에 있음
결국 이건 openrouter와 유사한 서비스로 보임
- 맞음. 다만 모델 선택 폭이 좁음, 직접 모델을 가져오면 예외임
- 거기에 Argo networking이 추가된 형태임
꽤 큰 발표임. AWS Bedrock 대안으로 충분히 경쟁력 있어 보임
Anthropic이나 AWS보다 가동률(uptime) 이 더 높을 가능성도 있음

답변달기

Cloudflare의 AI 플랫폼: 에이전트를 위한 추론 계층

Cloudflare AI Platform 개요

하나의 카탈로그, 하나의 통합 엔드포인트

사용자 모델 직접 배포 (Bring Your Own Model)

첫 토큰까지의 속도 최적화

자동 장애 조치 기반의 신뢰성

Agents SDK를 사용하는 장기 실행형 에이전트의 경우, 스트리밍 추론이연결 끊김에도 복원 가능

Replicate 통합

시작하기

Cloudflare의 역할

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들