1P by GN⁺ 5시간전 | ★ favorite | 댓글 1개
  • 다양한 모델과 제공자를 통합해 에이전트형 애플리케이션의 복잡성을 줄이는 통합 추론 계층을 구축
  • AI GatewayWorkers AI를 통해 70개 이상의 모델과 12개 이상의 제공자를 하나의 API로 호출 가능하며, 비용과 사용량을 중앙에서 관리
  • 사용자 정의 모델을 직접 배포할 수 있도록 Replicate의 Cog 기술을 활용해 컨테이너 기반 모델 실행을 지원
  • 전 세계 330개 도시의 인프라를 활용해 지연시간을 최소화하고, 장애 발생 시 자동 라우팅으로 안정적 추론 보장
  • Replicate 팀이 Cloudflare에 합류해 모델 호스팅과 배포를 완전 통합, 에이전트 개발을 위한 단일 플랫폼으로 확장 중

Cloudflare AI Platform 개요

  • AI 모델의 빠른 변화와 제공자 간 차이로 인해, 여러 모델을 조합해 사용하는 에이전트형 애플리케이션의 복잡성이 증가함
    • 예를 들어 고객지원 에이전트는 메시지 분류에 빠른 모델, 계획 수립에 대형 모델, 실행에 경량 모델을 각각 사용
    • 단일 제공자에 종속되지 않으면서 비용·신뢰성·지연시간을 통합 관리할 필요가 있음
  • Cloudflare는 AI GatewayWorkers AI를 기반으로, 모든 모델을 하나의 API로 호출할 수 있는 통합 추론 계층을 구축함
    • 최근 대시보드 개편, 기본 게이트웨이 자동 설정, 업스트림 장애 자동 재시도, 세분화된 로깅 제어 기능을 추가

하나의 카탈로그, 하나의 통합 엔드포인트

  • AI.run() 바인딩을 통해 Cloudflare Workers에서 타사 모델(OpenAI, Anthropic 등)을 직접 호출 가능
    • Cloudflare 호스팅 모델에서 타사 모델로 전환 시 코드 한 줄만 수정하면 됨
    • REST API 지원도 곧 제공 예정으로, 어떤 환경에서도 전체 모델 카탈로그 접근 가능
  • 70개 이상의 모델, 12개 이상의 제공자를 하나의 API와 결제 단위로 이용 가능
    • 주요 제공자: Alibaba Cloud, AssemblyAI, Bytedance, Google, InWorld, MiniMax, OpenAI, Pixverse, Recraft, Runway, Vidu
    • 이미지·비디오·음성 모델을 포함해 멀티모달 애플리케이션 구축 가능
  • 모든 모델 호출이 하나의 API로 통합되어 AI 사용량과 비용을 중앙에서 관리 가능
    • 평균적으로 기업은 3.5개의 모델을 여러 제공자에서 호출하고 있으나, AI Gateway는 이를 단일 대시보드에서 추적 가능
    • 요청 시 사용자 정의 메타데이터를 포함해 고객별·워크플로별 비용 분석 가능

사용자 모델 직접 배포 (Bring Your Own Model)

  • AI Gateway는 모든 제공자의 모델을 통합 제공하지만, 사용자 데이터로 미세조정된 모델을 직접 배포할 수 있도록 준비 중
    • 현재 엔터프라이즈 고객은 전용 인스턴스에서 커스텀 모델을 실행 중이며, 이를 일반 사용자에게 확장 예정
  • Cloudflare는 Replicate의 Cog 기술을 활용해 머신러닝 모델을 컨테이너화
    • cog.yaml 파일에 의존성 정의, predict.py 파일에 추론 코드를 작성하면 자동으로 패키징
    • Cog는 CUDA, Python 버전, 가중치 로딩 등 복잡한 설정을 추상화
  • cog build 명령으로 컨테이너 이미지를 빌드 후 Workers AI에 업로드하면, Cloudflare가 배포 및 서비스 수행
    • 향후 wrangler 명령어, GPU 스냅샷 기반 빠른 콜드 스타트, 고객용 API 제공 예정
    • 내부 및 일부 외부 고객과 테스트 중이며, 누구나 자체 모델을 Workers AI에서 사용할 수 있도록 확장 계획

첫 토큰까지의 속도 최적화

  • AI Gateway + Workers AI 조합은 실시간 응답이 중요한 라이브 에이전트에 특히 유리
    • 전체 추론 시간이 3초라도, 첫 토큰이 50ms 빨리 도착하면 사용자 체감 속도 향상
  • Cloudflare는 전 세계 330개 도시의 데이터센터를 통해 사용자와 추론 엔드포인트 간 네트워크 지연을 최소화
  • Workers AI는 Kimi K2.5 및 실시간 음성 모델 등 에이전트 특화 오픈소스 모델을 호스팅
    • AI Gateway를 통해 호출 시 코드와 추론이 동일 네트워크에서 실행되어 최저 지연시간 달성

자동 장애 조치 기반의 신뢰성

  • 에이전트 워크플로는 단계 간 의존성이 높아 추론 안정성이 핵심
    • AI Gateway는 동일 모델이 여러 제공자에 존재할 경우, 한 곳이 장애 시 자동으로 다른 제공자로 라우팅
    • 개발자가 별도의 장애 처리 로직을 작성할 필요 없음
  • Agents SDK를 사용하는 장기 실행형 에이전트의 경우, 스트리밍 추론이연결 끊김에도 복원 가능

    • AI Gateway가 스트리밍 응답을 독립적으로 버퍼링해, 중단 시 재연결 후 동일 응답을 재사용 가능
    • 중복 과금 없이 동일 토큰을 복원하며, SDK의 체크포인트 기능과 결합 시 사용자에게 중단이 감지되지 않음

Replicate 통합

  • Replicate 팀이 Cloudflare AI Platform 팀에 합류하여 완전한 통합 진행 중
    • Replicate의 모든 모델을 AI Gateway로 이관하고, 호스팅 모델을 Cloudflare 인프라로 재플랫폼화
    • 사용자는 기존 Replicate 모델을 AI Gateway에서 호출하거나, Replicate에 배포한 모델을 Workers AI에서 호스팅 가능

시작하기

Cloudflare의 역할

  • Cloudflare는 연결 중심 클라우드(connectivity cloud) 로서 기업 네트워크 보호, 대규모 애플리케이션 구축, 웹 성능 가속, DDoS 방어Zero Trust 보안 지원
  • 무료 앱 1.1.1.1을 통해 더 빠르고 안전한 인터넷 사용 가능
  • Cloudflare의 사명은 더 나은 인터넷 구축이며, 관련 정보와 채용은 공식 웹사이트에서 확인 가능
Hacker News 의견들
  • 결국 이건 openrouterCloudflare Argo networking을 붙인 형태로 보임
    Replicate 인수를 활용해 더 흥미로운 걸 만들 수 있을 것 같음
    application-specific RL이 점점 좋아지고 있지만, 이를 scalable하게 배포할 방법이 부족함
    Fireworks 같은 곳도 LORA를 확장 배포한다고 하지만 실제로는 잘 안 됨
    그래서 지금은 내 앱의 기본 부하를 차고에 있는 3090 여러 대로 직접 호스팅 중임. 웃기지만 한 달에 1천 달러를 아끼는 셈임

    • 어떤 모델들을 돌리고 있고, 규모 확장 시 3090이 몇 대 필요한지 궁금함
  • 이건 꽤 유용해 보임. Cloudflare가 좋은 도구들을 잘 모으고 있음
    특히 D2는 사실상 유일한 sqlite-as-a-service로, 안정성도 좋고 무료 플랜 한도도 넉넉함

    • 문서와 마케팅에서는 “사용자별, 테넌트별 DB” 같은 활용을 강조하지만, 실제로는 Workers와 함께 쓰기 어렵음
      새 DB를 바인딩하려면 Worker를 다시 배포해야 해서 사실상 불가능함
    • 우리 경험상 D1의 안정성은 좋지 않았음
      내부 네트워크 계층에서 쿼리가 몇 초, 심하면 수십 초씩 멈춤
      일부 쿼리는 observability 대시보드에도 안 잡혀서 직접 타임아웃 감지를 넣지 않으면 문제를 모름
      트랜잭션도 지원하지 않고, 이슈 스레드에서 PM이 구현 계획이 없다고 밝힘
      데이터 일관성을 보장하려면 Durable Object를 써야 하는데, 그건 또 다른 비용과 트레이드오프가 있음
      아이디어는 좋지만 프로덕션용으로는 신뢰하기 어려움, 취미 프로젝트엔 괜찮음
    • D1-R2 백업 시스템을 Cloudflare가 기본 제공했으면 좋겠음
      지금은 Worker에서 커스텀 코드로만 가능함
    • D1의 10GB 제한은 너무 작음. 장난감 수준의 프로젝트 외엔 어렵다고 봄
    • REST API를 곧 출시한다지만, Cloudflare lock-in을 유도하는 구조 같음
      OpenRouter를 만든다면서 자체 런타임 바인딩만 지원하는 건 이해하기 어려움
  • Workers AI 모델 목록
    AI 모델 카탈로그의 모델 구성이 다름
    “workers-ai/*” 네임스페이스에는 훨씬 적은 모델이 있음. 의도된 건지 궁금함

    • 예를 들어 “workers-ai/@cf/google/gemma-4-26b-a4b-it”이나
      “workers-ai/@cf/nvidia/nemotron-3-120b-a12b” 같은 모델은
      gateway.ai.cloudflare.com의 /models 엔드포인트에는 없음. 그런데 호스티드 모델로는 존재함
  • 나는 openrouter를 Cloudflare Workers에서 잘 쓰고 있음
    모델이 오프라인일 때 cascading과 waterfalling 기능도 훨씬 뛰어남
    V1에서는 그게 아직 안 되는 듯함
    openrouter의 모든 점이 마음에 들어서 거의 팬 수준임

  • 추론(inference) 계층 문제는 빠르게 해결되고 있음
    다음으로 어려운 건 governance 계층, 즉 에이전트가 무엇을 할 수 있는지와 그 증명임
    Cloudflare도 이 부분을 고민하고 있는지 궁금함

    • zero-trust 기반 자동 인증 시스템이 있으면 좋겠음
      각 에이전트가 RBAC 자격 증명을 제출해 권한을 얻는 구조를 상상함
  • Replicate 인수가 드디어 성과를 내는 모습이라 보기 좋음

  • 모델 페이지가격 정보가 안 보임
    직접 공급자에게 지불하는 것보다 얼마나 비싼지 궁금함
    Cloudflare가 원가로 제공하는 걸까?
    zero data retention이 기본값이 아니고, 일부 공급자에서는 아예 지원되지 않음
    OpenAI와 Anthropic 스타일의 completions을 모두 반환할 수 있으면 좋겠음

    • Cloudflare 엔지니어임. 곧 가격 정보를 문서와 대시보드에 추가할 예정임
      현재는 공급자 요금과 동일하며, unified billing credits를 통해 소액의 처리 수수료가 붙음
      OpenAI/Anthropic 스타일 completions도 곧 지원 예정임
      unified billing 설명 링크
    • Workers AI의 가격 정보는 여기에 있음
  • 결국 이건 openrouter와 유사한 서비스로 보임

    • 맞음. 다만 모델 선택 폭이 좁음, 직접 모델을 가져오면 예외임
    • 거기에 Argo networking이 추가된 형태임
  • 꽤 큰 발표임. AWS Bedrock 대안으로 충분히 경쟁력 있어 보임
    Anthropic이나 AWS보다 가동률(uptime) 이 더 높을 가능성도 있음