Hacker News 의견
  • 나는 Google Cloud Run을 정말 좋아해서 최고의 선택지라고 적극 추천하는 입장. 다만 Cloud Run GPU는 추천하기 어렵다는 판단. 인스턴스 기반 과금이 비효율적이고, GPU 옵션도 한정적. 모델을 GPU 메모리에서 로딩/언로딩할 때 성능 저하로 서버리스 환경에는 느림이라는 한계. 실제 비용을 비교하면 하루 30%만 활용해도 VM+GPU 조합이 더 경제적이라는 계산. (관련 블로그 링크)

    • Google 부사장. 피드백 고마움. 지금 가격 구조에서는 서비스 용량이 거의 고정적으로 필요한 경우, VM 미리 프로비저닝하는 게 더 비용 효율적이라는 점 일반적으로 동의. 반면 Cloud Run GPU는 피크 수요가 갑자기 생기는 신제품이나 AI 앱처럼 최소한의 유휴 비용, 매우 빠른 시작, 드물고 불규칙한 트래픽에 맞는 환경에 최적화라는 생각

    • Cloud Run이 정말 훌륭한 서비스라는 인상. AWS의 ECS/Fargate보다 훨씬 다루기 쉽다는 경험

    • GCP에서 VM을 믿고 사용할 수 없다는 게 가장 큰 문제. 주요 클라우드들 모두 이런 이슈 존재. AWS에서는 80GB GPU를 장기 예약 없이 구할 수 없고, 가격은 터무니없음. GCP도 마찬가지로 비싸고 가용성 낮음. 대기업들은 스타트업 친화적이라고 말하지만 실제 경험은 그렇지 않음. runpod, nebius, lambda 등 네오클라우드들이 훨씬 나은 서비스 제공. 대형 클라우드는 고정 수요에 안주하며 스타트업을 배려하지 않아 장기 성장에 큰 타격을 줄 실수 중이라는 생각

    • Cloud Run에서 상반된 경험을 함. 원인 불명 스케일 아웃/재시작으로 인해 결국 유료 지원 서비스를 직접 구입해 문의했지만 답을 못 찾았음. 결국 직접 VM을 셀프매니지로 전환. 그 후로 개선됐는지는 모르겠음

    • Cloud Run이 최고라는 의견에 대해, 직접 수치를 확인해보고 싶다는 입장. 장난감 프로젝트엔 좋지만, 실무에서는 비용 구덩이임. 프로젝트 중 오토스케일 이슈가 지속적으로 발생, '스케일 투 제로'가 이론상 좋아 보이지만 실제로는 워밍업 과정에서 하나의 요청에 여러 개 컨테이너가 뜨고 오랜 시간 유지되는 경우 많음. 가시적인 CPU나 네트워크 사용이 없는 원인불명의 컨테이너도 비용이 계속 청구됨. Java나 Python 프로젝트는 cold start 속도가 심각하게 느리며, Go/C++/Rust는 경험이 없어서 잘 모르겠음

  • 대형 클라우드의 복잡함에 더해, 무제한 YOLO(마구잡이) 요금 청구로 밤새 신용카드가 텅텅 빌 위험까지 있음이라는 우려. Modal과 vast.ai에 계속 머무를 예정이라는 결론

    • 개인/스몰 프로젝트 사용자의 입장에서 비용 상한선(CAP)을 제공하지 않는 것은 GCP의 큰 약점. Cloud Run의 경우 동시 처리(concurrency) 제한, 인스턴스 수 제한을 통해 간접적으로라도 비용을 막을 수 있음. 그래도 온전한 CAP에는 못 미침

    • AWS에서 인스턴스 종료를 깜빡해 높은 비용을 냈던 기억이 있어, Cloud Run의 scale to zero와 초단위 과금이 큰 장점. 시작이 정말 빠르다면 내 워크로드에 완벽할 듯한 확신

    • Cloud Run에서는 최대 인스턴스 수 설정으로 최대 비용을 간접적으로 제한할 수 있음. App Engine 시절의 '하드 캡'은 실제로 서비스가 뜨는 순간(예: HN에 올라갔을 때) 완전히 멈춰버리는 부작용 발생. 개인적으로는 알림 기반 예산 관리가 더 나은 선택

    • 내가 실제로 Datadog을 프로덕션에서 버린 이유도 바로 이 때문. 플랫폼들이 사용자가 실수로 초과 청구를 당해 생기는 부정적인 인상을 감내할 만한 가치가 있는지 의문

    • Modal이나 vast.ai가 어떻게 YOLO 청구를 막는지 명확히 모르겠음. 선불 구조인지, 직접적인 CAP을 제공하는지 궁금

  • 직접 가격을 비교하니 확실히 메리트가 느껴지지 않는다는 인상. 구글, runpod.io, vast.ai의 시간당 요금을 구체적으로 표로 정리:

      1x L4 24GB:  google: $0.71, runpod.io: $0.43, 스팟: $0.22  
      4x L4 24GB:  google: $4.00, runpod.io: $1.72, 스팟: $0.88  
      1x A100 80GB: google: $5.07, runpod.io: $1.64, 스팟: $0.82, vast.ai $0.880, 스팟: $0.501  
      1x H100 80GB: google: $11.06, runpod.io: $2.79, 스팟: $1.65, vast.ai $1.535, 스팟: $0.473  
      8x H200 141GB: google: $88.08, runpod.io: $31.92, vast.ai $15.470, 스팟: $14.563
    

    구글 가격은 한 달 24/7 구동 기준인 느낌이 있는데, runpod.io와 vast.ai는 초단위 과금. 구글 GPU의 스팟 요금은 못 찾음

    • "컴퓨트 인스턴스 생성"에서 스팟 요금을 바로 확인할 수 있음. 예를 들어 GCP에서 1xH100 spot은 시간당 $2.55, 장기 이용할수록 할인이 적용됨. 실제 기업 고객이라면 이런 가격도 할인 가능. 일반 유저만 이런 정가로 결제

    • vast.ai 요금 출처가 궁금. 홈페이지 기준 8xH200 옵션은 대부분 시간당 $21.65 이상으로 보임

    • 구글의 가격 책정이 24/7 전제로 잡혀있다는 근거가 뭔지 궁금. Cloud Run 공식 요금 페이지를 보면 실제 사용량만 100밀리초 단위로 과금, 오토스케일링도 유휴 인스턴스는 15분 대기 후 자동 축소된다는 설명 (Cloud Run PM)

    • Cloud Run GPU에서는 1xL4만 선택 가능한 것 아닌지 의문

    • 구글 가격도 초단위 과금이라면, 20분 미만 사용시 오히려 구글이 유리할 수도 있다는 의견

  • 나는 Modal의 열렬한 팬으로, serverless scale-to-zero GPU를 오랫동안 사용 중. 필요할 때 큰 규모로 손쉽게 스케일 업, 동시에 개발 부담도 현저히 적음. 대형 제공업체가 이 시장에 뛰어드는 것이 흥미로움. Modal로 옮긴 계기도 기존 대형 클라우드에선 이런 기능(AWS Lambda에선 GPU 미지원)을 제공하지 않았기 때문. 이제 모든 주요 클라우드가 이런 서비스 방향으로 가는 것인지 궁금

    • Modal은 정말 훌륭함. 자체적으로 공개한 LP(선형계획) 솔버 심층 기술도 인상적. Python 개발자라면 Coiled도 추천. Modal만큼 빠르진 않지만 GPU VM을 쉽게 스핀업, 모든 것이 자신의 클라우드 계정에서 실행됨. CUDA 드라이버/파이썬 라이브러리 동기화 등 편리한 패키지 관리 제공. (참고: Coiled 소속, 하지만 진심 추천)

    • HIPAA 준수 워크로드까지 지원하는 점도 기대 밖의 장점

    • Modal의 cold start 속도가 10GB 이상의 모델 기준 가장 빠름

    • Modal 문서도 매우 잘 정리되어 있다는 점 인상 깊음

  • Cloud Run이 다른 서비스보다 좋은 가장 큰 이유는 오토스케일, scale-to-zero. 실제 사용이 없을 땐 실질적으로 과금이 0, 인스턴스 최대 수를 지정해 최대 비용도 안정적으로 관리 가능. 단, CPU 버전만 쓰는 기준이고 매우 신뢰도 높고 사용이 쉬움

    • 단, 일반 Cloud Run도 냉시작 부팅 시간이 길 때(약 3~30초) 많아, scale-to-zero 활용 시 지연 이슈 있음
  • 유럽의 소형 GPU 클라우드 제공사 DataCrunch(관계 없음)가 RunPod 등보다 저렴하게 Nvidia GPU VM을 제공

    1x A100 80GB 1.37유로/시간
    1x H100 80GB 2.19유로/시간

    • lambda.ai에서는 1x H100 80GB VM이 시간당 $2.49에 제공됨. 환율로 딱 2.19유로. 이게 우연인지 업계의 보이지 않는 상한선이 있는 건지 궁금

    • Vast.ai에서 P2P 방식으로 2x A100을 $0.8/시간에 사용할 수 있음(즉 A100 하나에 $0.4/시간). 본인은 단순 만족 이용자일 뿐. 네트워크 속도는 유의해야 함. 일부 호스트는 대역폭 공유라 실제 속도가 광고와 다를 수 있음. 대용량 데이터 이동 시 주의 필요

  • Cloud Run/GKE 담당 VP/GM. 관련해 질문 받을 준비 되어 있음. 많은 관심 고마움

  • Cloud Run을 좋아하며, 새 기능도 흥미롭게 보임. 다만 아쉬운 점은 self hosted GitHub runners를 돌리고 싶어도 root 권한 이슈로 지원이 안 됐던 점. 또 새로 도입된 worker pool 기능도 실전에서는 scaler를 직접 짜야 해서 내장된 기능이 아니었던 점

    • Serverless 및 Worker Pools Autoscaling 담당 Eng Manager. 현재 로드맵을 적극적으로 정의하는 중이고, 실제 워크로드 사용 예시를 메일로 알려주면 큰 도움이 될 것 같음. worker pools와 스케일링이 필요한 워크로드에 대해 의견 기다림
  • vertex.ai로 모델을 테스트용으로 계속 돌리다가 꺼두는 걸 잊어 $1000 요금이 청구된 경험 후, 이번에 Cloud Run이 내 go to 서비스가 될 듯. 수년간 Cloud Run으로 프러덕션 마이크로서비스 및 취미 프로젝트 운영, 단순함과 비용 효율 모두 만족

  • 만약 이해가 맞다면, Hugging Face 같은 임의 모델을 띄운 API를 만들 수 있고 토큰별 과금 구조는 아니지만 사용 부하가 적을 경우 상당히 저렴하게 운용 가능하다는 판단. 실제로 그렇다면 큰 혁신. 기존 대부분의 공급업체는 커스텀 모델을 운영하려면 월 구독료 요구

    • 기본적으로 맞다는 설명. 단, cold start 속도가 매우 느릴 수 있음(30~60초). scale to zero의 단점. 또한 컨테이너 저장 등 몇 가지 소액 월정 요금도 부과되는 점 유의

    • Runpod, vast, coreweave, replicate 등 서버리스 GPU 추론을 지원하는 다양한 대안 존재