Cloud Run GPU, 이제 공식 지원

▲

GN⁺ 11달전 | parent | ★ favorite | on: Cloud Run GPU, 이제 공식 지원 - 모두를 위한 AI 워크로드 실행을 더 쉽게 만듦(cloud.google.com)

Hacker News 의견

나는 Google Cloud Run을 정말 좋아해서 최고의 선택지라고 적극 추천하는 입장. 다만 Cloud Run GPU는 추천하기 어렵다는 판단. 인스턴스 기반 과금이 비효율적이고, GPU 옵션도 한정적. 모델을 GPU 메모리에서 로딩/언로딩할 때 성능 저하로 서버리스 환경에는 느림이라는 한계. 실제 비용을 비교하면 하루 30%만 활용해도 VM+GPU 조합이 더 경제적이라는 계산. (관련 블로그 링크)
- Google 부사장. 피드백 고마움. 지금 가격 구조에서는 서비스 용량이 거의 고정적으로 필요한 경우, VM 미리 프로비저닝하는 게 더 비용 효율적이라는 점 일반적으로 동의. 반면 Cloud Run GPU는 피크 수요가 갑자기 생기는 신제품이나 AI 앱처럼 최소한의 유휴 비용, 매우 빠른 시작, 드물고 불규칙한 트래픽에 맞는 환경에 최적화라는 생각
- Cloud Run이 정말 훌륭한 서비스라는 인상. AWS의 ECS/Fargate보다 훨씬 다루기 쉽다는 경험
- GCP에서 VM을 믿고 사용할 수 없다는 게 가장 큰 문제. 주요 클라우드들 모두 이런 이슈 존재. AWS에서는 80GB GPU를 장기 예약 없이 구할 수 없고, 가격은 터무니없음. GCP도 마찬가지로 비싸고 가용성 낮음. 대기업들은 스타트업 친화적이라고 말하지만 실제 경험은 그렇지 않음. runpod, nebius, lambda 등 네오클라우드들이 훨씬 나은 서비스 제공. 대형 클라우드는 고정 수요에 안주하며 스타트업을 배려하지 않아 장기 성장에 큰 타격을 줄 실수 중이라는 생각
- Cloud Run에서 상반된 경험을 함. 원인 불명 스케일 아웃/재시작으로 인해 결국 유료 지원 서비스를 직접 구입해 문의했지만 답을 못 찾았음. 결국 직접 VM을 셀프매니지로 전환. 그 후로 개선됐는지는 모르겠음
- Cloud Run이 최고라는 의견에 대해, 직접 수치를 확인해보고 싶다는 입장. 장난감 프로젝트엔 좋지만, 실무에서는 비용 구덩이임. 프로젝트 중 오토스케일 이슈가 지속적으로 발생, '스케일 투 제로'가 이론상 좋아 보이지만 실제로는 워밍업 과정에서 하나의 요청에 여러 개 컨테이너가 뜨고 오랜 시간 유지되는 경우 많음. 가시적인 CPU나 네트워크 사용이 없는 원인불명의 컨테이너도 비용이 계속 청구됨. Java나 Python 프로젝트는 cold start 속도가 심각하게 느리며, Go/C++/Rust는 경험이 없어서 잘 모르겠음
대형 클라우드의 복잡함에 더해, 무제한 YOLO(마구잡이) 요금 청구로 밤새 신용카드가 텅텅 빌 위험까지 있음이라는 우려. Modal과 vast.ai에 계속 머무를 예정이라는 결론
- 개인/스몰 프로젝트 사용자의 입장에서 비용 상한선(CAP)을 제공하지 않는 것은 GCP의 큰 약점. Cloud Run의 경우 동시 처리(concurrency) 제한, 인스턴스 수 제한을 통해 간접적으로라도 비용을 막을 수 있음. 그래도 온전한 CAP에는 못 미침
- AWS에서 인스턴스 종료를 깜빡해 높은 비용을 냈던 기억이 있어, Cloud Run의 scale to zero와 초단위 과금이 큰 장점. 시작이 정말 빠르다면 내 워크로드에 완벽할 듯한 확신
- Cloud Run에서는 최대 인스턴스 수 설정으로 최대 비용을 간접적으로 제한할 수 있음. App Engine 시절의 '하드 캡'은 실제로 서비스가 뜨는 순간(예: HN에 올라갔을 때) 완전히 멈춰버리는 부작용 발생. 개인적으로는 알림 기반 예산 관리가 더 나은 선택
- 내가 실제로 Datadog을 프로덕션에서 버린 이유도 바로 이 때문. 플랫폼들이 사용자가 실수로 초과 청구를 당해 생기는 부정적인 인상을 감내할 만한 가치가 있는지 의문
- Modal이나 vast.ai가 어떻게 YOLO 청구를 막는지 명확히 모르겠음. 선불 구조인지, 직접적인 CAP을 제공하는지 궁금
직접 가격을 비교하니 확실히 메리트가 느껴지지 않는다는 인상. 구글, runpod.io, vast.ai의 시간당 요금을 구체적으로 표로 정리:
```
  1x L4 24GB:  google: $0.71, runpod.io: $0.43, 스팟: $0.22  
  4x L4 24GB:  google: $4.00, runpod.io: $1.72, 스팟: $0.88  
  1x A100 80GB: google: $5.07, runpod.io: $1.64, 스팟: $0.82, vast.ai $0.880, 스팟: $0.501  
  1x H100 80GB: google: $11.06, runpod.io: $2.79, 스팟: $1.65, vast.ai $1.535, 스팟: $0.473  
  8x H200 141GB: google: $88.08, runpod.io: $31.92, vast.ai $15.470, 스팟: $14.563
```
구글 가격은 한 달 24/7 구동 기준인 느낌이 있는데, runpod.io와 vast.ai는 초단위 과금. 구글 GPU의 스팟 요금은 못 찾음
- "컴퓨트 인스턴스 생성"에서 스팟 요금을 바로 확인할 수 있음. 예를 들어 GCP에서 1xH100 spot은 시간당 $2.55, 장기 이용할수록 할인이 적용됨. 실제 기업 고객이라면 이런 가격도 할인 가능. 일반 유저만 이런 정가로 결제
- vast.ai 요금 출처가 궁금. 홈페이지 기준 8xH200 옵션은 대부분 시간당 $21.65 이상으로 보임
- 구글의 가격 책정이 24/7 전제로 잡혀있다는 근거가 뭔지 궁금. Cloud Run 공식 요금 페이지를 보면 실제 사용량만 100밀리초 단위로 과금, 오토스케일링도 유휴 인스턴스는 15분 대기 후 자동 축소된다는 설명 (Cloud Run PM)
- Cloud Run GPU에서는 1xL4만 선택 가능한 것 아닌지 의문
- 구글 가격도 초단위 과금이라면, 20분 미만 사용시 오히려 구글이 유리할 수도 있다는 의견
나는 Modal의 열렬한 팬으로, serverless scale-to-zero GPU를 오랫동안 사용 중. 필요할 때 큰 규모로 손쉽게 스케일 업, 동시에 개발 부담도 현저히 적음. 대형 제공업체가 이 시장에 뛰어드는 것이 흥미로움. Modal로 옮긴 계기도 기존 대형 클라우드에선 이런 기능(AWS Lambda에선 GPU 미지원)을 제공하지 않았기 때문. 이제 모든 주요 클라우드가 이런 서비스 방향으로 가는 것인지 궁금
- Modal은 정말 훌륭함. 자체적으로 공개한 LP(선형계획) 솔버 심층 기술도 인상적. Python 개발자라면 Coiled도 추천. Modal만큼 빠르진 않지만 GPU VM을 쉽게 스핀업, 모든 것이 자신의 클라우드 계정에서 실행됨. CUDA 드라이버/파이썬 라이브러리 동기화 등 편리한 패키지 관리 제공. (참고: Coiled 소속, 하지만 진심 추천)
- HIPAA 준수 워크로드까지 지원하는 점도 기대 밖의 장점
- Modal의 cold start 속도가 10GB 이상의 모델 기준 가장 빠름
- Modal 문서도 매우 잘 정리되어 있다는 점 인상 깊음
Cloud Run이 다른 서비스보다 좋은 가장 큰 이유는 오토스케일, scale-to-zero. 실제 사용이 없을 땐 실질적으로 과금이 0, 인스턴스 최대 수를 지정해 최대 비용도 안정적으로 관리 가능. 단, CPU 버전만 쓰는 기준이고 매우 신뢰도 높고 사용이 쉬움
- 단, 일반 Cloud Run도 냉시작 부팅 시간이 길 때(약 3~30초) 많아, scale-to-zero 활용 시 지연 이슈 있음
유럽의 소형 GPU 클라우드 제공사 DataCrunch(관계 없음)가 RunPod 등보다 저렴하게 Nvidia GPU VM을 제공

1x A100 80GB 1.37유로/시간
1x H100 80GB 2.19유로/시간
- lambda.ai에서는 1x H100 80GB VM이 시간당 $2.49에 제공됨. 환율로 딱 2.19유로. 이게 우연인지 업계의 보이지 않는 상한선이 있는 건지 궁금
- Vast.ai에서 P2P 방식으로 2x A100을 $0.8/시간에 사용할 수 있음(즉 A100 하나에 $0.4/시간). 본인은 단순 만족 이용자일 뿐. 네트워크 속도는 유의해야 함. 일부 호스트는 대역폭 공유라 실제 속도가 광고와 다를 수 있음. 대용량 데이터 이동 시 주의 필요
Cloud Run/GKE 담당 VP/GM. 관련해 질문 받을 준비 되어 있음. 많은 관심 고마움
Cloud Run을 좋아하며, 새 기능도 흥미롭게 보임. 다만 아쉬운 점은 self hosted GitHub runners를 돌리고 싶어도 root 권한 이슈로 지원이 안 됐던 점. 또 새로 도입된 worker pool 기능도 실전에서는 scaler를 직접 짜야 해서 내장된 기능이 아니었던 점
- Serverless 및 Worker Pools Autoscaling 담당 Eng Manager. 현재 로드맵을 적극적으로 정의하는 중이고, 실제 워크로드 사용 예시를 메일로 알려주면 큰 도움이 될 것 같음. worker pools와 스케일링이 필요한 워크로드에 대해 의견 기다림
vertex.ai로 모델을 테스트용으로 계속 돌리다가 꺼두는 걸 잊어 $1000 요금이 청구된 경험 후, 이번에 Cloud Run이 내 go to 서비스가 될 듯. 수년간 Cloud Run으로 프러덕션 마이크로서비스 및 취미 프로젝트 운영, 단순함과 비용 효율 모두 만족
만약 이해가 맞다면, Hugging Face 같은 임의 모델을 띄운 API를 만들 수 있고 토큰별 과금 구조는 아니지만 사용 부하가 적을 경우 상당히 저렴하게 운용 가능하다는 판단. 실제로 그렇다면 큰 혁신. 기존 대부분의 공급업체는 커스텀 모델을 운영하려면 월 구독료 요구
- 기본적으로 맞다는 설명. 단, cold start 속도가 매우 느릴 수 있음(30~60초). scale to zero의 단점. 또한 컨테이너 저장 등 몇 가지 소액 월정 요금도 부과되는 점 유의
- Runpod, vast, coreweave, replicate 등 서버리스 GPU 추론을 지원하는 다양한 대안 존재