Cloud Run GPU, 이제 공식 지원 - 모두를 위한 AI 워크로드 실행을 더 쉽게 만듦
(cloud.google.com)- Cloud Run에서 GPU가 공식적으로 지원(GA)됨에 따라, AI 워크로드 실행이 더욱 용이해짐
- Cloud Run jobs에서도 GPU 사용이 가능해지며, 배치 처리 및 비동기 작업에 새로운 가능성을 제공
- 이미지 처리, 자연어 분석, 미디어 변환 등 대규모 배치 작업에 최적화된 환경
Cloud Run GPU, 공식 제공 및 주요 변화
Cloud Run jobs에서 NVIDIA GPU 지원 개시
- Cloud Run의 GPU 기능은 기존에는 실시간 추론과 같은 요청 기반 서비스에서 활용됨
- 이제 Cloud Run jobs에서도 GPU 지원이 공식화되어, 새로운 활용 사례를 가능하게 함
- 모델 파인튜닝: 사전 학습 모델을 특정 데이터셋에 맞추어 손쉽게 재학습 가능
- 배치 AI 추론: 이미지를 분석하거나 자연어를 처리, 추천을 생성하는 대규모 작업에 적합
- 대량 미디어 처리: 동영상 트랜스코딩, 썸네일 생성, 이미지 변환 등을 GPU를 활용해 효율적으로 처리할 수 있음
- GPU가 장착된 Cloud Run job은 작업 완료 후 자동으로 리소스를 줄여 관리 부담을 최소화함
초기 도입 기업들의 실제 경험
- vivo: Cloud Run이 AI 애플리케이션 반복 개발 속도를 빠르게 하고, 운영 및 유지 보수 비용을 크게 절약함. GPU의 자동 확장 기능이 해외 시장에서 AI 적용 효율을 획기적으로 성장시킴
- Wayfair: L4 GPU는 강력한 성능과 합리적인 가격대를 동시에 제공하며, Cloud Run의 빠른 오토스케일링과 결합하여 비용을 약 85% 절감한 경험을 가짐
- Midjourney: Cloud Run GPU는 대규모 이미지 처리에 매우 유용하며, 단순 명료한 개발 환경 덕분에 인프라 관리 부담 없이 혁신에 집중 가능함. GPU 확장성 덕분에 수백만 이미지의 분석 및 처리가 용이함
시작 안내 및 리소스
- Cloud Run에서 GPU 지원을 통해 차세대 애플리케이션 개발에 적합한 환경이 마련됨
- 공식 문서, 빠른 시작 가이드, 최적화 모범 사례를 통해 누구나 쉽게 시작 가능함
- GPU가 적용된 Cloud Run job의 프라이빗 프리뷰 참여 또한 신청 가능함
결론
- Cloud Run의 GPU 공식 지원은 AI, 대규모 배치 처리, 미디어 변환 등 다양한 전문 워크로드에 획기적인 확장 가능성을 제공함
- 비용, 운영 효율성, 확장성까지 다양한 이점을 실제 기업들이 입증함
- 간단한 설정과 다양한 학습 자료를 바탕으로 누구나 쉽게 클라우드 기반 GPU 워크로드를 시작할 수 있음
Hacker News 의견
-
나는 Google Cloud Run을 정말 좋아해서 최고의 선택지라고 적극 추천하는 입장. 다만 Cloud Run GPU는 추천하기 어렵다는 판단. 인스턴스 기반 과금이 비효율적이고, GPU 옵션도 한정적. 모델을 GPU 메모리에서 로딩/언로딩할 때 성능 저하로 서버리스 환경에는 느림이라는 한계. 실제 비용을 비교하면 하루 30%만 활용해도 VM+GPU 조합이 더 경제적이라는 계산. (관련 블로그 링크)
-
Google 부사장. 피드백 고마움. 지금 가격 구조에서는 서비스 용량이 거의 고정적으로 필요한 경우, VM 미리 프로비저닝하는 게 더 비용 효율적이라는 점 일반적으로 동의. 반면 Cloud Run GPU는 피크 수요가 갑자기 생기는 신제품이나 AI 앱처럼 최소한의 유휴 비용, 매우 빠른 시작, 드물고 불규칙한 트래픽에 맞는 환경에 최적화라는 생각
-
Cloud Run이 정말 훌륭한 서비스라는 인상. AWS의 ECS/Fargate보다 훨씬 다루기 쉽다는 경험
-
GCP에서 VM을 믿고 사용할 수 없다는 게 가장 큰 문제. 주요 클라우드들 모두 이런 이슈 존재. AWS에서는 80GB GPU를 장기 예약 없이 구할 수 없고, 가격은 터무니없음. GCP도 마찬가지로 비싸고 가용성 낮음. 대기업들은 스타트업 친화적이라고 말하지만 실제 경험은 그렇지 않음. runpod, nebius, lambda 등 네오클라우드들이 훨씬 나은 서비스 제공. 대형 클라우드는 고정 수요에 안주하며 스타트업을 배려하지 않아 장기 성장에 큰 타격을 줄 실수 중이라는 생각
-
Cloud Run에서 상반된 경험을 함. 원인 불명 스케일 아웃/재시작으로 인해 결국 유료 지원 서비스를 직접 구입해 문의했지만 답을 못 찾았음. 결국 직접 VM을 셀프매니지로 전환. 그 후로 개선됐는지는 모르겠음
-
Cloud Run이 최고라는 의견에 대해, 직접 수치를 확인해보고 싶다는 입장. 장난감 프로젝트엔 좋지만, 실무에서는 비용 구덩이임. 프로젝트 중 오토스케일 이슈가 지속적으로 발생, '스케일 투 제로'가 이론상 좋아 보이지만 실제로는 워밍업 과정에서 하나의 요청에 여러 개 컨테이너가 뜨고 오랜 시간 유지되는 경우 많음. 가시적인 CPU나 네트워크 사용이 없는 원인불명의 컨테이너도 비용이 계속 청구됨. Java나 Python 프로젝트는 cold start 속도가 심각하게 느리며, Go/C++/Rust는 경험이 없어서 잘 모르겠음
-
-
대형 클라우드의 복잡함에 더해, 무제한 YOLO(마구잡이) 요금 청구로 밤새 신용카드가 텅텅 빌 위험까지 있음이라는 우려. Modal과 vast.ai에 계속 머무를 예정이라는 결론
-
개인/스몰 프로젝트 사용자의 입장에서 비용 상한선(CAP)을 제공하지 않는 것은 GCP의 큰 약점. Cloud Run의 경우 동시 처리(concurrency) 제한, 인스턴스 수 제한을 통해 간접적으로라도 비용을 막을 수 있음. 그래도 온전한 CAP에는 못 미침
-
AWS에서 인스턴스 종료를 깜빡해 높은 비용을 냈던 기억이 있어, Cloud Run의 scale to zero와 초단위 과금이 큰 장점. 시작이 정말 빠르다면 내 워크로드에 완벽할 듯한 확신
-
Cloud Run에서는 최대 인스턴스 수 설정으로 최대 비용을 간접적으로 제한할 수 있음. App Engine 시절의 '하드 캡'은 실제로 서비스가 뜨는 순간(예: HN에 올라갔을 때) 완전히 멈춰버리는 부작용 발생. 개인적으로는 알림 기반 예산 관리가 더 나은 선택
-
내가 실제로 Datadog을 프로덕션에서 버린 이유도 바로 이 때문. 플랫폼들이 사용자가 실수로 초과 청구를 당해 생기는 부정적인 인상을 감내할 만한 가치가 있는지 의문
-
Modal이나 vast.ai가 어떻게 YOLO 청구를 막는지 명확히 모르겠음. 선불 구조인지, 직접적인 CAP을 제공하는지 궁금
-
-
직접 가격을 비교하니 확실히 메리트가 느껴지지 않는다는 인상. 구글, runpod.io, vast.ai의 시간당 요금을 구체적으로 표로 정리:
1x L4 24GB: google: $0.71, runpod.io: $0.43, 스팟: $0.22 4x L4 24GB: google: $4.00, runpod.io: $1.72, 스팟: $0.88 1x A100 80GB: google: $5.07, runpod.io: $1.64, 스팟: $0.82, vast.ai $0.880, 스팟: $0.501 1x H100 80GB: google: $11.06, runpod.io: $2.79, 스팟: $1.65, vast.ai $1.535, 스팟: $0.473 8x H200 141GB: google: $88.08, runpod.io: $31.92, vast.ai $15.470, 스팟: $14.563
구글 가격은 한 달 24/7 구동 기준인 느낌이 있는데, runpod.io와 vast.ai는 초단위 과금. 구글 GPU의 스팟 요금은 못 찾음
-
"컴퓨트 인스턴스 생성"에서 스팟 요금을 바로 확인할 수 있음. 예를 들어 GCP에서 1xH100 spot은 시간당 $2.55, 장기 이용할수록 할인이 적용됨. 실제 기업 고객이라면 이런 가격도 할인 가능. 일반 유저만 이런 정가로 결제
-
vast.ai 요금 출처가 궁금. 홈페이지 기준 8xH200 옵션은 대부분 시간당 $21.65 이상으로 보임
-
구글의 가격 책정이 24/7 전제로 잡혀있다는 근거가 뭔지 궁금. Cloud Run 공식 요금 페이지를 보면 실제 사용량만 100밀리초 단위로 과금, 오토스케일링도 유휴 인스턴스는 15분 대기 후 자동 축소된다는 설명 (Cloud Run PM)
-
Cloud Run GPU에서는 1xL4만 선택 가능한 것 아닌지 의문
-
구글 가격도 초단위 과금이라면, 20분 미만 사용시 오히려 구글이 유리할 수도 있다는 의견
-
-
나는 Modal의 열렬한 팬으로, serverless scale-to-zero GPU를 오랫동안 사용 중. 필요할 때 큰 규모로 손쉽게 스케일 업, 동시에 개발 부담도 현저히 적음. 대형 제공업체가 이 시장에 뛰어드는 것이 흥미로움. Modal로 옮긴 계기도 기존 대형 클라우드에선 이런 기능(AWS Lambda에선 GPU 미지원)을 제공하지 않았기 때문. 이제 모든 주요 클라우드가 이런 서비스 방향으로 가는 것인지 궁금
-
Modal은 정말 훌륭함. 자체적으로 공개한 LP(선형계획) 솔버 심층 기술도 인상적. Python 개발자라면 Coiled도 추천. Modal만큼 빠르진 않지만 GPU VM을 쉽게 스핀업, 모든 것이 자신의 클라우드 계정에서 실행됨. CUDA 드라이버/파이썬 라이브러리 동기화 등 편리한 패키지 관리 제공. (참고: Coiled 소속, 하지만 진심 추천)
-
HIPAA 준수 워크로드까지 지원하는 점도 기대 밖의 장점
-
Modal의 cold start 속도가 10GB 이상의 모델 기준 가장 빠름
-
Modal 문서도 매우 잘 정리되어 있다는 점 인상 깊음
-
-
Cloud Run이 다른 서비스보다 좋은 가장 큰 이유는 오토스케일, scale-to-zero. 실제 사용이 없을 땐 실질적으로 과금이 0, 인스턴스 최대 수를 지정해 최대 비용도 안정적으로 관리 가능. 단, CPU 버전만 쓰는 기준이고 매우 신뢰도 높고 사용이 쉬움
- 단, 일반 Cloud Run도 냉시작 부팅 시간이 길 때(약 3~30초) 많아, scale-to-zero 활용 시 지연 이슈 있음
-
유럽의 소형 GPU 클라우드 제공사 DataCrunch(관계 없음)가 RunPod 등보다 저렴하게 Nvidia GPU VM을 제공
1x A100 80GB 1.37유로/시간
1x H100 80GB 2.19유로/시간-
lambda.ai에서는 1x H100 80GB VM이 시간당 $2.49에 제공됨. 환율로 딱 2.19유로. 이게 우연인지 업계의 보이지 않는 상한선이 있는 건지 궁금
-
Vast.ai에서 P2P 방식으로 2x A100을 $0.8/시간에 사용할 수 있음(즉 A100 하나에 $0.4/시간). 본인은 단순 만족 이용자일 뿐. 네트워크 속도는 유의해야 함. 일부 호스트는 대역폭 공유라 실제 속도가 광고와 다를 수 있음. 대용량 데이터 이동 시 주의 필요
-
-
Cloud Run/GKE 담당 VP/GM. 관련해 질문 받을 준비 되어 있음. 많은 관심 고마움
-
Cloud Run을 좋아하며, 새 기능도 흥미롭게 보임. 다만 아쉬운 점은 self hosted GitHub runners를 돌리고 싶어도 root 권한 이슈로 지원이 안 됐던 점. 또 새로 도입된 worker pool 기능도 실전에서는 scaler를 직접 짜야 해서 내장된 기능이 아니었던 점
- Serverless 및 Worker Pools Autoscaling 담당 Eng Manager. 현재 로드맵을 적극적으로 정의하는 중이고, 실제 워크로드 사용 예시를 메일로 알려주면 큰 도움이 될 것 같음. worker pools와 스케일링이 필요한 워크로드에 대해 의견 기다림
-
vertex.ai로 모델을 테스트용으로 계속 돌리다가 꺼두는 걸 잊어 $1000 요금이 청구된 경험 후, 이번에 Cloud Run이 내 go to 서비스가 될 듯. 수년간 Cloud Run으로 프러덕션 마이크로서비스 및 취미 프로젝트 운영, 단순함과 비용 효율 모두 만족
-
만약 이해가 맞다면, Hugging Face 같은 임의 모델을 띄운 API를 만들 수 있고 토큰별 과금 구조는 아니지만 사용 부하가 적을 경우 상당히 저렴하게 운용 가능하다는 판단. 실제로 그렇다면 큰 혁신. 기존 대부분의 공급업체는 커스텀 모델을 운영하려면 월 구독료 요구
-
기본적으로 맞다는 설명. 단, cold start 속도가 매우 느릴 수 있음(30~60초). scale to zero의 단점. 또한 컨테이너 저장 등 몇 가지 소액 월정 요금도 부과되는 점 유의
-
Runpod, vast, coreweave, replicate 등 서버리스 GPU 추론을 지원하는 다양한 대안 존재
-