GN⁺: 기업들이 GPU에 대한 저렴한 접근을 요구하면서 대체 클라우드가 급성장중
(techcrunch.com)대체 클라우드 플랫폼의 성장
- 대체 클라우드 플랫폼에 대한 수요가 그 어느 때보다 크게 증가하고 있음
- CoreWeave는 최근 10억 1천만 달러의 신규 투자를 유치하여 기업 가치가 190억 달러에 이르렀음
- Lambda Labs도 5억 달러 규모의 특수목적 금융을 확보했으며, Voltage Park는 GPU 기반 데이터 센터에 5억 달러를 투자하고 있음
- Together AI는 세일즈포스가 주도하는 1억 6백만 달러 규모의 투자를 받았음
생성형 AI의 수요 증가
- 생성형 AI 붐이 지속되면서 대규모로 생성형 AI 모델을 실행하고 학습시키기 위한 하드웨어 수요도 증가하고 있음
- GPU는 생성 모델을 구성하는 선형 대수 방정식을 병렬로 처리할 수 있는 수천 개의 코어를 포함하고 있어 모델 학습, 미세 조정 및 실행에 이상적인 선택임
- 그러나 GPU 설치 비용이 높아 대부분의 개발자와 조직은 클라우드로 눈을 돌리고 있음
대체 클라우드 플랫폼의 장점
- AWS, Google Cloud, Microsoft Azure 등 기존 클라우드 컴퓨팅 업체들은 생성형 AI 워크로드에 최적화된 GPU와 특수 하드웨어 인스턴스를 제공하고 있음
- 그러나 일부 모델과 프로젝트의 경우 대체 클라우드가 더 저렴하고 가용성이 좋을 수 있음
- CoreWeave에서 Nvidia A100 40GB를 임대하는 비용은 시간당 $2.46이며, 이는 월 $1,771에 해당함. Azure에서는 같은 GPU가 시간당 $3.40, 월 $2,448이며 Google Cloud에서는 시간당 $3.67, 월 $2,642임
대체 클라우드 플랫폼의 도전과제
- 대체 클라우드 공급업체들이 GPU를 대량으로 계속 온라인으로 제공하고 경쟁력 있는 가격으로 제공할 수 있는지가 관건이 될 것임
- Google, Microsoft, AWS 등의 기존 업체들이 모델 실행 및 학습을 위한 맞춤형 하드웨어에 대한 투자를 늘리면서 가격 경쟁이 어려워질 수 있음
- 많은 생성형 AI 워크로드가 GPU에서 가장 잘 실행되지만 시간에 민감하지 않은 작업의 경우 GPU가 꼭 필요하지 않을 수 있음
- 생성형 AI 거품이 꺼질 경우 GPU가 과잉 공급되고 수요가 크게 감소할 위험이 있음
GN⁺의 의견
- GPU 수요 폭증으로 Nvidia 등 주요 GPU 공급사들의 영향력이 더욱 커질 수 있음. Nvidia가 대체 클라우드 업체들에게 GPU 우선 공급권을 준 것으로 알려졌는데, 이는 Nvidia의 시장 지배력 강화 전략으로 보임
- 클라우드 업체들이 대규모 GPU 클러스터 확보에 성공하면 대형 AI 프로젝트 유치에서 경쟁 우위를 점할 수 있음. 마이크로소프트가 OpenAI에 GPU 컴퓨팅 파워 공급을 위해 CoreWeave와 수십억불 규모 계약을 체결한 것이 대표적 사례
- 그러나 장기적으로는 구글 TPU, MS Azure Maia/Cobalt, AWS Trainium 등 AI 특화 커스텀 실리콘 개발로 클라우드 업계 지형이 크게 바뀔 수 있음. 하이퍼스케일러들이 Nvidia 의존도를 낮추려 할 것으로 보임
- 대체 클라우드가 새로운 옵션으로 부상했지만 보안, 컴플라이언스, 멀티 클라우드 관리 역량을 갖춘 고객이 제한적일 것임. 여전히 기존 클라우드 업체들의 시장 지배력이 막강함
Hacker News 의견
요약:
- AWS의 비즈니스 모델은 가격 책정을 혼란스럽게 만들어 사용 후에야 비용을 알 수 있게 하는 것으로 보임
- GCP의 새로운 인스턴스 유형인 n4-standard-2의 월간 비용 분석 결과, vCPU와 메모리 비용은 월 $69로 높은 편이며, SSD 가격도 비싼 편임
- 향후 10년 내에 대형 클라우드 제공업체들이 어려움을 겪을 것으로 예상됨. planetary-scale 시스템을 구축하는 비용이 너무 비싸고 복잡해 정당화하기 어려움
- CoreWeave, Azure, Google Cloud의 Nvidia A100 40GB GPU 렌탈 비용을 비교한 기사에서 계산 오류가 있음. CoreWeave의 월간 비용이 30% 정도 차이남
- fly.io는 GPU 워크로드에 적합한 대안으로 추천됨. 자동 크기 조정 기능이 좋음
- AWS의 비즈니스 모델은 초기 스타트업이 대기업으로 성장하는 과정에서 많은 수익을 올리는 것으로 보임. 그러나 ZIRP 종료와 VC 자금 조달 어려움으로 폭발적 성장을 위해 많은 돈을 쓸 수 있는 스타트업 수가 줄어들 것으로 예상됨
- 추론 작업을 위한 대안적인 클라우드 GPU 사용 경험에 대한 질문이 제기됨. 지연 시간이 중요하며, AWS 인프라와 다른 곳의 GPU 간 통신이 어려울 수 있음
- Core Weave와 Lambda Labs는 연간 계약 없이는 GPU를 임대할 수 없는 약탈적 가격 정책을 가지고 있음. sfcompute와 같이 시간별 컴퓨팅을 제공하는 회사도 있음
- "H100s/A100s를 소량 확보했다"는 것 자체가 수익성 있는 기술 비즈니스 모델이 될 수 있음
- Crusoe Cloud는 H100s, A100s, L40s를 매우 저렴한 가격에 제공하며, 네트워크 사용료도 부과하지 않음. FLOP 당 가격이 타의 추종을 불허함