6P by neo 7달전 | favorite | 댓글 1개

대체 클라우드 플랫폼의 성장

  • 대체 클라우드 플랫폼에 대한 수요가 그 어느 때보다 크게 증가하고 있음
  • CoreWeave는 최근 10억 1천만 달러의 신규 투자를 유치하여 기업 가치가 190억 달러에 이르렀음
  • Lambda Labs도 5억 달러 규모의 특수목적 금융을 확보했으며, Voltage Park는 GPU 기반 데이터 센터에 5억 달러를 투자하고 있음
  • Together AI는 세일즈포스가 주도하는 1억 6백만 달러 규모의 투자를 받았음

생성형 AI의 수요 증가

  • 생성형 AI 붐이 지속되면서 대규모로 생성형 AI 모델을 실행하고 학습시키기 위한 하드웨어 수요도 증가하고 있음
  • GPU는 생성 모델을 구성하는 선형 대수 방정식을 병렬로 처리할 수 있는 수천 개의 코어를 포함하고 있어 모델 학습, 미세 조정 및 실행에 이상적인 선택임
  • 그러나 GPU 설치 비용이 높아 대부분의 개발자와 조직은 클라우드로 눈을 돌리고 있음

대체 클라우드 플랫폼의 장점

  • AWS, Google Cloud, Microsoft Azure 등 기존 클라우드 컴퓨팅 업체들은 생성형 AI 워크로드에 최적화된 GPU와 특수 하드웨어 인스턴스를 제공하고 있음
  • 그러나 일부 모델과 프로젝트의 경우 대체 클라우드가 더 저렴하고 가용성이 좋을 수 있음
  • CoreWeave에서 Nvidia A100 40GB를 임대하는 비용은 시간당 $2.46이며, 이는 월 $1,771에 해당함. Azure에서는 같은 GPU가 시간당 $3.40, 월 $2,448이며 Google Cloud에서는 시간당 $3.67, 월 $2,642임

대체 클라우드 플랫폼의 도전과제

  • 대체 클라우드 공급업체들이 GPU를 대량으로 계속 온라인으로 제공하고 경쟁력 있는 가격으로 제공할 수 있는지가 관건이 될 것임
  • Google, Microsoft, AWS 등의 기존 업체들이 모델 실행 및 학습을 위한 맞춤형 하드웨어에 대한 투자를 늘리면서 가격 경쟁이 어려워질 수 있음
  • 많은 생성형 AI 워크로드가 GPU에서 가장 잘 실행되지만 시간에 민감하지 않은 작업의 경우 GPU가 꼭 필요하지 않을 수 있음
  • 생성형 AI 거품이 꺼질 경우 GPU가 과잉 공급되고 수요가 크게 감소할 위험이 있음

GN⁺의 의견

  • GPU 수요 폭증으로 Nvidia 등 주요 GPU 공급사들의 영향력이 더욱 커질 수 있음. Nvidia가 대체 클라우드 업체들에게 GPU 우선 공급권을 준 것으로 알려졌는데, 이는 Nvidia의 시장 지배력 강화 전략으로 보임
  • 클라우드 업체들이 대규모 GPU 클러스터 확보에 성공하면 대형 AI 프로젝트 유치에서 경쟁 우위를 점할 수 있음. 마이크로소프트가 OpenAI에 GPU 컴퓨팅 파워 공급을 위해 CoreWeave와 수십억불 규모 계약을 체결한 것이 대표적 사례
  • 그러나 장기적으로는 구글 TPU, MS Azure Maia/Cobalt, AWS Trainium 등 AI 특화 커스텀 실리콘 개발로 클라우드 업계 지형이 크게 바뀔 수 있음. 하이퍼스케일러들이 Nvidia 의존도를 낮추려 할 것으로 보임
  • 대체 클라우드가 새로운 옵션으로 부상했지만 보안, 컴플라이언스, 멀티 클라우드 관리 역량을 갖춘 고객이 제한적일 것임. 여전히 기존 클라우드 업체들의 시장 지배력이 막강함
Hacker News 의견

요약:

  • AWS의 비즈니스 모델은 가격 책정을 혼란스럽게 만들어 사용 후에야 비용을 알 수 있게 하는 것으로 보임
  • GCP의 새로운 인스턴스 유형인 n4-standard-2의 월간 비용 분석 결과, vCPU와 메모리 비용은 월 $69로 높은 편이며, SSD 가격도 비싼 편임
  • 향후 10년 내에 대형 클라우드 제공업체들이 어려움을 겪을 것으로 예상됨. planetary-scale 시스템을 구축하는 비용이 너무 비싸고 복잡해 정당화하기 어려움
  • CoreWeave, Azure, Google Cloud의 Nvidia A100 40GB GPU 렌탈 비용을 비교한 기사에서 계산 오류가 있음. CoreWeave의 월간 비용이 30% 정도 차이남
  • fly.io는 GPU 워크로드에 적합한 대안으로 추천됨. 자동 크기 조정 기능이 좋음
  • AWS의 비즈니스 모델은 초기 스타트업이 대기업으로 성장하는 과정에서 많은 수익을 올리는 것으로 보임. 그러나 ZIRP 종료와 VC 자금 조달 어려움으로 폭발적 성장을 위해 많은 돈을 쓸 수 있는 스타트업 수가 줄어들 것으로 예상됨
  • 추론 작업을 위한 대안적인 클라우드 GPU 사용 경험에 대한 질문이 제기됨. 지연 시간이 중요하며, AWS 인프라와 다른 곳의 GPU 간 통신이 어려울 수 있음
  • Core Weave와 Lambda Labs는 연간 계약 없이는 GPU를 임대할 수 없는 약탈적 가격 정책을 가지고 있음. sfcompute와 같이 시간별 컴퓨팅을 제공하는 회사도 있음
  • "H100s/A100s를 소량 확보했다"는 것 자체가 수익성 있는 기술 비즈니스 모델이 될 수 있음
  • Crusoe Cloud는 H100s, A100s, L40s를 매우 저렴한 가격에 제공하며, 네트워크 사용료도 부과하지 않음. FLOP 당 가격이 타의 추종을 불허함