컴퓨트의 미래: Nvidia의 왕관이 흔들리고 있음
(mohitdagarwal.substack.com)- NVIDIA는 AI 붐과 GPU 독점으로 빠르게 성장했지만, 클라우드 대기업들의 자체 칩 개발과 수직 통합 전략으로 인해 장기적인 지위가 위협받고 있음
- 스타트업 및 독립 클라우드 사업자들의 GPU 수요는 감소하고 있으며, NVIDIA 의존도가 높은 비즈니스 모델의 수익성 악화가 가시화됨
- Google, Amazon, Microsoft, Meta 등은 고성능 맞춤형 칩과 수직 통합된 시스템을 통해 NVIDIA 의존도를 빠르게 줄이는 중
- 분산 인프라와 클러스터 연결 기반 최적화가 AI 훈련의 핵심 요소가 되고 있으며, 이는 NVIDIA가 대응하기 어려운 구조적 변화임
- NVIDIA는 하드웨어·소프트웨어 개선을 시도 중이지만, 하이퍼스케일러의 깊이 있는 수직 통합 전략에 비해 경쟁력 약화 가능성 존재
NVIDIA의 지배에서 위기로: AI 컴퓨팅 시장의 격변
- NVIDIA는 AI 붐, GPU 독점, 그리고 DGX 서버 공급 등을 통해 빠르게 성장하며 13개월간 시가총액 2조 달러 증가라는 기록적인 성과를 거둠
- 하지만 H100 세대가 수익성의 정점이며, 이후 출시된 B200 시리즈는 수익성 악화와 제조 비용 상승이 동반됨
- 장기적으로는 하이퍼스케일러들이 수요를 통합하고, 맞춤형 칩 개발로 경쟁력을 확보하면서 NVIDIA의 독점 구조가 흔들리고 있음
AI 수요의 재편성과 스타트업 시장의 수축
- NVIDIA의 데이터센터 수요 절반 이상은 Google, Microsoft, Amazon, Meta 같은 하이퍼스케일러에서 발생
- 나머지 수요는 스타트업, VC, 중소 클라우드 기업에서 발생했지만, GPU 과잉 구매로 ROI가 낮고, GPU 임대 사업은 손실 상태
- 블룸버그GPT 등 소규모 맞춤형 모델은 시장에서 고전하고 있으며, 폐쇄형 대형 API 기반 모델이 표준화됨
- Coreweave, Lambda 같은 독립 클라우드는 NVIDIA 지원에도 불구하고 경제성 부족, 수익성 하락, 수요 둔화로 위기
- GPU 임대 가격은 급감해 시간당 $1.99, ROE는 10% 이하, 지속 불가능한 수준
하이퍼스케일러의 맞춤형 칩 개발 전략
- Google TPU는 이미 6세대에 도달했으며, Gemini-Ultra, DeepMind, YouTube 등의 모델에서 NVIDIA를 완전히 대체
- Amazon의 Trainium과 Inferentia는 Anthropic과의 협업을 통해 대형 모델 추론 및 훈련을 대체하며 CUDA 없이 작동하는 Neuron SDK 제공
- Microsoft의 Maia 가속기와 Cobalt CPU는 내부용 AI 워크로드에 사용 중이며, Triton 기반 SDK로 CUDA 대체 가능성 높임
- Meta는 MTIA 칩을 통해 Instagram, WhatsApp의 AI 기능을 자체 칩으로 운영하며, Llama 3.1의 일부 훈련도 자체 칩 기반으로 수행
- 이러한 흐름은 추론 중심 AI 시장 구조에 더 잘 맞고, 앞으로 GPU 기반 추론이 맞춤형 칩, 심지어 CPU 기반 솔루션에 밀릴 가능성 존재
시스템 중심 구조로의 전환과 NVIDIA의 한계
- 하이퍼스케일러는 단일 칩 성능보다 전체 시스템 최적화에 초점을 맞춤
- Google은 작은 TPU를 대량으로 연결, 자체 광학 네트워크(Apollo) 와 토러스 네트워크 토폴로지를 이용해 전력·지연 최소화
- Microsoft는 광섬유 네트워크와 ColorZ 트랜시버를 구축해 멀티 데이터센터 훈련 가능성 확보, NVIDIA 대비 저비용 고성능 인프라 확보
- 이로 인해 작은 규모의 여러 데이터센터를 네트워크로 연결해 훈련하는 분산형 구조가 대세로 떠오름
- 전력 제약 및 인프라 확장 한계를 돌파하기 위해 전국적 데이터센터 연결 시도 중 (예: Microsoft의 3마일섬 재가동, AWS의 원자력 발전소 인수 등)
NVIDIA의 하드웨어·소프트웨어 대응과 구조적 어려움
- NVIDIA는 GB200 서버, Spectrum-X, DCGM, RAS 등으로 대응 시도 중
- Infiniband 기반 네트워크 설계는 대규모 클러스터에 취약하며, 장애 허용 설계 미비
- Google의 Pathways, Microsoft의 Singularity 등은 자체 fault-tolerant 시스템, GPU 메모리 오류 감지에 강점
- Kubernetes 기반의 NVIDIA BaseCommand는 하이퍼스케일러의 Borg, MegaScaler 등과 비교해 확장성과 통합성 열세
- 냉각 시스템의 후발주자로서, Google 대비 전력효율·수명·공간 효율성 모두 열세 (예: Google PUE 1.1 vs NVIDIA 1.4 이상)
결론
- NVIDIA는 여전히 강력한 GPU 성능을 보유하고 있지만, 시스템 최적화, 인프라 통합, 비용 효율성에서는 하이퍼스케일러에 밀리는 구조적 한계
- 하이퍼스케일러는 이미 칩부터 인프라, 소프트웨어까지 수직 통합을 완성해 완전한 대체 가능성 확보
- NVIDIA는 과거의 GPU 중심 전략에서 벗어나 전체 시스템 혁신 없이는 향후 AI 컴퓨팅 시장에서 지속 가능한 리더십 유지가 어려울 위험 존재
Hacker News 의견
-
Nvidia가 아무것도 하지 않고 있는 동안 경쟁자들이 갑자기 성공하여 Nvidia를 위협할 것이라는 가정에 기반한 또 다른 기사라는 의견이 있음
- Nvidia에 대한 비관론자들이 언젠가는 맞을 수도 있지만, 지금까지는 실패한 경우가 많음
-
Marvell의 주가가 올해 50% 이상 하락했음에도 불구하고, Nvidia의 GPU에 대한 수요는 여전히 강력함
- 클라우드가 제공하는 기능을 GPU가 대체할 수 없다는 점을 강조함
- Nvidia가 10조 달러 규모의 회사가 될 것이라는 Jensen의 비전에 동의함
- Nvidia가 AI 폰, LLM 경쟁 서비스, AI PC, 자율주행차, 로봇 등을 출시할 가능성을 언급함
- Warren Buffet이 Google과 Apple에 투자하지 않은 것을 후회한 것처럼, 현재도 비슷한 상황이 발생하고 있다고 봄
-
서비스가 Nvidia를 보호할 것이라는 의견이 있음
- CUDA, Infiniband, NGC, NVLink 등으로 생태계를 소유하고 있으며, AI Foundry와 같은 추가 애플리케이션을 통해 확장할 필요가 있음
- 맞춤형 디자인과 GPU 프로젝트 컨설팅을 통해 시장이 느려질 때 수익을 창출할 수 있음
-
Nvidia의 전략적 위치를 과소평가하고 있다는 의견이 있음
- Nvidia는 하드웨어 게임에서 영원히 승리할 필요가 없으며, AI 스택 전체를 구축하고 있음
- 하드웨어, 네트워킹, 소프트웨어, 모델, 개발자 도구를 포괄적으로 제공하는 유일한 회사임
- Nvidia는 통합 플랫폼을 구축하고 있으며, 이는 업계 표준이 될 것임
-
AMD가 Nvidia와 비밀 협정을 맺고 일부러 이런 상황을 만들고 있다는 의견이 있음
- Nvidia는 TSMC에서 Apple과 독점적인 위치를 공유하고 있음
-
Nvidia가 기능적 독점에서 경쟁해야 하는 상황으로 전환되고 있음
- 이상적이지는 않지만 치명적인 타격은 아님
-
H100 세대가 최고 가격 책정력을 나타내고 있으며, 대안이 부족하여 계속해서 수익을 창출할 것이라는 의견이 있음
- 장기적인 내구성에 대한 의문이 있음
- 하이퍼스케일러들이 AI 수요를 통합하고 있으며, 경쟁력 있는 칩 개발을 진행 중임
- 대형 GPU 팜을 구축하는 다른 회사들도 존재함
-
Nvidia의 GPU 드라이버 품질 관리가 떨어지고 있다는 의견이 있음
- 그러나 제품이 몇 년 전부터 매진되고 있어 품질 관리가 떨어진다고 보기 어려움