컴퓨트의 미래: Nvidia의 왕관이 흔들리고 있음

(mohitdagarwal.substack.com)

2P by GN⁺ 3달전 | ★ favorite | 댓글 3개

NVIDIA는 AI 붐과 GPU 독점으로 빠르게 성장했지만, 클라우드 대기업들의 자체 칩 개발과 수직 통합 전략으로 인해 장기적인 지위가 위협받고 있음
스타트업 및 독립 클라우드 사업자들의 GPU 수요는 감소하고 있으며, NVIDIA 의존도가 높은 비즈니스 모델의 수익성 악화가 가시화됨
Google, Amazon, Microsoft, Meta 등은 고성능 맞춤형 칩과 수직 통합된 시스템을 통해 NVIDIA 의존도를 빠르게 줄이는 중
분산 인프라와 클러스터 연결 기반 최적화가 AI 훈련의 핵심 요소가 되고 있으며, 이는 NVIDIA가 대응하기 어려운 구조적 변화임
NVIDIA는 하드웨어·소프트웨어 개선을 시도 중이지만, 하이퍼스케일러의 깊이 있는 수직 통합 전략에 비해 경쟁력 약화 가능성 존재

NVIDIA의 지배에서 위기로: AI 컴퓨팅 시장의 격변

NVIDIA는 AI 붐, GPU 독점, 그리고 DGX 서버 공급 등을 통해 빠르게 성장하며 13개월간 시가총액 2조 달러 증가라는 기록적인 성과를 거둠
하지만 H100 세대가 수익성의 정점이며, 이후 출시된 B200 시리즈는 수익성 악화와 제조 비용 상승이 동반됨
장기적으로는 하이퍼스케일러들이 수요를 통합하고, 맞춤형 칩 개발로 경쟁력을 확보하면서 NVIDIA의 독점 구조가 흔들리고 있음

AI 수요의 재편성과 스타트업 시장의 수축

NVIDIA의 데이터센터 수요 절반 이상은 Google, Microsoft, Amazon, Meta 같은 하이퍼스케일러에서 발생
나머지 수요는 스타트업, VC, 중소 클라우드 기업에서 발생했지만, GPU 과잉 구매로 ROI가 낮고, GPU 임대 사업은 손실 상태
블룸버그GPT 등 소규모 맞춤형 모델은 시장에서 고전하고 있으며, 폐쇄형 대형 API 기반 모델이 표준화됨
Coreweave, Lambda 같은 독립 클라우드는 NVIDIA 지원에도 불구하고 경제성 부족, 수익성 하락, 수요 둔화로 위기
GPU 임대 가격은 급감해 시간당 $1.99, ROE는 10% 이하, 지속 불가능한 수준

하이퍼스케일러의 맞춤형 칩 개발 전략

Google TPU는 이미 6세대에 도달했으며, Gemini-Ultra, DeepMind, YouTube 등의 모델에서 NVIDIA를 완전히 대체
Amazon의 Trainium과 Inferentia는 Anthropic과의 협업을 통해 대형 모델 추론 및 훈련을 대체하며 CUDA 없이 작동하는 Neuron SDK 제공
Microsoft의 Maia 가속기와 Cobalt CPU는 내부용 AI 워크로드에 사용 중이며, Triton 기반 SDK로 CUDA 대체 가능성 높임
Meta는 MTIA 칩을 통해 Instagram, WhatsApp의 AI 기능을 자체 칩으로 운영하며, Llama 3.1의 일부 훈련도 자체 칩 기반으로 수행
이러한 흐름은 추론 중심 AI 시장 구조에 더 잘 맞고, 앞으로 GPU 기반 추론이 맞춤형 칩, 심지어 CPU 기반 솔루션에 밀릴 가능성 존재

시스템 중심 구조로의 전환과 NVIDIA의 한계

하이퍼스케일러는 단일 칩 성능보다 전체 시스템 최적화에 초점을 맞춤
Google은 작은 TPU를 대량으로 연결, 자체 광학 네트워크(Apollo) 와 토러스 네트워크 토폴로지를 이용해 전력·지연 최소화
Microsoft는 광섬유 네트워크와 ColorZ 트랜시버를 구축해 멀티 데이터센터 훈련 가능성 확보, NVIDIA 대비 저비용 고성능 인프라 확보
이로 인해 작은 규모의 여러 데이터센터를 네트워크로 연결해 훈련하는 분산형 구조가 대세로 떠오름
전력 제약 및 인프라 확장 한계를 돌파하기 위해 전국적 데이터센터 연결 시도 중 (예: Microsoft의 3마일섬 재가동, AWS의 원자력 발전소 인수 등)

NVIDIA의 하드웨어·소프트웨어 대응과 구조적 어려움

NVIDIA는 GB200 서버, Spectrum-X, DCGM, RAS 등으로 대응 시도 중
Infiniband 기반 네트워크 설계는 대규모 클러스터에 취약하며, 장애 허용 설계 미비
Google의 Pathways, Microsoft의 Singularity 등은 자체 fault-tolerant 시스템, GPU 메모리 오류 감지에 강점
Kubernetes 기반의 NVIDIA BaseCommand는 하이퍼스케일러의 Borg, MegaScaler 등과 비교해 확장성과 통합성 열세
냉각 시스템의 후발주자로서, Google 대비 전력효율·수명·공간 효율성 모두 열세 (예: Google PUE 1.1 vs NVIDIA 1.4 이상)

결론

NVIDIA는 여전히 강력한 GPU 성능을 보유하고 있지만, 시스템 최적화, 인프라 통합, 비용 효율성에서는 하이퍼스케일러에 밀리는 구조적 한계
하이퍼스케일러는 이미 칩부터 인프라, 소프트웨어까지 수직 통합을 완성해 완전한 대체 가능성 확보
NVIDIA는 과거의 GPU 중심 전략에서 벗어나 전체 시스템 혁신 없이는 향후 AI 컴퓨팅 시장에서 지속 가능한 리더십 유지가 어려울 위험 존재

▲

kandk 3달전 [-]

구글 텐서, 테슬라 도조, AMD 때문에 엔비디아 주식 안산 1인..

답변달기

▲

kimjoin2 3달전 [-]

「하이퍼스케일러의 맞춤형 칩」의 단점도 궁금하내요
마치 모든 면에서 더 우월한 것 처럼 묘사되는 것 같아서요

답변달기

▲

GN⁺ 3달전 [-]

Hacker News 의견

Nvidia가 아무것도 하지 않고 있는 동안 경쟁자들이 갑자기 성공하여 Nvidia를 위협할 것이라는 가정에 기반한 또 다른 기사라는 의견이 있음
- Nvidia에 대한 비관론자들이 언젠가는 맞을 수도 있지만, 지금까지는 실패한 경우가 많음
Marvell의 주가가 올해 50% 이상 하락했음에도 불구하고, Nvidia의 GPU에 대한 수요는 여전히 강력함
- 클라우드가 제공하는 기능을 GPU가 대체할 수 없다는 점을 강조함
- Nvidia가 10조 달러 규모의 회사가 될 것이라는 Jensen의 비전에 동의함
- Nvidia가 AI 폰, LLM 경쟁 서비스, AI PC, 자율주행차, 로봇 등을 출시할 가능성을 언급함
- Warren Buffet이 Google과 Apple에 투자하지 않은 것을 후회한 것처럼, 현재도 비슷한 상황이 발생하고 있다고 봄
서비스가 Nvidia를 보호할 것이라는 의견이 있음
- CUDA, Infiniband, NGC, NVLink 등으로 생태계를 소유하고 있으며, AI Foundry와 같은 추가 애플리케이션을 통해 확장할 필요가 있음
- 맞춤형 디자인과 GPU 프로젝트 컨설팅을 통해 시장이 느려질 때 수익을 창출할 수 있음
Nvidia의 전략적 위치를 과소평가하고 있다는 의견이 있음
- Nvidia는 하드웨어 게임에서 영원히 승리할 필요가 없으며, AI 스택 전체를 구축하고 있음
- 하드웨어, 네트워킹, 소프트웨어, 모델, 개발자 도구를 포괄적으로 제공하는 유일한 회사임
- Nvidia는 통합 플랫폼을 구축하고 있으며, 이는 업계 표준이 될 것임
AMD가 Nvidia와 비밀 협정을 맺고 일부러 이런 상황을 만들고 있다는 의견이 있음
- Nvidia는 TSMC에서 Apple과 독점적인 위치를 공유하고 있음
Nvidia가 기능적 독점에서 경쟁해야 하는 상황으로 전환되고 있음
- 이상적이지는 않지만 치명적인 타격은 아님
H100 세대가 최고 가격 책정력을 나타내고 있으며, 대안이 부족하여 계속해서 수익을 창출할 것이라는 의견이 있음
- 장기적인 내구성에 대한 의문이 있음
- 하이퍼스케일러들이 AI 수요를 통합하고 있으며, 경쟁력 있는 칩 개발을 진행 중임
- 대형 GPU 팜을 구축하는 다른 회사들도 존재함
Nvidia의 GPU 드라이버 품질 관리가 떨어지고 있다는 의견이 있음
- 그러나 제품이 몇 년 전부터 매진되고 있어 품질 관리가 떨어진다고 보기 어려움

답변달기