TPU vs. GPU, 그리고 Google이 장기적으로 AI 경쟁에서 승리할 수 있는 이유

(uncoveralpha.com)

7P by GN⁺ 3달전 | ★ favorite | 댓글 1개

Google TPU는 대규모 AI 추론 부하를 처리하기 위해 설계된 전용 ASIC 칩으로, GPU 대비 효율성과 비용 경쟁력을 확보
Systolic Array 아키텍처를 통해 메모리 접근을 최소화하고, 연산 효율(Operations per Joule) 을 극대화한 것이 핵심 차별점
최신 TPUv7(Ironwood) 는 이전 세대 대비 성능과 메모리 대역폭이 비약적으로 향상되어, Nvidia Blackwell GPU와 유사한 수준의 성능 달성
TPU의 에코시스템 제약과 GCP 독점 제공 구조가 확산의 주요 장애 요인이지만, Google은 외부 고객 확대를 위한 조직 개편 및 지원 강화 중
자체 칩을 통한 클라우드 마진 회복과 경쟁력 강화로, Google이 장기적으로 AI 인프라 시장의 핵심 승자가 될 가능성이 있음

TPU의 역사와 개발 배경

2013년 Google은 음성 검색 사용량 증가로 인해 데이터센터 용량이 두 배로 필요하다는 계산 결과를 얻음
- 기존 CPU·GPU로는 딥러닝 연산(대규모 행렬 곱셈) 을 효율적으로 처리하기 어려웠음
이에 따라 Google은 TensorFlow 신경망 전용 ASIC 개발을 결정, 15개월 만에 실리콘을 데이터센터에 배치
2015년에는 이미 Google Maps, Photos, Translate 등 주요 서비스에 TPU가 적용
2016년 Google I/O에서 공식 공개, 이후 TPU는 AI 추론 비용 절감을 위한 핵심 인프라로 발전

TPU와 GPU의 구조적 차이

GPU는 범용 병렬 프로세서, TPU는 도메인 특화형 아키텍처
- GPU는 그래픽 처리용으로 설계되어 캐시, 분기 예측 등 복잡한 제어 로직이 포함
- TPU는 이를 제거하고 Systolic Array 구조로 데이터 이동을 최소화
TPU의 Systolic Array는 데이터를 한 번 로드한 뒤 연속적인 연산 흐름으로 전달, Von Neumann 병목 해소
Ironwood(7세대) 개선점
- SparseCore 강화로 대규모 임베딩 처리 효율 향상
- HBM 용량 192GB, 대역폭 7,370GB/s로 증가
- Inter-Chip Interconnect(ICI) 성능 향상, 최대 1.2TB/s 대역폭
Google은 Optical Circuit Switch(OCS) 와 3D torus 네트워크로 대규모 TPU Pod 구성
- 전력 효율이 높지만 유연성은 InfiniBand 대비 낮음

TPU vs GPU 성능 비교

TPUv7(BF16 4,614 TFLOPS) vs TPUv5p(459 TFLOPS) 로 약 10배 성능 향상
업계 인터뷰 요약
- TPU는 성능당 전력 효율과 비용 효율에서 우위
- 특정 애플리케이션에서는 1.4배 높은 성능/달러 달성
- TPUv6는 GPU 대비 60~65% 효율 우위, 이전 세대는 40~45%
- TPU는 발열과 전력 소모가 적고, 환경적 부담이 낮음
일부 고객은 TPU Pod 사용 시 비용을 1/5 수준으로 절감 가능
ASIC 구조로 인해 크기 30% 감소, 전력 50% 절감 효과 언급
Google 내부 자료에 따르면 TPUv7은 TPUv6e 대비 와트당 성능 2배 향상
Nvidia CEO Jensen Huang도 TPU를 “특수한 사례”로 평가하며 주목

TPU 도입을 가로막는 문제들

첫 번째 장벽은 생태계(CUDA 독점)
- 대학·산업 모두 CUDA 중심으로 교육·개발
- TPU는 JAX·TensorFlow 중심이며, PyTorch 지원은 상대적으로 늦게 강화됨
멀티클라우드 전략의 확산도 제약
- 대부분 기업은 AWS/Azure/GCP에 데이터가 나뉘어 있어 데이터 이동 비용(egress)이 크기 때문에 GPU 기반 워크로드가 더 유연함
- TPU는 GCP 전용, Nvidia는 3대 클라우드 모두에서 이용 가능
TPU를 선택했다가 가격이 바뀌거나 환경이 변하면 재작성 비용이 매우 큼
구글은 최근에야 외부 판매·확산을 위한 조직을 확대하고 있으며, 일부 전·현직자들은 향후 네오클라우드 등을 통한 외부 공급 가능성을 언급

TPU와 Google Cloud의 전략적 가치

AI 시대 클라우드 산업은 고마진 구조(50~70%) → 저마진(20~35%) 으로 전환 중
- 원인은 Nvidia의 75% 마진으로 인한 비용 압박
자체 ASIC(특히 TPU)을 보유한 사업자만이 전통적 클라우드 마진(50%대) 로 복귀 가능
구글의 우위 요소
- TPU는 가장 성숙한 클라우드용 ASIC
- Google은 RTL 등 칩 설계의 프런트엔드를 대부분 내부에서 수행
- Broadcom은 물리 설계(백엔드)만 담당, 마진 구조가 Nvidia보다 낮아 TPU 비용 경쟁력 강화
- Google이 소프트웨어 최적화 스택 전체를 보유해 하드웨어 성능을 극대화
TPU 기반으로 Gemini 3 등 주요 모델이 학습 및 추론 수행
- 내부 AI 서비스 전반에 TPU 활용 확대
SemiAnalysis는 “Google의 7세대 TPU는 Nvidia Blackwell과 동급 수준”이라 평가
TPU는 GCP의 장기 경쟁우위이자, AI 인프라 시장 점유율 확대의 핵심 동력으로 평가됨

▲

GN⁺ 3달전 [-]

Hacker News 의견

Google의 진짜 무기는 TPU 실리콘 자체가 아니라, OCS(Optical Circuit Switch) 인터커넥트를 통한 대규모 병렬 확장성임
The Next Platform 인용에 따르면, Ironwood TPU 9,216개를 연결해 1.77PB의 HBM 메모리를 활용할 수 있음. 이는 Nvidia의 Blackwell GPU 기반 랙스케일 시스템(20.7TB HBM)에 비해 압도적인 규모임
Nvidia는 단일 칩 수준에서는 우수하지만, 대규모 분산 학습이나 추론에서는 Google의 광학 스위칭 확장성에 필적할 만한 것이 없음
- Google은 수직 통합 스택 전체를 소유하고 있음. 덕분에 AI 서비스를 클라우드 규모로 훨씬 저렴하고도 수익성 있게 제공할 수 있음
  대부분의 기업은 하드웨어를 직접 사거나 모델을 훈련할 필요 없이, Google이 제공하는 AI 앱스토어 같은 서비스를 활용하면 됨
- 사실 두 시스템은 네트워크 구조가 완전히 다름. Nvidia의 NVLink는 all-to-all 스위치형 패브릭, TPU는 3D 토러스 구조임
  예를 들어 Mixture of Experts 모델은 all-to-all 통신이 많아 NVLink 쪽이 훨씬 효율적임
- Nvidia는 여전히 자기 기술이 더 낫다고 주장하는 트윗을 올림
  Nvidia 공식 트윗 링크
- 만약 Google의 주장이 사실이라면 MLPerf 벤치마크에서 압도해야 하지만 그렇지 않음
  모델 병렬화에는 빠르고 작은 네트워크가, 데이터 병렬화에는 큰 네트워크가 유리함. 이 균형 때문에 Nvidia가 승리 중임
- 같은 메모리 용량을 맞추려면 Google은 칩 수가 100배 더 필요함
Gemini 3 Pro는 이미 구형에 가까움. Google이 Anthropic보다 훨씬 많은 자원을 가지고 있지만, 하드웨어가 비밀 무기라면 이미 시장을 장악했어야 함
하지만 현실은 다름
1. 하드웨어를 효율적으로 활용하는 게 어렵고, 최적화가 끝나면 이미 다음 모델로 넘어감
2. 대부분의 기업은 돈으로 해결 가능함. H100으로도 충분히 잘 돌아감
3. 새로운 연구 기법만으로도 모델 성능을 크게 높일 수 있음
4. 모델 개발은 여전히 데이터셋 정제와 평가 작업 같은 인적 노동이 많음
5. 맞춤형 하드웨어는 맞춤형 문제를 낳음. TPU 클러스터 문제는 Stack Overflow에서 답을 찾을 수 없음
CUDA는 학습에는 중요하지만, 추론 단계에서는 덜 중요하다는 의견이 있음
- NVIDIA 칩은 더 범용적임. 학습 중에는 sin, cos 같은 특수 연산, 중간 계산 저장, 그래디언트 처리 등 다양한 기능이 필요함
  하지만 추론은 고정된 가중치를 반복 적용하는 단순한 과정이라 TPU가 더 효율적일 수 있음
- 학습용 칩 시장은 거품일 수 있지만, 추론용 시장은 훨씬 큼. 언젠가 모델 성능이 충분해지면 학습 수요는 줄고, 전력 효율적인 추론 시스템이 주류가 될 것임
- CUDA가 중요한 이유는 생태계 의존성 때문임. 대부분의 학습용 소프트웨어가 CUDA 기반으로 만들어져 있음
- 학습은 거대한 문제를 쪼개고 데이터 의존성을 관리하는 과정이고, 추론은 독립적인 작은 문제들의 집합임
- CUDA는 개발자 경험이 훨씬 좋음. 연구 생산성이 중요할 때는 이게 결정적임
Nvidia가 TPU처럼 특화된 칩을 만들지 못할 이유는 없음
- Nvidia도 결국 그렇게 할 것임. 다만 Google은 칩 설계자이자 AI 기업이라 이익을 모두 가져감
  Nvidia는 TSMC에 위탁 생산 후 비싼 가격에 판매하지만, Google은 자체 사용으로 마진을 절약함
- DeepMind는 TPU 팀과 직접 협업해 프로젝트 맞춤형 칩을 설계함. OpenAI도 같은 이유로 자체 칩 개발을 발표했지만, 이는 매우 자본집약적임
- TPU는 NVidia GPU보다 싸고, Google 내부용으로 수직 통합되어 있음
- Nvidia의 위험은 존재론적 위기보다는 이익률 하락임. 칩 판매량이 100배 늘어도 마진이 5%로 떨어지면 시가총액은 줄어듦
- 사실 Nvidia는 이미 Tensor Core로 같은 방향으로 진화 중임
Meta가 Google 칩에 수십억 달러 투자 협상 중이라는 Reuters 보도가 있음
LLM용 ASIC은 암호화폐용 ASIC보다 훨씬 복잡함. 암호화폐는 고정된 해시 알고리즘만 처리하면 되지만, LLM은 계속 진화함
TPU가 이런 맥락에서 어떤 의미인지 헷갈림
- LLM은 메모리와 인터커넥트 대역폭이 중요함. 반면 암호화폐는 100% 연산 중심임
- 대부분의 LLM은 행렬 곱셈 중심이라 TPU가 이를 가속함. PyTorch에도 TPU 지원이 있음
- ASIC이라도 프로그래머블할 수 있음. TPU는 다양한 모델을 실행해야 하므로 하드코딩된 칩과 다름
- LLM 구조는 변하지만 공통 구성요소(행렬 연산, 부동소수점 타입)는 동일함. 따라서 TPU는 사실상 LLM용 ASIC임
- 암호화폐도 변함. 예를 들어 Monero는 ASIC을 막기 위해 CPU 수준의 구조를 사용함
개인용 독립 TPU 옵션이 더 많았으면 좋겠음. 현재는 2019년산 Coral이 유일한 선택지임
이 논쟁은 RISC vs CISC처럼 학문적임. Nvidia GPU도 결국 TPU와 같은 일을 하도록 설계되고 있음
Google 내부에서도 5년 뒤에는 큰 차이가 없을 수 있음
Google은 TPU로 이익을 얻지만, 외부 개발자에게는 직접적 혜택이 없음
- Google이 TPU를 판매하지 않는 건 사실이지만, 다른 기업들도 자체 칩을 개발 중임
  Microsoft의 Maia, AMD/NVIDIA의 데이터센터용 칩, 그리고 네트워크 전문 기업 인수 등으로 모두 같은 방향으로 가고 있음
  Google이 앞서 있지만, 결국 수렴 경쟁이 될 것임
희소 모델(sparse model) 은 동일한 품질을 유지하면서 연산량과 저장 공간을 16배 줄일 수 있음
TPU는 희소 행렬 처리에는 약하지만, 밀집(dense) 모델 학습에는 강함
- 다만 TPU에는 SparseCore라는 전용 하드웨어가 포함되어 있음
  TPU 시스템 아키텍처 문서
  OpenXLA SparseCore 소개
결국 이 경쟁의 결승선은 어디인가, 혹은 바닥이 어디인가 하는 질문이 남음

답변달기