# TPU vs. GPU, 그리고 Google이 장기적으로 AI 경쟁에서 승리할 수 있는 이유

> Clean Markdown view of GeekNews topic #24674. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=24674](https://news.hada.io/topic?id=24674)
- GeekNews Markdown: [https://news.hada.io/topic/24674.md](https://news.hada.io/topic/24674.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2025-11-28T09:12:32+09:00
- Updated: 2025-11-28T09:12:32+09:00
- Original source: [uncoveralpha.com](https://www.uncoveralpha.com/p/the-chip-made-for-the-ai-inference)
- Points: 7
- Comments: 1

## Summary

구글의 **TPUv7(Ironwood)** 는 GPU 중심의 AI 인프라 시장에 균열을 내는 존재로, **전용 ASIC 아키텍처와 Systolic Array 설계**를 통해 연산 효율과 전력당 성능을 극대화합니다. 특히 **성능/달러와 전력 효율** 면에서 Nvidia GPU를 앞서며, 구글이 자체 칩으로 **클라우드 마진을 회복**하고 장기적으로 AI 인프라 경쟁에서 우위를 점할 가능성을 보여줍니다. 다만 **CUDA 생태계의 벽**과 **GCP 독점 구조**는 여전히 확산의 걸림돌로 남아 있습니다. GPU 독점 구도가 흔들릴 조짐이 보이는 지금, 하드웨어부터 소프트웨어까지 수직 통합을 시도하는 구글의 전략은 개발자와 인프라 엔지니어 모두에게 흥미로운 시그널로 다가옵니다.

## Topic Body

- **Google TPU**는 대규모 AI 추론 부하를 처리하기 위해 설계된 **전용 ASIC 칩**으로, GPU 대비 효율성과 비용 경쟁력을 확보  
- **Systolic Array 아키텍처**를 통해 메모리 접근을 최소화하고, **연산 효율(Operations per Joule)** 을 극대화한 것이 핵심 차별점  
- 최신 **TPUv7(Ironwood)** 는 이전 세대 대비 성능과 메모리 대역폭이 비약적으로 향상되어, **Nvidia Blackwell GPU**와 유사한 수준의 성능 달성  
- TPU의 **에코시스템 제약**과 **GCP 독점 제공 구조**가 확산의 주요 장애 요인이지만, Google은 외부 고객 확대를 위한 조직 개편 및 지원 강화 중  
- 자체 칩을 통한 **클라우드 마진 회복과 경쟁력 강화**로, Google이 장기적으로 **AI 인프라 시장의 핵심 승자**가 될 가능성이 있음  
  
---  
  
### TPU의 역사와 개발 배경  
- 2013년 Google은 음성 검색 사용량 증가로 인해 **데이터센터 용량이 두 배로 필요**하다는 계산 결과를 얻음  
  - 기존 CPU·GPU로는 **딥러닝 연산(대규모 행렬 곱셈)** 을 효율적으로 처리하기 어려웠음  
- 이에 따라 Google은 **TensorFlow 신경망 전용 ASIC** 개발을 결정, 15개월 만에 실리콘을 데이터센터에 배치  
- 2015년에는 이미 **Google Maps, Photos, Translate** 등 주요 서비스에 TPU가 적용  
- 2016년 Google I/O에서 공식 공개, 이후 TPU는 **AI 추론 비용 절감**을 위한 핵심 인프라로 발전  
  
### TPU와 GPU의 구조적 차이  
- GPU는 **범용 병렬 프로세서**, TPU는 **도메인 특화형 아키텍처**  
  - GPU는 그래픽 처리용으로 설계되어 캐시, 분기 예측 등 **복잡한 제어 로직**이 포함  
  - TPU는 이를 제거하고 **Systolic Array 구조**로 데이터 이동을 최소화  
- TPU의 Systolic Array는 데이터를 한 번 로드한 뒤 **연속적인 연산 흐름**으로 전달, **Von Neumann 병목** 해소  
- **Ironwood(7세대)** 개선점  
  - **SparseCore** 강화로 대규모 임베딩 처리 효율 향상  
  - **HBM 용량 192GB**, **대역폭 7,370GB/s**로 증가  
  - **Inter-Chip Interconnect(ICI)** 성능 향상, 최대 1.2TB/s 대역폭  
- Google은 **Optical Circuit Switch(OCS)** 와 **3D torus 네트워크**로 대규모 TPU Pod 구성  
  - 전력 효율이 높지만 유연성은 InfiniBand 대비 낮음  
  
### TPU vs GPU 성능 비교  
- **TPUv7(BF16 4,614 TFLOPS)** vs **TPUv5p(459 TFLOPS)** 로 약 10배 성능 향상  
- 업계 인터뷰 요약  
  - TPU는 **성능당 전력 효율**과 **비용 효율**에서 우위  
  - 특정 애플리케이션에서는 **1.4배 높은 성능/달러** 달성  
  - TPUv6는 GPU 대비 **60~65% 효율 우위**, 이전 세대는 40~45%  
  - TPU는 **발열과 전력 소모가 적고**, **환경적 부담이 낮음**  
- 일부 고객은 TPU Pod 사용 시 **비용을 1/5 수준으로 절감** 가능  
- ASIC 구조로 인해 **크기 30% 감소, 전력 50% 절감** 효과 언급  
- Google 내부 자료에 따르면 **TPUv7은 TPUv6e 대비 와트당 성능 2배 향상**  
- **Nvidia CEO Jensen Huang**도 TPU를 “특수한 사례”로 평가하며 주목  
  
### TPU 도입을 가로막는 문제들  
- 첫 번째 장벽은 **생태계(CUDA 독점)**  
  - 대학·산업 모두 CUDA 중심으로 교육·개발  
  - TPU는 JAX·TensorFlow 중심이며, PyTorch 지원은 상대적으로 늦게 강화됨  
- **멀티클라우드 전략의 확산**도 제약  
  - 대부분 기업은 AWS/Azure/GCP에 데이터가 나뉘어 있어 **데이터 이동 비용(egress)이 크기 때문**에 GPU 기반 워크로드가 더 유연함  
  - TPU는 **GCP 전용**, Nvidia는 3대 클라우드 모두에서 이용 가능  
- TPU를 선택했다가 가격이 바뀌거나 환경이 변하면 **재작성 비용이 매우 큼**  
- 구글은 최근에야 외부 판매·확산을 위한 조직을 확대하고 있으며, 일부 전·현직자들은 **향후 네오클라우드 등을 통한 외부 공급 가능성**을 언급  
  
### TPU와 Google Cloud의 전략적 가치  
- AI 시대 클라우드 산업은 **고마진 구조(50~70%) → 저마진(20~35%)** 으로 전환 중  
  - 원인은 **Nvidia의 75% 마진**으로 인한 비용 압박  
- 자체 ASIC(특히 TPU)을 보유한 사업자만이 **전통적 클라우드 마진(50%대)** 로 복귀 가능  
- 구글의 우위 요소  
  - TPU는 **가장 성숙한 클라우드용 ASIC**  
  - Google은 RTL 등 칩 설계의 **프런트엔드를 대부분 내부에서 수행**  
  - Broadcom은 물리 설계(백엔드)만 담당, 마진 구조가 Nvidia보다 낮아 TPU 비용 경쟁력 강화  
  - Google이 **소프트웨어 최적화 스택 전체**를 보유해 하드웨어 성능을 극대화  
- TPU 기반으로 **Gemini 3 등 주요 모델**이 학습 및 추론 수행  
  - 내부 AI 서비스 전반에 TPU 활용 확대  
- **SemiAnalysis**는 “Google의 7세대 TPU는 Nvidia Blackwell과 동급 수준”이라 평가  
- TPU는 **GCP의 장기 경쟁우위**이자, **AI 인프라 시장 점유율 확대의 핵심 동력**으로 평가됨

## Comments


### Comment 46905

- Author: neo
- Created: 2025-11-28T09:12:33+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=46069048) 
- Google의 진짜 **무기**는 TPU 실리콘 자체가 아니라, OCS(Optical Circuit Switch) 인터커넥트를 통한 **대규모 병렬 확장성**임  
  The Next Platform 인용에 따르면, Ironwood TPU 9,216개를 연결해 1.77PB의 HBM 메모리를 활용할 수 있음. 이는 Nvidia의 Blackwell GPU 기반 랙스케일 시스템(20.7TB HBM)에 비해 압도적인 규모임  
  Nvidia는 단일 칩 수준에서는 우수하지만, 대규모 분산 학습이나 추론에서는 Google의 광학 스위칭 확장성에 필적할 만한 것이 없음
  - Google은 **수직 통합 스택** 전체를 소유하고 있음. 덕분에 AI 서비스를 클라우드 규모로 훨씬 저렴하고도 수익성 있게 제공할 수 있음  
    대부분의 기업은 하드웨어를 직접 사거나 모델을 훈련할 필요 없이, Google이 제공하는 AI 앱스토어 같은 서비스를 활용하면 됨
  - 사실 두 시스템은 네트워크 구조가 완전히 다름. Nvidia의 NVLink는 **all-to-all 스위치형 패브릭**, TPU는 **3D 토러스** 구조임  
    예를 들어 Mixture of Experts 모델은 all-to-all 통신이 많아 NVLink 쪽이 훨씬 효율적임
  - Nvidia는 여전히 자기 기술이 더 낫다고 주장하는 트윗을 올림  
    [Nvidia 공식 트윗 링크](https://x.com/nvidianewsroom/status/1993364210948936055)
  - 만약 Google의 주장이 사실이라면 MLPerf 벤치마크에서 압도해야 하지만 그렇지 않음  
    모델 병렬화에는 빠르고 작은 네트워크가, 데이터 병렬화에는 큰 네트워크가 유리함. 이 균형 때문에 Nvidia가 승리 중임
  - 같은 메모리 용량을 맞추려면 Google은 **칩 수가 100배** 더 필요함

- Gemini 3 Pro는 이미 구형에 가까움. Google이 Anthropic보다 훨씬 많은 자원을 가지고 있지만, 하드웨어가 비밀 무기라면 이미 시장을 장악했어야 함  
  하지만 현실은 다름  
  1. 하드웨어를 **효율적으로 활용**하는 게 어렵고, 최적화가 끝나면 이미 다음 모델로 넘어감  
  2. 대부분의 기업은 돈으로 해결 가능함. H100으로도 충분히 잘 돌아감  
  3. 새로운 연구 기법만으로도 모델 성능을 크게 높일 수 있음  
  4. 모델 개발은 여전히 **데이터셋 정제와 평가 작업** 같은 인적 노동이 많음  
  5. 맞춤형 하드웨어는 맞춤형 문제를 낳음. TPU 클러스터 문제는 Stack Overflow에서 답을 찾을 수 없음

- CUDA는 학습에는 중요하지만, **추론 단계에서는 덜 중요**하다는 의견이 있음  
  - NVIDIA 칩은 더 **범용적**임. 학습 중에는 sin, cos 같은 특수 연산, 중간 계산 저장, 그래디언트 처리 등 다양한 기능이 필요함  
    하지만 추론은 고정된 가중치를 반복 적용하는 단순한 과정이라 TPU가 더 효율적일 수 있음  
  - 학습용 칩 시장은 거품일 수 있지만, 추론용 시장은 훨씬 큼. 언젠가 모델 성능이 충분해지면 학습 수요는 줄고, **전력 효율적인 추론 시스템**이 주류가 될 것임  
  - CUDA가 중요한 이유는 **생태계 의존성** 때문임. 대부분의 학습용 소프트웨어가 CUDA 기반으로 만들어져 있음  
  - 학습은 거대한 문제를 쪼개고 데이터 의존성을 관리하는 과정이고, 추론은 독립적인 작은 문제들의 집합임  
  - CUDA는 개발자 경험이 훨씬 좋음. 연구 생산성이 중요할 때는 이게 결정적임

- Nvidia가 TPU처럼 특화된 칩을 만들지 못할 이유는 없음  
  - Nvidia도 결국 그렇게 할 것임. 다만 Google은 **칩 설계자이자 AI 기업**이라 이익을 모두 가져감  
    Nvidia는 TSMC에 위탁 생산 후 비싼 가격에 판매하지만, Google은 자체 사용으로 마진을 절약함  
  - DeepMind는 TPU 팀과 직접 협업해 **프로젝트 맞춤형 칩**을 설계함. OpenAI도 같은 이유로 자체 칩 개발을 발표했지만, 이는 매우 자본집약적임  
  - TPU는 NVidia GPU보다 싸고, Google 내부용으로 **수직 통합**되어 있음  
  - Nvidia의 위험은 존재론적 위기보다는 **이익률 하락**임. 칩 판매량이 100배 늘어도 마진이 5%로 떨어지면 시가총액은 줄어듦  
  - 사실 Nvidia는 이미 **Tensor Core**로 같은 방향으로 진화 중임

- Meta가 Google 칩에 **수십억 달러 투자 협상 중**이라는 [Reuters 보도](https://www.reuters.com/business/meta-talks-spend-billions-googles-chips-information-reports-2025-11-25/)가 있음

- LLM용 ASIC은 암호화폐용 ASIC보다 훨씬 복잡함. 암호화폐는 고정된 해시 알고리즘만 처리하면 되지만, LLM은 계속 진화함  
  TPU가 이런 맥락에서 어떤 의미인지 헷갈림  
  - LLM은 **메모리와 인터커넥트 대역폭**이 중요함. 반면 암호화폐는 100% 연산 중심임  
  - 대부분의 LLM은 **행렬 곱셈** 중심이라 TPU가 이를 가속함. PyTorch에도 TPU 지원이 있음  
  - ASIC이라도 **프로그래머블**할 수 있음. TPU는 다양한 모델을 실행해야 하므로 하드코딩된 칩과 다름  
  - LLM 구조는 변하지만 공통 구성요소(행렬 연산, 부동소수점 타입)는 동일함. 따라서 TPU는 사실상 LLM용 ASIC임  
  - 암호화폐도 변함. 예를 들어 Monero는 ASIC을 막기 위해 CPU 수준의 구조를 사용함

- 개인용 **독립 TPU** 옵션이 더 많았으면 좋겠음. 현재는 2019년산 Coral이 유일한 선택지임

- 이 논쟁은 **RISC vs CISC**처럼 학문적임. Nvidia GPU도 결국 TPU와 같은 일을 하도록 설계되고 있음  
  Google 내부에서도 5년 뒤에는 큰 차이가 없을 수 있음  
  Google은 TPU로 이익을 얻지만, 외부 개발자에게는 직접적 혜택이 없음  
  - Google이 TPU를 판매하지 않는 건 사실이지만, 다른 기업들도 자체 칩을 개발 중임  
    Microsoft의 **Maia**, AMD/NVIDIA의 데이터센터용 칩, 그리고 네트워크 전문 기업 인수 등으로 모두 같은 방향으로 가고 있음  
    Google이 앞서 있지만, 결국 **수렴 경쟁**이 될 것임

- **희소 모델(sparse model)** 은 동일한 품질을 유지하면서 연산량과 저장 공간을 16배 줄일 수 있음  
  TPU는 희소 행렬 처리에는 약하지만, 밀집(dense) 모델 학습에는 강함  
  - 다만 TPU에는 **SparseCore**라는 전용 하드웨어가 포함되어 있음  
    [TPU 시스템 아키텍처 문서](https://docs.cloud.google.com/tpu/docs/system-architecture-tpu-vm)  
    [OpenXLA SparseCore 소개](https://openxla.org/xla/sparsecore)

- 결국 이 경쟁의 **결승선은 어디인가**, 혹은 **바닥이 어디인가** 하는 질문이 남음