# 구글의 Tensor Processing Unit 이해하기

> Clean Markdown view of GeekNews topic #25083. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=25083](https://news.hada.io/topic?id=25083)
- GeekNews Markdown: [https://news.hada.io/topic/25083.md](https://news.hada.io/topic/25083.md)
- Type: news
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-12-15T11:02:01+09:00
- Updated: 2025-12-15T11:02:01+09:00
- Original source: [considerthebulldog.com](https://considerthebulldog.com/tte-tpu/)
- Points: 26
- Comments: 3

## Summary

**TPU**는 범용 칩의 한계를 넘어, 신경망 계산에 꼭 필요한 연산만 남긴 **Google의 도메인 특화 가속기**입니다. 반도체 성능 향상이 자동으로 따라오던 시대가 끝나자, 구글은 기다림 대신 직접 설계를 택했고 그 결과가 7세대 **TPU Ironwood**로 이어졌습니다. 하드웨어·컴파일러·네트워크·운영 소프트웨어를 함께 설계하는 이 시스템은 단일 칩이 아니라, 전력 효율과 운영 비용까지 통합적으로 최적화된 하나의 거대한 계산 구조로 진화했습니다. 최근 많은 곳에서 자체 칩 설계를 하고 있는데, 참고하면 좋은 글이네요.

## Topic Body

- **TPU**는 딥러닝에 꼭 필요한 계산만 남기고 나머지를 과감히 버린 **Google의 도메인 특화 가속기**  
- 2013년 데이터센터 확장 한계를 계기로 시작되어, 12년 만에 7세대인 ‘Ironwood’까지 발전   
- 반도체 성능이 자동으로 좋아지던 시대가 끝나며, **기다리지 않고 직접 설계하는 전략**이 핵심 선택지가 됨  
- TPU는 칩 하나가 아니라 **하드웨어·컴파일러·네트워크·운영 소프트웨어의 공동설계 시스템**임  
- 세대가 거듭될수록 성능 경쟁보다 **전력·배치·운영 비용(TCO)** 이 설계의 중심으로 이동함  
- TPU의 경쟁력은 단일 기술이 아니라 **10년 이상 축적된 설계·운영 경험의 합**에 있음  
  
---  
### Something New  
- TPU는 비밀 병기가 아니라, **오랜 시간 공개 연구와 내부 반복으로 다듬어진 결과물**임  
- Google은 데이터센터를 계속 키우는 대신, **계산 방식을 근본적으로 바꾸는 길**을 선택함  
- 2013년 무렵 데이터센터 용량을 두 배로 늘려야 하는 압력과 시간 제약이 **15개월 만의 TPU 탄생**으로 연결됨  
- 2025년 4월 Google Cloud Next에서 7세대 TPU Ironwood 발표, 9,216칩/pod, 42.5 Exaflops, 10MW 수치 제시  
- GPU는 딥러닝을 위해 만들어진 장치가 아니었고, **TPU는 처음부터 신경망 계산을 전제로 설계됨**  
- 이 선택으로 연산 성능뿐 아니라 **전력 효율과 운영 안정성**에서 구조적 이점을 확보함  
- “우연”이 아니라 **제약·트레이드오프·공동설계**의 반복으로 누적된 결과  
  
### Slowing Down  
- Moore’s Law와 Dennard Scaling의 약화로 예전에는 새 CPU를 기다리기만 해도 프로그램이 빨라졌지만, **그 전제는 무너짐**  
- 트랜지스터 증가는 계속되지만 **전력·발열 한계**가 성능 향상을 가로막음  
- 동시에 신경망은 더 큰 데이터와 더 큰 모델을 요구하며 **계산 수요가 폭증함**  
- 이에 따라 “모든 일을 조금씩 잘하는 칩”보다 **“한 가지 일을 극도로 잘하는 칩”** 이 필요해짐  
- 신경망 계산의 핵심이 **행렬 곱 중심의 반복 연산**이라는 점이 특화 설계를 가능하게 함  
  
### The Inference Chip  
- 첫 TPU는 학습이 아닌 **추론(Inference)**, 즉 이미 학습된 모델 실행에 집중함  
- TPUv1은 **캐시·분기 예측·멀티스레딩을 제거**해 제어 비용을 최소화함  
- 대신 **대형 행렬 곱을 쉬지 않고 처리하는 Systolic Array(MXU)** 에 모든 자원을 집중함  
- 실행 중 판단을 하지 않고 **컴파일 시점에 확정된 실행 순서**를 그대로 따름  
- 그 결과 같은 전력으로 **GPU·CPU 대비 훨씬 많은 추론 작업**을 처리함  
  
### The Training Chip  
- 학습은 추론보다 훨씬 많은 계산과 **더 넓은 수치 표현 범위**를 요구함  
- TPUv2부터는 추론 전용 구조를 넘어 **학습을 위한 유연성**이 추가됨  
- 핵심 변화는 **행렬(MXU)·벡터(VPU)·제어(Scalar Unit)의 역할 분리**임  
- 실행 흐름은 **XLA 컴파일러가 미리 계산하고 결정**하며, 칩은 이를 그대로 수행함  
- 여러 TPU가 하나의 장치처럼 작동하도록 **전용 고속 인터커넥트(ICI)** 가 함께 설계됨  
  
### Scaling Up  
- 시스템이 커지며 질문은 “얼마나 빠른가”에서 **“얼마나 오래, 싸게 굴릴 수 있는가”** 로 이동함  
- 이를 위해 연산 장치 가까이에 **대형 온칩 메모리(CMEM)** 를 두어 느린 DRAM 접근을 줄임  
- 추천 시스템처럼 희소 데이터가 많은 작업을 위해 **SparseCore** 같은 전용 유닛도 도입됨  
- 칩 내부 통신과 칩 간 통신을 분리해 **배선 복잡도와 병목을 구조적으로 완화**함  
- 성능 수치보다 **운영 효율이 전체 설계를 좌우**하게 됨  
  
### Island Hopping  
- 수천 개의 TPU를 쓰는 환경에서는 **고장이 예외가 아니라 전제**임  
- 목표는 멈추지 않는 시스템, 즉 **부분 실패를 흡수하는 구조**임  
- 작업은 여러 TPU에 나뉘어 실행되지만 **하나의 프로그램처럼 보이도록 관리**됨  
- 문제가 생기면 전체를 멈추기보다 **빠른 재배치와 재시작**을 선택함  
- 이 복잡한 과정은 대부분 **운영 소프트웨어가 자동으로 처리**함  
  
### Datacenter Network 확장  
- 하나의 TPU 묶음으로 부족해지면 여러 묶음을 연결해야 함  
- 일반 네트워크로는 한계가 있어 **광 기반 스위칭(OCS)** 이 도입됨  
- 이를 통해 데이터센터 전체를 **하나의 거대한 계산 자원**처럼 구성 가능해짐  
- 기존 실행 모델을 확장하는 방식과, **완전히 새로운 비동기 실행 모델(Pathways)** 이 공존함  
- 더 큰 모델과 더 복잡한 통신 패턴을 감당할 수 있게 됨  
  
### Ceci n’est pas une TPU  
- 최신 TPU는 수치만 보면 압도적이지만, **핵심 원칙은 초기와 동일**함  
- 필요한 계산에 집중하고 **불필요한 복잡함을 제거**하는 방향 유지됨  
- 하드웨어 스펙만으로는 이 시스템을 복제할 수 없음  
- **컴파일러(XLA), 전용 인터커넥트(ICI), 광 스위칭(OCS), 운영 스케줄러**가 함께 작동해야 함  
- TPU는 한 번의 발명이 아니라 **수백 번의 평범한 선택이 누적된 결과**임  
  
#### 꼭 기억할 핵심 기술 몇 가지  
- **Systolic Array(MXU)**: 행렬 곱을 고효율로 처리하는 TPU의 심장  
- **XLA 컴파일러**: 실행 순서를 미리 계산해 제어 비용을 제거  
- **BF16**: 학습에 필요한 범위를 유지하면서 하드웨어 비용을 줄인 수치 형식  
- **ICI / OCS**: 칩·랙·데이터센터를 하나로 묶는 전용 통신 구조  
- **TCO 중심 설계**: 순간 성능보다 장기 운영 비용을 최적화하는 사고방식

## Comments


### Comment 47749

- Author: crawler
- Created: 2025-12-15T11:16:13+09:00
- Points: 2

개인적인 바램이 있는데  
제발 TPU가 매우 상용화 되어서 기업들이 GPU를 쓰지 않는 상황이 오길 바랍니다.  
그래서 엔비디아가 다시 개인 컨슈머용 GPU에 집중해주기를.....

### Comment 47748

- Author: xguru
- Created: 2025-12-15T11:04:02+09:00
- Points: 2

원문은 너무 기술적으로 깊은 글이어서 그대로 요약하면 기술단어들의 나열이 될뿐이라, 조금 발전 상황을 이해하기 쉽게 정리했습니다. 기술적 세부사항들이 궁금하신 분들은 이미지와 함께 설명하는 원문을 참고하세요.

### Comment 47747

- Author: neo
- Created: 2025-12-15T11:03:01+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=46172797)   
- **Scaling ML** 교재에도 TPU에 대한 훌륭한 섹션이 있음 - [How to Think About TPUs](https://jax-ml.github.io/scaling-book/tpus/)  
  - 나도 이 글과 함께 Henry Ko의 [TPU 심층분석](https://news.hada.io/topic?id=21604) 을 흥미롭게 읽었음. **XLA와 스케줄러**가 하는 일이 정말 인상적임. Itanium보다 훨씬 복잡한 구조인데도 소프트웨어가 이 괴물 같은 칩을 실제로 활용할 수 있다는 게 놀라움. XLA가 더 널리 채택되었으면 좋겠음. 오픈소스인데도 업계의 **관심 부족**이 아쉬움. Nvidia가 이제야 Tiles로 비슷한 방향을 따라가는 것 같음. 다만 [XLA](https://github.com/openxla/xla)가 아직은 여러 머신 간 스케줄링에는 크게 유용하지 않은 것으로 알고 있음  
- 이 글의 **구조적 설명**이 좋았음. 대부분의 TPU 관련 글은 실용적인 부분을 건너뛰는데, 이번 글은 개념을 실제로 연결해줘서 이해가 확 됨  
- TPU 아키텍처가 목적에 맞게 설계된 정도는 한 세대의 디자인으로 끝나는 게 아님. **Ironwood**는 7세대 TPU이고, 그 진화 과정이 매우 중요함  
- 나는 아직 **무어의 법칙**이 죽지 않았다고 생각함. 1965년부터 2025년까지 60년 동안 2년마다 두 배씩 증가했다고 보면 30번의 두 배가 일어남. 이론적으로 2025년에는 약 1,070억 개의 트랜지스터가 예상되는데, 실제로 **Apple M1 Ultra**가 1,140억 개를 가지고 있음  
  - 어떤 사람들은 무어의 법칙을 ‘두 배 속도가 일정하다’는 강한 의미로 받아들이는데, 그건 이미 오래전에 끝났음. 하지만 그 속도를 **완만하게 변화하는 상수**로 보면 여전히 유효함. 문제는 단순히 경계값만 보고 평균을 내면 최근의 변화 추세를 반영하지 못한다는 점임  
- 중국이 몇 년 안에 **TPU를 대규모로 생산**할 수 있다는 관점이 더 큰 뉴스가 되지 않은 게 놀라움. 그렇게 되면 Google, NVIDIA 등에게 큰 타격이 될 수 있음. [2022~2023년에 중국인이 TPUv4와 v6 문서를 **유출**한 사건](https://www.cyberhaven.com/blog/lessons-learned-from-the-google-trade-secret-theft-indictment)도 있었음. 이미 [중국 스타트업이 자체 TPU 클러스터를 만들고 매출을 내고 있음](https://www.scmp.com/tech/tech-war/article/3334244/ai-start-offers-local-alternative-googles-tpu-china-seeks-cut-nvidia-reliance)  
  - 하지만 **제조 자체가 가장 어려운 부분**임. 중국은 설계 지식은 충분하지만, 실제 칩을 만드는 능력은 부족함. 반도체 제조에는 TSMC가 가진 ‘마법 같은 기술력’이 필요함. Intel과 Samsung도 어느 정도 가능하지만 여전히 격차가 큼  
  - 기사 절반은 TPU, Borb, lilpunet, 광학 스위칭 네트워크 등 간의 **소프트웨어 의존성**에 대한 내용이었음. 이런 복잡한 시스템은 단순히 제조 기술만으로는 복제하기 어려움  
  - Google은 TPU를 자사 서비스용으로 쓰기 때문에, 다른 기업이 비슷한 칩을 만든다고 해도 큰 타격은 없음. 오히려 **NVIDIA의 시장 독점**이 깨지는 쪽이 더 현실적임. FMA/MAC 유닛은 설계가 단순해서 이미 Apple, Qualcomm, AMD, Amazon, Huawei 등 거의 모든 회사가 자체 ‘TPU’를 넣고 있음. 미국이 60만 명의 중국 유학생을 훈련시킨다고 해도, 진짜 핵심은 **제조와 공정 기술**에 있음  
  - “핵기지와 노동력” 이야기는 이해가 안 됨. 핵기지가 반도체 제조와 무슨 관련이 있는지 모르겠음. 그리고 60만 명의 학생이 모두 칩 설계를 배우는 것도 아님  
  - TPU가 더 **저렴해지는 게 두렵다**는 말은 약간의 풍자처럼 들림  
- GCP에서 TPU를 쓸 때 여전히 그 **이상한 Google 버킷 시스템**에 묶여 있는지 궁금함. 예전에 그게 정말 불편했음