구글의 Tensor Processing Unit 이해하기

(considerthebulldog.com)

26P by neo 2달전 | ★ favorite | 댓글 3개

TPU는 딥러닝에 꼭 필요한 계산만 남기고 나머지를 과감히 버린 Google의 도메인 특화 가속기
2013년 데이터센터 확장 한계를 계기로 시작되어, 12년 만에 7세대인 ‘Ironwood’까지 발전
반도체 성능이 자동으로 좋아지던 시대가 끝나며, 기다리지 않고 직접 설계하는 전략이 핵심 선택지가 됨
TPU는 칩 하나가 아니라 하드웨어·컴파일러·네트워크·운영 소프트웨어의 공동설계 시스템임
세대가 거듭될수록 성능 경쟁보다 전력·배치·운영 비용(TCO) 이 설계의 중심으로 이동함
TPU의 경쟁력은 단일 기술이 아니라 10년 이상 축적된 설계·운영 경험의 합에 있음

Something New

TPU는 비밀 병기가 아니라, 오랜 시간 공개 연구와 내부 반복으로 다듬어진 결과물임
Google은 데이터센터를 계속 키우는 대신, 계산 방식을 근본적으로 바꾸는 길을 선택함
2013년 무렵 데이터센터 용량을 두 배로 늘려야 하는 압력과 시간 제약이 15개월 만의 TPU 탄생으로 연결됨
2025년 4월 Google Cloud Next에서 7세대 TPU Ironwood 발표, 9,216칩/pod, 42.5 Exaflops, 10MW 수치 제시
GPU는 딥러닝을 위해 만들어진 장치가 아니었고, TPU는 처음부터 신경망 계산을 전제로 설계됨
이 선택으로 연산 성능뿐 아니라 전력 효율과 운영 안정성에서 구조적 이점을 확보함
“우연”이 아니라 제약·트레이드오프·공동설계의 반복으로 누적된 결과

Slowing Down

Moore’s Law와 Dennard Scaling의 약화로 예전에는 새 CPU를 기다리기만 해도 프로그램이 빨라졌지만, 그 전제는 무너짐
트랜지스터 증가는 계속되지만 전력·발열 한계가 성능 향상을 가로막음
동시에 신경망은 더 큰 데이터와 더 큰 모델을 요구하며 계산 수요가 폭증함
이에 따라 “모든 일을 조금씩 잘하는 칩”보다 “한 가지 일을 극도로 잘하는 칩” 이 필요해짐
신경망 계산의 핵심이 행렬 곱 중심의 반복 연산이라는 점이 특화 설계를 가능하게 함

The Inference Chip

첫 TPU는 학습이 아닌 추론(Inference), 즉 이미 학습된 모델 실행에 집중함
TPUv1은 캐시·분기 예측·멀티스레딩을 제거해 제어 비용을 최소화함
대신 대형 행렬 곱을 쉬지 않고 처리하는 Systolic Array(MXU) 에 모든 자원을 집중함
실행 중 판단을 하지 않고 컴파일 시점에 확정된 실행 순서를 그대로 따름
그 결과 같은 전력으로 GPU·CPU 대비 훨씬 많은 추론 작업을 처리함

The Training Chip

학습은 추론보다 훨씬 많은 계산과 더 넓은 수치 표현 범위를 요구함
TPUv2부터는 추론 전용 구조를 넘어 학습을 위한 유연성이 추가됨
핵심 변화는 행렬(MXU)·벡터(VPU)·제어(Scalar Unit)의 역할 분리임
실행 흐름은 XLA 컴파일러가 미리 계산하고 결정하며, 칩은 이를 그대로 수행함
여러 TPU가 하나의 장치처럼 작동하도록 전용 고속 인터커넥트(ICI) 가 함께 설계됨

Scaling Up

시스템이 커지며 질문은 “얼마나 빠른가”에서 “얼마나 오래, 싸게 굴릴 수 있는가” 로 이동함
이를 위해 연산 장치 가까이에 대형 온칩 메모리(CMEM) 를 두어 느린 DRAM 접근을 줄임
추천 시스템처럼 희소 데이터가 많은 작업을 위해 SparseCore 같은 전용 유닛도 도입됨
칩 내부 통신과 칩 간 통신을 분리해 배선 복잡도와 병목을 구조적으로 완화함
성능 수치보다 운영 효율이 전체 설계를 좌우하게 됨

Island Hopping

수천 개의 TPU를 쓰는 환경에서는 고장이 예외가 아니라 전제임
목표는 멈추지 않는 시스템, 즉 부분 실패를 흡수하는 구조임
작업은 여러 TPU에 나뉘어 실행되지만 하나의 프로그램처럼 보이도록 관리됨
문제가 생기면 전체를 멈추기보다 빠른 재배치와 재시작을 선택함
이 복잡한 과정은 대부분 운영 소프트웨어가 자동으로 처리함

Datacenter Network 확장

하나의 TPU 묶음으로 부족해지면 여러 묶음을 연결해야 함
일반 네트워크로는 한계가 있어 광 기반 스위칭(OCS) 이 도입됨
이를 통해 데이터센터 전체를 하나의 거대한 계산 자원처럼 구성 가능해짐
기존 실행 모델을 확장하는 방식과, 완전히 새로운 비동기 실행 모델(Pathways) 이 공존함
더 큰 모델과 더 복잡한 통신 패턴을 감당할 수 있게 됨

Ceci n’est pas une TPU

최신 TPU는 수치만 보면 압도적이지만, 핵심 원칙은 초기와 동일함
필요한 계산에 집중하고 불필요한 복잡함을 제거하는 방향 유지됨
하드웨어 스펙만으로는 이 시스템을 복제할 수 없음
컴파일러(XLA), 전용 인터커넥트(ICI), 광 스위칭(OCS), 운영 스케줄러가 함께 작동해야 함
TPU는 한 번의 발명이 아니라 수백 번의 평범한 선택이 누적된 결과임

꼭 기억할 핵심 기술 몇 가지

Systolic Array(MXU): 행렬 곱을 고효율로 처리하는 TPU의 심장
XLA 컴파일러: 실행 순서를 미리 계산해 제어 비용을 제거
BF16: 학습에 필요한 범위를 유지하면서 하드웨어 비용을 줄인 수치 형식
ICI / OCS: 칩·랙·데이터센터를 하나로 묶는 전용 통신 구조
TCO 중심 설계: 순간 성능보다 장기 운영 비용을 최적화하는 사고방식

▲

crawler 2달전 [-]

개인적인 바램이 있는데
제발 TPU가 매우 상용화 되어서 기업들이 GPU를 쓰지 않는 상황이 오길 바랍니다.
그래서 엔비디아가 다시 개인 컨슈머용 GPU에 집중해주기를.....

답변달기

▲

xguru 2달전 [-]

원문은 너무 기술적으로 깊은 글이어서 그대로 요약하면 기술단어들의 나열이 될뿐이라, 조금 발전 상황을 이해하기 쉽게 정리했습니다. 기술적 세부사항들이 궁금하신 분들은 이미지와 함께 설명하는 원문을 참고하세요.

답변달기

▲

GN⁺ 2달전 [-]

Hacker News 의견들

Scaling ML 교재에도 TPU에 대한 훌륭한 섹션이 있음 - How to Think About TPUs
- 나도 이 글과 함께 Henry Ko의 TPU 심층분석 을 흥미롭게 읽었음. XLA와 스케줄러가 하는 일이 정말 인상적임. Itanium보다 훨씬 복잡한 구조인데도 소프트웨어가 이 괴물 같은 칩을 실제로 활용할 수 있다는 게 놀라움. XLA가 더 널리 채택되었으면 좋겠음. 오픈소스인데도 업계의 관심 부족이 아쉬움. Nvidia가 이제야 Tiles로 비슷한 방향을 따라가는 것 같음. 다만 XLA가 아직은 여러 머신 간 스케줄링에는 크게 유용하지 않은 것으로 알고 있음
이 글의 구조적 설명이 좋았음. 대부분의 TPU 관련 글은 실용적인 부분을 건너뛰는데, 이번 글은 개념을 실제로 연결해줘서 이해가 확 됨
TPU 아키텍처가 목적에 맞게 설계된 정도는 한 세대의 디자인으로 끝나는 게 아님. Ironwood는 7세대 TPU이고, 그 진화 과정이 매우 중요함
나는 아직 무어의 법칙이 죽지 않았다고 생각함. 1965년부터 2025년까지 60년 동안 2년마다 두 배씩 증가했다고 보면 30번의 두 배가 일어남. 이론적으로 2025년에는 약 1,070억 개의 트랜지스터가 예상되는데, 실제로 Apple M1 Ultra가 1,140억 개를 가지고 있음
- 어떤 사람들은 무어의 법칙을 ‘두 배 속도가 일정하다’는 강한 의미로 받아들이는데, 그건 이미 오래전에 끝났음. 하지만 그 속도를 완만하게 변화하는 상수로 보면 여전히 유효함. 문제는 단순히 경계값만 보고 평균을 내면 최근의 변화 추세를 반영하지 못한다는 점임
중국이 몇 년 안에 TPU를 대규모로 생산할 수 있다는 관점이 더 큰 뉴스가 되지 않은 게 놀라움. 그렇게 되면 Google, NVIDIA 등에게 큰 타격이 될 수 있음. 2022~2023년에 중국인이 TPUv4와 v6 문서를 유출한 사건도 있었음. 이미 중국 스타트업이 자체 TPU 클러스터를 만들고 매출을 내고 있음
- 하지만 제조 자체가 가장 어려운 부분임. 중국은 설계 지식은 충분하지만, 실제 칩을 만드는 능력은 부족함. 반도체 제조에는 TSMC가 가진 ‘마법 같은 기술력’이 필요함. Intel과 Samsung도 어느 정도 가능하지만 여전히 격차가 큼
- 기사 절반은 TPU, Borb, lilpunet, 광학 스위칭 네트워크 등 간의 소프트웨어 의존성에 대한 내용이었음. 이런 복잡한 시스템은 단순히 제조 기술만으로는 복제하기 어려움
- Google은 TPU를 자사 서비스용으로 쓰기 때문에, 다른 기업이 비슷한 칩을 만든다고 해도 큰 타격은 없음. 오히려 NVIDIA의 시장 독점이 깨지는 쪽이 더 현실적임. FMA/MAC 유닛은 설계가 단순해서 이미 Apple, Qualcomm, AMD, Amazon, Huawei 등 거의 모든 회사가 자체 ‘TPU’를 넣고 있음. 미국이 60만 명의 중국 유학생을 훈련시킨다고 해도, 진짜 핵심은 제조와 공정 기술에 있음
- “핵기지와 노동력” 이야기는 이해가 안 됨. 핵기지가 반도체 제조와 무슨 관련이 있는지 모르겠음. 그리고 60만 명의 학생이 모두 칩 설계를 배우는 것도 아님
- TPU가 더 저렴해지는 게 두렵다는 말은 약간의 풍자처럼 들림
GCP에서 TPU를 쓸 때 여전히 그 이상한 Google 버킷 시스템에 묶여 있는지 궁금함. 예전에 그게 정말 불편했음

답변달기