구글의 Tensor Processing Unit 이해하

▲

GN⁺ 4달전 | parent | ★ favorite | on: 구글의 Tensor Processing Unit 이해하기(considerthebulldog.com)

Hacker News 의견들

Scaling ML 교재에도 TPU에 대한 훌륭한 섹션이 있음 - How to Think About TPUs
- 나도 이 글과 함께 Henry Ko의 TPU 심층분석 을 흥미롭게 읽었음. XLA와 스케줄러가 하는 일이 정말 인상적임. Itanium보다 훨씬 복잡한 구조인데도 소프트웨어가 이 괴물 같은 칩을 실제로 활용할 수 있다는 게 놀라움. XLA가 더 널리 채택되었으면 좋겠음. 오픈소스인데도 업계의 관심 부족이 아쉬움. Nvidia가 이제야 Tiles로 비슷한 방향을 따라가는 것 같음. 다만 XLA가 아직은 여러 머신 간 스케줄링에는 크게 유용하지 않은 것으로 알고 있음
이 글의 구조적 설명이 좋았음. 대부분의 TPU 관련 글은 실용적인 부분을 건너뛰는데, 이번 글은 개념을 실제로 연결해줘서 이해가 확 됨
TPU 아키텍처가 목적에 맞게 설계된 정도는 한 세대의 디자인으로 끝나는 게 아님. Ironwood는 7세대 TPU이고, 그 진화 과정이 매우 중요함
나는 아직 무어의 법칙이 죽지 않았다고 생각함. 1965년부터 2025년까지 60년 동안 2년마다 두 배씩 증가했다고 보면 30번의 두 배가 일어남. 이론적으로 2025년에는 약 1,070억 개의 트랜지스터가 예상되는데, 실제로 Apple M1 Ultra가 1,140억 개를 가지고 있음
- 어떤 사람들은 무어의 법칙을 ‘두 배 속도가 일정하다’는 강한 의미로 받아들이는데, 그건 이미 오래전에 끝났음. 하지만 그 속도를 완만하게 변화하는 상수로 보면 여전히 유효함. 문제는 단순히 경계값만 보고 평균을 내면 최근의 변화 추세를 반영하지 못한다는 점임
중국이 몇 년 안에 TPU를 대규모로 생산할 수 있다는 관점이 더 큰 뉴스가 되지 않은 게 놀라움. 그렇게 되면 Google, NVIDIA 등에게 큰 타격이 될 수 있음. 2022~2023년에 중국인이 TPUv4와 v6 문서를 유출한 사건도 있었음. 이미 중국 스타트업이 자체 TPU 클러스터를 만들고 매출을 내고 있음
- 하지만 제조 자체가 가장 어려운 부분임. 중국은 설계 지식은 충분하지만, 실제 칩을 만드는 능력은 부족함. 반도체 제조에는 TSMC가 가진 ‘마법 같은 기술력’이 필요함. Intel과 Samsung도 어느 정도 가능하지만 여전히 격차가 큼
- 기사 절반은 TPU, Borb, lilpunet, 광학 스위칭 네트워크 등 간의 소프트웨어 의존성에 대한 내용이었음. 이런 복잡한 시스템은 단순히 제조 기술만으로는 복제하기 어려움
- Google은 TPU를 자사 서비스용으로 쓰기 때문에, 다른 기업이 비슷한 칩을 만든다고 해도 큰 타격은 없음. 오히려 NVIDIA의 시장 독점이 깨지는 쪽이 더 현실적임. FMA/MAC 유닛은 설계가 단순해서 이미 Apple, Qualcomm, AMD, Amazon, Huawei 등 거의 모든 회사가 자체 ‘TPU’를 넣고 있음. 미국이 60만 명의 중국 유학생을 훈련시킨다고 해도, 진짜 핵심은 제조와 공정 기술에 있음
- “핵기지와 노동력” 이야기는 이해가 안 됨. 핵기지가 반도체 제조와 무슨 관련이 있는지 모르겠음. 그리고 60만 명의 학생이 모두 칩 설계를 배우는 것도 아님
- TPU가 더 저렴해지는 게 두렵다는 말은 약간의 풍자처럼 들림
GCP에서 TPU를 쓸 때 여전히 그 이상한 Google 버킷 시스템에 묶여 있는지 궁금함. 예전에 그게 정말 불편했음