나도 이 글과 함께 Henry Ko의 TPU 심층분석 을 흥미롭게 읽었음. XLA와 스케줄러가 하는 일이 정말 인상적임. Itanium보다 훨씬 복잡한 구조인데도 소프트웨어가 이 괴물 같은 칩을 실제로 활용할 수 있다는 게 놀라움. XLA가 더 널리 채택되었으면 좋겠음. 오픈소스인데도 업계의 관심 부족이 아쉬움. Nvidia가 이제야 Tiles로 비슷한 방향을 따라가는 것 같음. 다만 XLA가 아직은 여러 머신 간 스케줄링에는 크게 유용하지 않은 것으로 알고 있음
이 글의 구조적 설명이 좋았음. 대부분의 TPU 관련 글은 실용적인 부분을 건너뛰는데, 이번 글은 개념을 실제로 연결해줘서 이해가 확 됨
TPU 아키텍처가 목적에 맞게 설계된 정도는 한 세대의 디자인으로 끝나는 게 아님. Ironwood는 7세대 TPU이고, 그 진화 과정이 매우 중요함
나는 아직 무어의 법칙이 죽지 않았다고 생각함. 1965년부터 2025년까지 60년 동안 2년마다 두 배씩 증가했다고 보면 30번의 두 배가 일어남. 이론적으로 2025년에는 약 1,070억 개의 트랜지스터가 예상되는데, 실제로 Apple M1 Ultra가 1,140억 개를 가지고 있음
어떤 사람들은 무어의 법칙을 ‘두 배 속도가 일정하다’는 강한 의미로 받아들이는데, 그건 이미 오래전에 끝났음. 하지만 그 속도를 완만하게 변화하는 상수로 보면 여전히 유효함. 문제는 단순히 경계값만 보고 평균을 내면 최근의 변화 추세를 반영하지 못한다는 점임
하지만 제조 자체가 가장 어려운 부분임. 중국은 설계 지식은 충분하지만, 실제 칩을 만드는 능력은 부족함. 반도체 제조에는 TSMC가 가진 ‘마법 같은 기술력’이 필요함. Intel과 Samsung도 어느 정도 가능하지만 여전히 격차가 큼
기사 절반은 TPU, Borb, lilpunet, 광학 스위칭 네트워크 등 간의 소프트웨어 의존성에 대한 내용이었음. 이런 복잡한 시스템은 단순히 제조 기술만으로는 복제하기 어려움
Google은 TPU를 자사 서비스용으로 쓰기 때문에, 다른 기업이 비슷한 칩을 만든다고 해도 큰 타격은 없음. 오히려 NVIDIA의 시장 독점이 깨지는 쪽이 더 현실적임. FMA/MAC 유닛은 설계가 단순해서 이미 Apple, Qualcomm, AMD, Amazon, Huawei 등 거의 모든 회사가 자체 ‘TPU’를 넣고 있음. 미국이 60만 명의 중국 유학생을 훈련시킨다고 해도, 진짜 핵심은 제조와 공정 기술에 있음
“핵기지와 노동력” 이야기는 이해가 안 됨. 핵기지가 반도체 제조와 무슨 관련이 있는지 모르겠음. 그리고 60만 명의 학생이 모두 칩 설계를 배우는 것도 아님
TPU가 더 저렴해지는 게 두렵다는 말은 약간의 풍자처럼 들림
GCP에서 TPU를 쓸 때 여전히 그 이상한 Google 버킷 시스템에 묶여 있는지 궁금함. 예전에 그게 정말 불편했음
Hacker News 의견들