5P by GN⁺ 1일전 | ★ favorite | 댓글 1개
  • Google TPU는 대규모 AI 추론 부하를 처리하기 위해 설계된 전용 ASIC 칩으로, GPU 대비 효율성과 비용 경쟁력을 확보
  • Systolic Array 아키텍처를 통해 메모리 접근을 최소화하고, 연산 효율(Operations per Joule) 을 극대화한 것이 핵심 차별점
  • 최신 TPUv7(Ironwood) 는 이전 세대 대비 성능과 메모리 대역폭이 비약적으로 향상되어, Nvidia Blackwell GPU와 유사한 수준의 성능 달성
  • TPU의 에코시스템 제약GCP 독점 제공 구조가 확산의 주요 장애 요인이지만, Google은 외부 고객 확대를 위한 조직 개편 및 지원 강화 중
  • 자체 칩을 통한 클라우드 마진 회복과 경쟁력 강화로, Google이 장기적으로 AI 인프라 시장의 핵심 승자가 될 가능성이 있음

TPU의 역사와 개발 배경

  • 2013년 Google은 음성 검색 사용량 증가로 인해 데이터센터 용량이 두 배로 필요하다는 계산 결과를 얻음
    • 기존 CPU·GPU로는 딥러닝 연산(대규모 행렬 곱셈) 을 효율적으로 처리하기 어려웠음
  • 이에 따라 Google은 TensorFlow 신경망 전용 ASIC 개발을 결정, 15개월 만에 실리콘을 데이터센터에 배치
  • 2015년에는 이미 Google Maps, Photos, Translate 등 주요 서비스에 TPU가 적용
  • 2016년 Google I/O에서 공식 공개, 이후 TPU는 AI 추론 비용 절감을 위한 핵심 인프라로 발전

TPU와 GPU의 구조적 차이

  • GPU는 범용 병렬 프로세서, TPU는 도메인 특화형 아키텍처
    • GPU는 그래픽 처리용으로 설계되어 캐시, 분기 예측 등 복잡한 제어 로직이 포함
    • TPU는 이를 제거하고 Systolic Array 구조로 데이터 이동을 최소화
  • TPU의 Systolic Array는 데이터를 한 번 로드한 뒤 연속적인 연산 흐름으로 전달, Von Neumann 병목 해소
  • Ironwood(7세대) 개선점
    • SparseCore 강화로 대규모 임베딩 처리 효율 향상
    • HBM 용량 192GB, 대역폭 7,370GB/s로 증가
    • Inter-Chip Interconnect(ICI) 성능 향상, 최대 1.2TB/s 대역폭
  • Google은 Optical Circuit Switch(OCS)3D torus 네트워크로 대규모 TPU Pod 구성
    • 전력 효율이 높지만 유연성은 InfiniBand 대비 낮음

TPU vs GPU 성능 비교

  • TPUv7(BF16 4,614 TFLOPS) vs TPUv5p(459 TFLOPS) 로 약 10배 성능 향상
  • 업계 인터뷰 요약
    • TPU는 성능당 전력 효율비용 효율에서 우위
    • 특정 애플리케이션에서는 1.4배 높은 성능/달러 달성
    • TPUv6는 GPU 대비 60~65% 효율 우위, 이전 세대는 40~45%
    • TPU는 발열과 전력 소모가 적고, 환경적 부담이 낮음
  • 일부 고객은 TPU Pod 사용 시 비용을 1/5 수준으로 절감 가능
  • ASIC 구조로 인해 크기 30% 감소, 전력 50% 절감 효과 언급
  • Google 내부 자료에 따르면 TPUv7은 TPUv6e 대비 와트당 성능 2배 향상
  • Nvidia CEO Jensen Huang도 TPU를 “특수한 사례”로 평가하며 주목

TPU 도입을 가로막는 문제들

  • 첫 번째 장벽은 생태계(CUDA 독점)
    • 대학·산업 모두 CUDA 중심으로 교육·개발
    • TPU는 JAX·TensorFlow 중심이며, PyTorch 지원은 상대적으로 늦게 강화됨
  • 멀티클라우드 전략의 확산도 제약
    • 대부분 기업은 AWS/Azure/GCP에 데이터가 나뉘어 있어 데이터 이동 비용(egress)이 크기 때문에 GPU 기반 워크로드가 더 유연함
    • TPU는 GCP 전용, Nvidia는 3대 클라우드 모두에서 이용 가능
  • TPU를 선택했다가 가격이 바뀌거나 환경이 변하면 재작성 비용이 매우 큼
  • 구글은 최근에야 외부 판매·확산을 위한 조직을 확대하고 있으며, 일부 전·현직자들은 향후 네오클라우드 등을 통한 외부 공급 가능성을 언급

TPU와 Google Cloud의 전략적 가치

  • AI 시대 클라우드 산업은 고마진 구조(50~70%) → 저마진(20~35%) 으로 전환 중
    • 원인은 Nvidia의 75% 마진으로 인한 비용 압박
  • 자체 ASIC(특히 TPU)을 보유한 사업자만이 전통적 클라우드 마진(50%대) 로 복귀 가능
  • 구글의 우위 요소
    • TPU는 가장 성숙한 클라우드용 ASIC
    • Google은 RTL 등 칩 설계의 프런트엔드를 대부분 내부에서 수행
    • Broadcom은 물리 설계(백엔드)만 담당, 마진 구조가 Nvidia보다 낮아 TPU 비용 경쟁력 강화
    • Google이 소프트웨어 최적화 스택 전체를 보유해 하드웨어 성능을 극대화
  • TPU 기반으로 Gemini 3 등 주요 모델이 학습 및 추론 수행
    • 내부 AI 서비스 전반에 TPU 활용 확대
  • SemiAnalysis는 “Google의 7세대 TPU는 Nvidia Blackwell과 동급 수준”이라 평가
  • TPU는 GCP의 장기 경쟁우위이자, AI 인프라 시장 점유율 확대의 핵심 동력으로 평가됨
Hacker News 의견
  • Google의 진짜 무기는 TPU 실리콘 자체가 아니라, OCS(Optical Circuit Switch) 인터커넥트를 통한 대규모 병렬 확장성
    The Next Platform 인용에 따르면, Ironwood TPU 9,216개를 연결해 1.77PB의 HBM 메모리를 활용할 수 있음. 이는 Nvidia의 Blackwell GPU 기반 랙스케일 시스템(20.7TB HBM)에 비해 압도적인 규모임
    Nvidia는 단일 칩 수준에서는 우수하지만, 대규모 분산 학습이나 추론에서는 Google의 광학 스위칭 확장성에 필적할 만한 것이 없음

    • Google은 수직 통합 스택 전체를 소유하고 있음. 덕분에 AI 서비스를 클라우드 규모로 훨씬 저렴하고도 수익성 있게 제공할 수 있음
      대부분의 기업은 하드웨어를 직접 사거나 모델을 훈련할 필요 없이, Google이 제공하는 AI 앱스토어 같은 서비스를 활용하면 됨
    • 사실 두 시스템은 네트워크 구조가 완전히 다름. Nvidia의 NVLink는 all-to-all 스위치형 패브릭, TPU는 3D 토러스 구조임
      예를 들어 Mixture of Experts 모델은 all-to-all 통신이 많아 NVLink 쪽이 훨씬 효율적임
    • Nvidia는 여전히 자기 기술이 더 낫다고 주장하는 트윗을 올림
      Nvidia 공식 트윗 링크
    • 만약 Google의 주장이 사실이라면 MLPerf 벤치마크에서 압도해야 하지만 그렇지 않음
      모델 병렬화에는 빠르고 작은 네트워크가, 데이터 병렬화에는 큰 네트워크가 유리함. 이 균형 때문에 Nvidia가 승리 중임
    • 같은 메모리 용량을 맞추려면 Google은 칩 수가 100배 더 필요함
  • Gemini 3 Pro는 이미 구형에 가까움. Google이 Anthropic보다 훨씬 많은 자원을 가지고 있지만, 하드웨어가 비밀 무기라면 이미 시장을 장악했어야 함
    하지만 현실은 다름

    1. 하드웨어를 효율적으로 활용하는 게 어렵고, 최적화가 끝나면 이미 다음 모델로 넘어감
    2. 대부분의 기업은 돈으로 해결 가능함. H100으로도 충분히 잘 돌아감
    3. 새로운 연구 기법만으로도 모델 성능을 크게 높일 수 있음
    4. 모델 개발은 여전히 데이터셋 정제와 평가 작업 같은 인적 노동이 많음
    5. 맞춤형 하드웨어는 맞춤형 문제를 낳음. TPU 클러스터 문제는 Stack Overflow에서 답을 찾을 수 없음
  • CUDA는 학습에는 중요하지만, 추론 단계에서는 덜 중요하다는 의견이 있음

    • NVIDIA 칩은 더 범용적임. 학습 중에는 sin, cos 같은 특수 연산, 중간 계산 저장, 그래디언트 처리 등 다양한 기능이 필요함
      하지만 추론은 고정된 가중치를 반복 적용하는 단순한 과정이라 TPU가 더 효율적일 수 있음
    • 학습용 칩 시장은 거품일 수 있지만, 추론용 시장은 훨씬 큼. 언젠가 모델 성능이 충분해지면 학습 수요는 줄고, 전력 효율적인 추론 시스템이 주류가 될 것임
    • CUDA가 중요한 이유는 생태계 의존성 때문임. 대부분의 학습용 소프트웨어가 CUDA 기반으로 만들어져 있음
    • 학습은 거대한 문제를 쪼개고 데이터 의존성을 관리하는 과정이고, 추론은 독립적인 작은 문제들의 집합임
    • CUDA는 개발자 경험이 훨씬 좋음. 연구 생산성이 중요할 때는 이게 결정적임
  • Nvidia가 TPU처럼 특화된 칩을 만들지 못할 이유는 없음

    • Nvidia도 결국 그렇게 할 것임. 다만 Google은 칩 설계자이자 AI 기업이라 이익을 모두 가져감
      Nvidia는 TSMC에 위탁 생산 후 비싼 가격에 판매하지만, Google은 자체 사용으로 마진을 절약함
    • DeepMind는 TPU 팀과 직접 협업해 프로젝트 맞춤형 칩을 설계함. OpenAI도 같은 이유로 자체 칩 개발을 발표했지만, 이는 매우 자본집약적임
    • TPU는 NVidia GPU보다 싸고, Google 내부용으로 수직 통합되어 있음
    • Nvidia의 위험은 존재론적 위기보다는 이익률 하락임. 칩 판매량이 100배 늘어도 마진이 5%로 떨어지면 시가총액은 줄어듦
    • 사실 Nvidia는 이미 Tensor Core로 같은 방향으로 진화 중임
  • Meta가 Google 칩에 수십억 달러 투자 협상 중이라는 Reuters 보도가 있음

  • LLM용 ASIC은 암호화폐용 ASIC보다 훨씬 복잡함. 암호화폐는 고정된 해시 알고리즘만 처리하면 되지만, LLM은 계속 진화함
    TPU가 이런 맥락에서 어떤 의미인지 헷갈림

    • LLM은 메모리와 인터커넥트 대역폭이 중요함. 반면 암호화폐는 100% 연산 중심임
    • 대부분의 LLM은 행렬 곱셈 중심이라 TPU가 이를 가속함. PyTorch에도 TPU 지원이 있음
    • ASIC이라도 프로그래머블할 수 있음. TPU는 다양한 모델을 실행해야 하므로 하드코딩된 칩과 다름
    • LLM 구조는 변하지만 공통 구성요소(행렬 연산, 부동소수점 타입)는 동일함. 따라서 TPU는 사실상 LLM용 ASIC임
    • 암호화폐도 변함. 예를 들어 Monero는 ASIC을 막기 위해 CPU 수준의 구조를 사용함
  • 개인용 독립 TPU 옵션이 더 많았으면 좋겠음. 현재는 2019년산 Coral이 유일한 선택지임

  • 이 논쟁은 RISC vs CISC처럼 학문적임. Nvidia GPU도 결국 TPU와 같은 일을 하도록 설계되고 있음
    Google 내부에서도 5년 뒤에는 큰 차이가 없을 수 있음
    Google은 TPU로 이익을 얻지만, 외부 개발자에게는 직접적 혜택이 없음

    • Google이 TPU를 판매하지 않는 건 사실이지만, 다른 기업들도 자체 칩을 개발 중임
      Microsoft의 Maia, AMD/NVIDIA의 데이터센터용 칩, 그리고 네트워크 전문 기업 인수 등으로 모두 같은 방향으로 가고 있음
      Google이 앞서 있지만, 결국 수렴 경쟁이 될 것임
  • 희소 모델(sparse model) 은 동일한 품질을 유지하면서 연산량과 저장 공간을 16배 줄일 수 있음
    TPU는 희소 행렬 처리에는 약하지만, 밀집(dense) 모델 학습에는 강함

  • 결국 이 경쟁의 결승선은 어디인가, 혹은 바닥이 어디인가 하는 질문이 남음