에이전트 시대를 위한 두 개의 칩: Google의 8세대 TPU

(blog.google)

3P by GN⁺ 6시간전 | ★ favorite | 댓글 1개

Google이 10년 이상의 TPU 개발 역사를 집대성해 8세대 TPU 두 종을 발표했으며, 대규모 모델 훈련 전용 TPU 8t와 고속 추론 전용 TPU 8i로 각각 특화한 아키텍처를 채택
TPU 8t는 단일 슈퍼팟이 9,600칩, 121 ExaFlops까지 확장되며, 이전 세대 대비 Pod당 컴퓨팅 성능이 약 3배 향상
TPU 8i는 메모리 대역폭과 지연 시간 최적화에 초점을 맞춰 에이전트형 추론에 맞게 재설계됐고, 온칩 SRAM 확대와 Axion CPU 호스트, MoE 대응 네트워크 개선으로 성능 대비 비용 80% 개선 달성
두 칩 모두 Google 자체 설계 Axion ARM 기반 CPU 호스트에서 구동되며, 이전 세대 대비 와트당 성능이 최대 2배 향상
AI 에이전트가 연속적으로 추론·계획·실행하는 시대에 맞춰 훈련과 추론을 분리 최적화한 인프라 전략으로, 올해 하반기 일반 제공 예정이며 Google AI Hypercomputer의 일부로 사용 가능

8세대 TPU 개요

Google Cloud Next에서 8세대 Tensor Processor Unit(TPU) 발표, 훈련용 TPU 8t와 추론용 TPU 8i 두 가지 아키텍처로 구성
커스텀 슈퍼컴퓨터를 구동하도록 설계되었으며, 최첨단 모델 훈련·에이전트 개발·대규모 추론 워크로드를 모두 포괄
Gemini를 포함한 주요 파운데이션 모델을 수년간 TPU로 구동해 왔으며, 8세대는 훈련·서빙·에이전틱 워크로드 전반에서 규모·효율·성능을 동시에 제공
AI 에이전트 시대에는 모델이 문제를 추론하고, 다단계 워크플로를 실행하며, 자체 행동에서 학습하는 연속 루프를 수행해야 하므로 인프라에 새로운 요구 사항 발생
Google DeepMind와 협력해 가장 까다로운 AI 워크로드를 처리하고 진화하는 모델 아키텍처에 적응하도록 설계

10년 이상의 설계 철학

TPU는 커스텀 수치 연산, 액체 냉각, 커스텀 인터커넥트 등 ML 슈퍼컴퓨팅 구성요소의 표준을 제시해 왔으며, 8세대는 10년 이상의 개발 집대성
핵심 설계 원칙: 실리콘을 하드웨어·네트워킹·소프트웨어(모델 아키텍처·애플리케이션 요구사항 포함)와 공동 설계(co-design) 함으로써 전력 효율과 절대 성능 모두에서 극적인 향상 달성
Citadel Securities가 자사 AI 워크로드에 TPU를 선택한 사례를 선도적 조직의 예시로 언급

훈련과 추론을 분리한 이유

하드웨어 개발 주기가 소프트웨어보다 훨씬 길어, 각 세대 TPU 설계 시 출시 시점의 기술과 수요를 미리 예측할 필요
수년 전부터 프론티어 AI 모델의 프로덕션 배포에 따른 추론 수요 증가를 예상
AI 에이전트 부상으로 훈련과 서빙의 요구사항이 각각 다르므로, 개별 특화 칩이 커뮤니티에 유리하다고 판단
TPU 8t는 더 큰 컴퓨팅 처리량과 스케일업 대역폭으로 대규모 훈련에 최적화
TPU 8i는 더 많은 메모리 대역폭으로 지연 민감 추론 워크로드에 최적화, 에이전트 간 상호작용이 대규모에서 작은 비효율도 증폭시키기 때문
두 칩 모두 다양한 워크로드를 실행할 수 있으나, 특화를 통해 상당한 효율 향상 실현

TPU 8t: 훈련 전용 파워하우스

프론티어 모델 개발 주기를 수개월에서 수주로 단축하는 것이 목표
최고 수준의 컴퓨팅 처리량, 공유 메모리, 칩 간 대역폭을 최적 전력 효율 및 생산적 컴퓨팅 시간과 균형 있게 조합
이전 세대 대비 팟당 컴퓨팅 성능 약 3배 향상
대규모 확장(Massive Scale)
- 단일 TPU 8t 슈퍼팟이 9,600칩, 2페타바이트 공유 HBM까지 확장
- 이전 세대 대비 칩 간 대역폭 2배
- 121 ExaFlops의 컴퓨팅 성능 제공, 가장 복잡한 모델이 단일 대규모 메모리 풀 활용 가능
최대 활용률(Maximum Utilization)
- 10배 빠른 스토리지 접근 통합
- TPUDirect로 데이터를 TPU에 직접 풀링하여 엔드투엔드 시스템의 최대 활용률 보장
근선형 확장(Near-Linear Scaling)
- 새로운 Virgo Network과 JAX, Pathways 소프트웨어를 결합해 단일 논리 클러스터에서 최대 100만 칩까지 근선형 확장 가능
신뢰성 및 가용성
- 목표 goodput(유용한 생산적 컴퓨팅 시간) 97% 이상
- 포괄적 RAS(Reliability, Availability, Serviceability) 기능 포함
  - 수만 칩에 걸친 실시간 텔레메트리
  - 결함 ICI 링크의 자동 감지 및 작업 중단 없는 우회 라우팅
  - OCS(Optical Circuit Switching) 로 인간 개입 없이 장애 주변 하드웨어 재구성
- 프론티어 훈련 규모에서 하드웨어 장애·네트워크 지연·체크포인트 재시작은 비훈련 시간이며, 1%p 차이가 수일의 훈련 시간으로 전환

TPU 8i: 추론 엔진

에이전틱 시대에 사용자가 질문하고 작업을 위임하고 결과를 받는 경험을 기대하므로, 여러 전문 에이전트가 복잡한 플로우에서 스워밍(swarming) 하며 협업하는 작업에 최적화
"대기실 효과"를 제거하기 위해 스택을 재설계, 네 가지 핵심 혁신 적용
메모리 벽 돌파(Breaking the Memory Wall)
- 288GB HBM과 384MB 온칩 SRAM(이전 세대 대비 3배) 탑재
- 모델의 활성 워킹셋 전체를 온칩에 유지해 프로세서 유휴 상태 방지
Axion 기반 효율성
- 서버당 물리 CPU 호스트를 2배로 늘리고, Google 자체 Axion ARM 기반 CPU 채택
- NUMA(Non-Uniform Memory Architecture) 격리를 통해 전체 시스템 성능 최적화
MoE 모델 확장
- 최신 Mixture of Expert(MoE) 모델을 위해 ICI 대역폭을 19.2 Tb/s로 2배 확대
- 새로운 Boardfly 아키텍처로 최대 네트워크 직경을 50% 이상 축소, 하나의 응집력 있는 저지연 유닛으로 작동
지연 제거(Eliminating Lag)
- 새로운 온칩 CAE(Collectives Acceleration Engine) 이 글로벌 연산을 오프로드하여 온칩 지연을 최대 5배 감소
성능 대비 비용
- 이전 세대 대비 달러당 성능 80% 향상, 동일 비용으로 거의 2배의 고객 볼륨 서빙 가능

Gemini와 공동 설계, 모두에게 개방

8세대 TPU는 AI의 가장 큰 과제를 해결하기 위해 모든 스펙을 설계한 공동 설계 철학의 최신 표현
Boardfly 토폴로지: 오늘날 가장 뛰어난 추론 모델의 통신 요구에 맞춰 설계
TPU 8i의 SRAM 용량: 프로덕션 규모 추론 모델의 KV 캐시 풋프린트에 맞춰 산정
Virgo Network 대역폭 목표: 조 단위 파라미터 훈련의 병렬화 요구사항에서 도출
두 칩 모두 최초로 Google 자체 Axion ARM 기반 CPU 호스트에서 구동, 칩만이 아닌 전체 시스템 최적화 가능
프레임워크 및 접근성
- 네이티브 JAX, MaxText, PyTorch, SGLang, vLLM 지원
- 베어메탈 접근 제공, 가상화 오버헤드 없이 직접 하드웨어 접근 가능
- 오픈소스 기여: MaxText 레퍼런스 구현, 강화학습용 Tunix 등으로 개발에서 프로덕션 배포까지의 핵심 경로 지원

대규모 전력 효율 설계

오늘날 데이터센터에서 칩 공급뿐 아니라 전력이 바인딩 제약 조건
전체 스택에 걸쳐 효율성을 최적화하며, 실시간 수요에 따라 전력 소비를 동적 조정하는 통합 전력 관리 적용
TPU 8t와 TPU 8i 모두 이전 세대(Ironwood) 대비 와트당 성능 최대 2배 향상
효율성은 칩 수준 지표만이 아닌 실리콘에서 데이터센터까지의 시스템 수준 약속
- 네트워크 연결을 컴퓨팅과 동일 칩에 통합해 TPU 팟 내 데이터 이동의 전력 비용을 크게 절감
- 데이터센터도 TPU와 공동 설계, 5년 전 대비 전력 단위당 컴퓨팅 파워가 6배 향상
두 칩 모두 4세대 액체 냉각 기술로 지원, 공랭으로는 불가능한 성능 밀도 유지
Axion 호스트부터 가속기까지 전체 스택을 보유함으로써 호스트와 칩을 독립 설계할 때는 불가능한 시스템 수준 에너지 효율 최적화 실현

에이전틱 시대를 위한 인프라

모든 주요 컴퓨팅 전환에는 인프라 혁신이 필요하며, 에이전틱 시대도 마찬가지
자율 에이전트가 추론·계획·실행·학습의 연속 루프를 수행하는 요구에 인프라가 진화해야 함
TPU 8t와 TPU 8i는 이 과제에 대한 답변: 가장 뛰어난 AI 모델 구축, 완벽하게 오케스트레이션된 에이전트 스웜, 가장 복잡한 추론 작업 관리를 재정의하는 두 가지 특화 아키텍처
두 칩 모두 올해 하반기 일반 제공 예정
Google의 AI Hypercomputer의 일부로 사용 가능
- 목적별 하드웨어(컴퓨팅, 스토리지, 네트워킹), 오픈 소프트웨어(프레임워크, 추론 엔진), 유연한 소비 모델(오케스트레이션, 클러스터 관리, 딜리버리 모델)을 통합 스택으로 결합

▲

GN⁺ 6시간전 [-]

Hacker News 의견들

나는 Gemini 3가 효율성 중심 학습으로 어디까지 가능한지 이미 보여줬다고 느꼈음. Pro와 Flash는 Opus나 GPT-5급 모델보다 아마 5배에서 10배는 더 작아 보인다고 추정함 도구 호출이 자주 깨지고 agentic 작업에서는 전반적으로 약해서 추론과 실행 다듬기는 아직 부족해 보였음. 그래도 도구나 검색 없이 순수 문제 해결만 보면 Opus와 GPT에 맞먹고, 크기는 훨씬 작아 보인다는 인상임 Google은 언젠가 미리보기 단계 프로토타이핑을 끝내고 제대로 된 정식 모델을 내놓는 순간, 현재 SOTA를 한 세대쯤 넘어서는 모델로 모두를 놀라게 할 것 같음. 지금까지 나온 모델들은 투자자에게 보여주고 제품군에 개념증명으로 넣기 위해 서둘러 GA로 밀어 넣은 프로토타입처럼 느껴졌음
- 나는 그 5배에서 10배 추정에는 회의적임. 특히 Pro는 그렇고, 오히려 Google 하드웨어 덕분에 더 큰 모델을 더 싸고 빠르게 돌리는 쪽일 수도 있다고 봄 Gemini 3 Pro는 전반적으로 가장 인간적인 지능에 가까운 모델처럼 느껴졌음. 특히 인문 분야가 강하고, 많은 인간 언어에서 자연스러운 텍스트를 만드는 능력은 사실상 1위라고 봄. 이런 차이는 틈새 언어로 갈수록 더 커지고, 그건 작은 모델이라기보다 오히려 더 큰 모델을 시사한다고 느꼈음 수학과 agentic 작업은 확실히 약하고, Gemini 앱 자체도 3년 전 초기 ChatGPT와 크게 다르지 않을 만큼 뒤처져 보여 체감 성능을 깎아먹는다고 봄
- 나도 이 부분에는 동의함. Gemini-cli는 CC나 Codex와 비교하면 정말 형편없다고 느낌 그래도 Google이 우선순위를 두는 건 전통적인 검색을 보강하거나 대체할 최고의 AI를 만드는 일이라고 봄. 그게 본업이고, 수익화 위치도 누구보다 훨씬 유리함. 사용자 기반과 쿼리 볼륨 면에서 이미 엄청난 분배 우위를 갖고 있다고 판단함 Gemini-cli에도 우선순위를 높여서 이 영역 경쟁을 더 세게 밀어줬으면 좋겠다는 바람임
- 내 기억으로 Gemini 3 Pro가 처음 나왔을 때는 당시 Claude 버전과 거의 동급으로 여겨졌음. 그런데 지금의 Gemini 3는 꽤 오래된 느낌이 남 그 사이 중국 모델도 많이 나왔고 Claude도 몇 차례 업데이트돼서, 지금은 Google이 이 분야에서 약간 정체한 것처럼 보임. 물론 곧 큰 폭의 개선으로 놀라게 할 수도 있다고는 생각함
- 나는 Google의 preview 명칭이 꽤 자의적이라고 봄. 가용성이나 지속성에 대한 약속을 피하려는 방식이고, 실패가 나와도 베타 품질이었다고 둘러댈 수 있는 PR 전술처럼 느껴졌음
- 나는 Gemini에서 내가 뭘 놓치고 있는지 늘 궁금했음. 내게는 잘해봐야 2류 모델 정도로 느껴짐 정보 수집은 그럭저럭이지만 agentic 작업은 거의 쓸모없고, 늘 술 취한 것처럼 보였음. Antigravity에서 Claude 크레딧이 다 떨어지면 그날은 그냥 끝난다는 느낌임 토큰을 훨씬 적게 쓴다는 말은 웃겼는데, 내 경험에서는 문제도 못 푸는 죽음의 루프를 자주 돌았기 때문임
이제 대형 AI를 하려면 사실상 NVidia에서 사거나 Google에서 빌려야 한다고 봄. 그리고 Google은 칩, 엔진, 시스템을 데이터센터 전체 관점에서 설계할 수 있어서, 칩 벤더가 중앙집중화할 수 없는 부분까지 최적화할 수 있음 그래서 규모가 정말 커질수록 Google 시스템이 항상 더 비용 효율적일 거라고 추정함. 참고로 나는 이런 이유 포함해서 GOOG 롱 포지션임
- 나도 Google에 베팅하고 싶지만, Gemini CLI 경험이 Codex나 Claude 수준과 비슷하기만 해도 그랬을 것 같음 하드웨어가 아무리 좋아도 대표 코딩 에이전트가 턴 종료 토큰 찾다가 루프에 빠지면 그 가치는 크게 떨어진다고 느낌
- Amazon도 비슷하게 자체 TPU류 칩을 만드는 것 아닌지 궁금했음
- 나는 남의 왕국에 성을 짓지 말라는 말이 떠올랐음 결국 NVidia에서 사는 게 유일한 현실적 선택 같고, 그마저도 최적은 아니라고 봄
- 나는 오히려 그 가설의 반대편에 가까움. 이유는 두 가지인데, 첫째로 Google은 생산을 인위적으로 제한해온 것처럼 보였음 둘째로 TSMC는 가장 많은 캐파 비용을 낼 수 있는 쪽을 선호하니, 새 공정 첫 슬롯은 Nvidia가 가져간다고 봄 또 GCP는 Hetzner나 lambdalabs보다 운영 마진이 높고, 실제로 더 저렴한 GPU 임대처도 있어서 학생이나 소규모 연구자는 결국 GPU 쪽에 머물게 된다고 느낌
- 나라면 경영진만 좀 더 영감을 주는 편이었다면 Google에 베팅했을 것 같음 Cook 체제 Apple도 Jobs 시절보다 순했지만, Google은 절벽에서 떨어진 느낌이었음. OpenAI가 ChatGPT를 내놓지 않았다면 이 기술을 여전히 내부 실험에만 묵혀뒀을 수도 있다고 봄. 지금은 그 일이 오히려 칩 R&D 전체를 밀어주는 동력이 된 듯함
다른 회사들이 뉴스 사이클의 주목을 끄는 동안, Google은 조용히 강해지는 흐름을 타며 소비자 시장 점유율을 쌓아가는 것처럼 보였음 AI를 처음부터 수직 통합해온 덕인지 인프라 문제도 거의 없어 보였고, 한때는 끝난 회사처럼 보였는데 지금은 밀물처럼 사방으로 커지는 느낌임
- 다만 Google Antigravity 서브레딧은 완전 난장판처럼 보였음 https://www.reddit.com/r/GoogleAntigravityIDE/
- 나는 1~2년 안에 Google과 Apple이 결국 둘 다 이득을 챙길 시점이 올 거라고 봄 이들은 매달 다듬어지지 않은 제품을 내며 기업가치를 두 배로 만들려는 속도전 게임을 하는 게 아니고, 관찰하고 생각한 뒤 정말 완성도 높은 제품을 낼 시간이 있다고 기대함
- Google의 최신 오픈 모델들은 다른 오픈 모델과 꽤 경쟁력이 있다고 봄 특히 2~4GB 같은 소형 사이즈에서 혁신이 있고, 폰이나 더 작은 기기에서 현실적인 품질의 추론에 가까워지도록 격차를 줄이는 데 도움을 주고 있다고 느낌
- 과장만 걷어내면 OpenAI와 Anthropic은 돈으로 자신을 덮고 더 큰 모닥불을 만들려고 서로 불 지르는 것처럼 보였음
- AI 도입은 Google에겐 OpenAI나 Anthropic만큼 실존적 문제가 아니라고 봄 게다가 Google이 무슨 말을 해도 다른 둘처럼 hype를 만들기 어렵고, 결국 기업 홍보 문구처럼 들리기 쉽다고 느낌
Gemini, ChatGPT, Claude를 모두 쓰는 입장에서 보면, Gemini는 두 모델보다 일관되게 훨씬 적은 토큰을 쓰는 편이었음 결국 Gemini가 지금 수준에 머무는 건 더 작은 thinking budget 때문처럼 보였음 Google이 아마 가장 많은 컴퓨트와 가장 낮은 비용 구조를 갖고 있을 텐데, 왜 다른 둘처럼 추론 컴퓨트를 강하게 밀어붙이지 않는지는 의문이었음. 다른 서비스 부담 때문인지, 학습 중심 전략인지 모르겠지만 꽤 흥미로운 지점이라고 느낌
- 나는 몇 달 동안 20달러 안팎의 Google One 구독으로 Gemini Pro를 써봤는데, 정보 검증을 위해 웹 검색을 돌리는 횟수도 ChatGPT 5.4 Pro보다 일관되게 적다고 느꼈음 코딩 비교도 해보려 했지만 Gemini VSCode 애드인이 작동하지 않아 못 했음 Android와 웹 앱에는 버그도 많았고, 스레드 사이를 오가면 채팅 기록이 사라지는 문제까지 있어서 이번 달에 Google One 구독을 해지할 생각임
- Gemini를 Claude나 ChatGPT 대신 써야 할 경쟁 우위가 뭔지 잘 모르겠음 출력 품질이 그 둘에 거의 못 미친다고 느낌
- 오늘 막 공개한 엔터프라이즈 agentic 플랫폼이 Fortune 500이 추론 워크로드를 얹는 중력 우물이 될 수도 있겠다고 기대함
- 나는 GLM-5가 GLM-4.7보다 좋아진 핵심 이유 중 하나가 토큰 사용에 더 적극적이었기 때문이라고 절반쯤 확신함 4.7은 소스 코드를 충분히 읽게 만드는 게 너무 힘들었고, 그래도 일단 읽히면 꽤 유능했음 검소함은 장점이지만, 반대로 충분히 반성하지 않음, 요소를 충분히 고려하지 않음, 소스 코드를 충분히 읽지 않음을 뜻할 수도 있다고 봄. 결국 토큰을 아끼는 것과 많이 쓰는 것 사이에서 아직은 누구도 확실히 모르는 영역이라고 느낌
TPU 8t superpod 하나가 9,600칩과 2PB의 공유 고대역폭 메모리까지 스케일된다는 설명은 인상적이었음 내가 이 분야를 잘 아는 건 아니지만, 적어도 내 눈에는 Google의 꽤 큰 경쟁 우위처럼 보였음
- 내 생각에도 그건 맞음. 그래도 instruction과 data 분리 쪽의 돌파구 없이는 AGI를 만들진 못할 것이라고 봄
TPU 8t와 TPU 8i가 이전 세대 대비 전력당 성능이 최대 2배라는 말은 꽤 인상적이었음 특히 이전 세대가 2025년 제품일 만큼 최근이라는 점이 더 흥미로웠음. 또 학습용과 추론용 하드웨어가 분리된 점도 눈에 띄었고, NV 하드웨어를 쓰는 회사들도 이렇게 나눠 쓰는지 아니면 더 범용적인지 궁금했음
- 학습이 compute-bound, 추론이 memory-bound라는 건 잘 알려진 사실이지만, Nvidia 배포는 보통 둘 중 하나에 특화하지는 않는다고 알고 있음 많은 클라우드와 네오클라우드는 워크로드 자체를 소유하지 않아서 범용성이 중요하고, 비싼 H200에 네트워킹까지 투자한 이상 다양한 고객에게 팔 수 있어야 하기 때문임 다만 Vera Rubin의 Grok LPU나 Cerebras처럼 추론 최적화 전용 가속기도 나오고 있어서, 특화 흐름은 이미 시작됐다고 봄
- NVIDIA 쪽은 확답 못 하겠지만, AWS는 자체 학습용 칩과 추론용 칩을 따로 갖고 있음 다만 소문으로는 추론 칩이 너무 약해서 일부 회사는 추론도 학습용 칩에서 돌린다고 들었음
- 전용 하드웨어는 대체로 더 빠른 성능을 내므로, 어떤 분야가 성숙해질수록 복잡하고 비싼 시스템이 싸고 흔한 1달러 칩으로 내려오는 경향이 있다고 봄 그래서 Google이 NVidia 위에 올라탄 회사들보다 자기 스택을 훨씬 잘 이해한다고 느꼈음. Google은 키보드부터 실리콘까지 다 소유하고 있어서, 서로 자원을 두고 경쟁하는 기능들을 분리하는 법을 충분히 반복 학습한 것처럼 보였음
- 학습용 칩도 결국 느리지만 처리량 높은 대규모 추론에는 꽤 쓸만할 것 같음 시간 민감도가 낮은 용도에서는 이런 방식이 꽤 대중화될 거라고 예상함
- Vera Rubin에 빠른 추론용 Groq 칩이 들어간다는 점만 봐도 하나의 추세가 보였음 에너지 수요가 이렇게 높은 상황에서는 가능한 모든 최적화를 추구하는 게 자연스럽다고 느낌
나는 Gemini를 JetBrains의 Junie와 함께 쓰고 있는데, Junie 자체는 Claude Code만큼 좋진 않아도 현재 Google 도구들보다는 훨씬 앞서 있다고 느낌 이 조합으로 꽤 저렴하게도 일관된 결과를 잘 얻고 있음
- JetBrains IDE와 도구 문맥 안에서 봤을 때도, Junie가 경쟁 제품과 맞먹는 수준이라고 보는지 궁금했음
대형 추론 제공업체 중에서 Google은 모델 폐기 정책이 가장 불편한 축에 든다고 느낌 출시 정확히 1년 뒤에 모델을 없애고 다음 세대로 강제 이동시키는데, 자체 실리콘을 쓰니 오히려 더 안정적일 줄 알았더니 반대였음. rate limiting도 OpenAI보다 훨씬 빡빡해서, 이게 TPU 탓인지 그냥 이상한 정책 결정인지 궁금했음
- Google이 오래된 Gemini 릴리스를 너무 가볍게 종료하는 태도는 꽤 답답했음 내 해석으로는 대부분의 도구가 최신 모델만 쓰다 보니 새 모델이 금세 전체 볼륨의 90% 이상을 먹고, 그러면 Google식 비용편익 분석이 적용돼 구형이 무심하게 꺼지는 구조 같음 최근 Gemini 2.5의 EOL 날짜를 연장한 건 오히려 놀라웠고, Google은 원래 고객 집착형 회사는 아니었다는 생각임
- Flash 2는 아직 6월까지 EOL도 아닌데 주말 동안 429가 떠서 오류율 90% 수준을 봤음 그래서 결국 GPT 5.4 nano로 갈아탔음
AI에 최종 승자가 생긴다면, 결국 전체 스택을 가진 Google이거나 가장 많은 AI 가능 엣지 사이트를 배포할 Apple이 이길 것 같아서 다른 그림이 잘 안 그려졌음
- 내 생각에 승자는 특정 작업을 잘하는 로컬 모델 래퍼일 수도 있음 검색 같은 일을 사람 비위 맞추는 의인화된 아첨꾼이 아니라 제대로 수행하도록 설계된 쪽이 더 유력해 보였음
- Google이 제품 측면에서 계속 헛발질할 가능성도 꽤 크다고 봄 엄청난 배포력 덕분에 그래도 버틸 수는 있겠지만, 더 나은 제품이 나오면 IE 대 Chrome처럼 충분히 파괴적 전환을 당할 여지도 남아 있다고 느낌
이 링크에 아키텍처 설명이 더 자세히 정리돼 있었음. https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive

답변달기

에이전트 시대를 위한 두 개의 칩: Google의 8세대 TPU

8세대 TPU 개요

10년 이상의 설계 철학

훈련과 추론을 분리한 이유

TPU 8t: 훈련 전용 파워하우스

대규모 확장(Massive Scale)

최대 활용률(Maximum Utilization)

근선형 확장(Near-Linear Scaling)

신뢰성 및 가용성

TPU 8i: 추론 엔진

메모리 벽 돌파(Breaking the Memory Wall)

Axion 기반 효율성

MoE 모델 확장

지연 제거(Eliminating Lag)

성능 대비 비용

Gemini와 공동 설계, 모두에게 개방

프레임워크 및 접근성

대규모 전력 효율 설계

에이전틱 시대를 위한 인프라

함께 보면 좋은 글 β

Hacker News 의견들