에이전트 시대를 위한 두 개의 칩: Google의 8세

▲

GN⁺ 8시간전 | parent | ★ favorite | on: 에이전트 시대를 위한 두 개의 칩: Google의 8세대 TPU(blog.google)

Hacker News 의견들

나는 Gemini 3가 효율성 중심 학습으로 어디까지 가능한지 이미 보여줬다고 느꼈음. Pro와 Flash는 Opus나 GPT-5급 모델보다 아마 5배에서 10배는 더 작아 보인다고 추정함 도구 호출이 자주 깨지고 agentic 작업에서는 전반적으로 약해서 추론과 실행 다듬기는 아직 부족해 보였음. 그래도 도구나 검색 없이 순수 문제 해결만 보면 Opus와 GPT에 맞먹고, 크기는 훨씬 작아 보인다는 인상임 Google은 언젠가 미리보기 단계 프로토타이핑을 끝내고 제대로 된 정식 모델을 내놓는 순간, 현재 SOTA를 한 세대쯤 넘어서는 모델로 모두를 놀라게 할 것 같음. 지금까지 나온 모델들은 투자자에게 보여주고 제품군에 개념증명으로 넣기 위해 서둘러 GA로 밀어 넣은 프로토타입처럼 느껴졌음
- 나는 그 5배에서 10배 추정에는 회의적임. 특히 Pro는 그렇고, 오히려 Google 하드웨어 덕분에 더 큰 모델을 더 싸고 빠르게 돌리는 쪽일 수도 있다고 봄 Gemini 3 Pro는 전반적으로 가장 인간적인 지능에 가까운 모델처럼 느껴졌음. 특히 인문 분야가 강하고, 많은 인간 언어에서 자연스러운 텍스트를 만드는 능력은 사실상 1위라고 봄. 이런 차이는 틈새 언어로 갈수록 더 커지고, 그건 작은 모델이라기보다 오히려 더 큰 모델을 시사한다고 느꼈음 수학과 agentic 작업은 확실히 약하고, Gemini 앱 자체도 3년 전 초기 ChatGPT와 크게 다르지 않을 만큼 뒤처져 보여 체감 성능을 깎아먹는다고 봄
- 나도 이 부분에는 동의함. Gemini-cli는 CC나 Codex와 비교하면 정말 형편없다고 느낌 그래도 Google이 우선순위를 두는 건 전통적인 검색을 보강하거나 대체할 최고의 AI를 만드는 일이라고 봄. 그게 본업이고, 수익화 위치도 누구보다 훨씬 유리함. 사용자 기반과 쿼리 볼륨 면에서 이미 엄청난 분배 우위를 갖고 있다고 판단함 Gemini-cli에도 우선순위를 높여서 이 영역 경쟁을 더 세게 밀어줬으면 좋겠다는 바람임
- 내 기억으로 Gemini 3 Pro가 처음 나왔을 때는 당시 Claude 버전과 거의 동급으로 여겨졌음. 그런데 지금의 Gemini 3는 꽤 오래된 느낌이 남 그 사이 중국 모델도 많이 나왔고 Claude도 몇 차례 업데이트돼서, 지금은 Google이 이 분야에서 약간 정체한 것처럼 보임. 물론 곧 큰 폭의 개선으로 놀라게 할 수도 있다고는 생각함
- 나는 Google의 preview 명칭이 꽤 자의적이라고 봄. 가용성이나 지속성에 대한 약속을 피하려는 방식이고, 실패가 나와도 베타 품질이었다고 둘러댈 수 있는 PR 전술처럼 느껴졌음
- 나는 Gemini에서 내가 뭘 놓치고 있는지 늘 궁금했음. 내게는 잘해봐야 2류 모델 정도로 느껴짐 정보 수집은 그럭저럭이지만 agentic 작업은 거의 쓸모없고, 늘 술 취한 것처럼 보였음. Antigravity에서 Claude 크레딧이 다 떨어지면 그날은 그냥 끝난다는 느낌임 토큰을 훨씬 적게 쓴다는 말은 웃겼는데, 내 경험에서는 문제도 못 푸는 죽음의 루프를 자주 돌았기 때문임
이제 대형 AI를 하려면 사실상 NVidia에서 사거나 Google에서 빌려야 한다고 봄. 그리고 Google은 칩, 엔진, 시스템을 데이터센터 전체 관점에서 설계할 수 있어서, 칩 벤더가 중앙집중화할 수 없는 부분까지 최적화할 수 있음 그래서 규모가 정말 커질수록 Google 시스템이 항상 더 비용 효율적일 거라고 추정함. 참고로 나는 이런 이유 포함해서 GOOG 롱 포지션임
- 나도 Google에 베팅하고 싶지만, Gemini CLI 경험이 Codex나 Claude 수준과 비슷하기만 해도 그랬을 것 같음 하드웨어가 아무리 좋아도 대표 코딩 에이전트가 턴 종료 토큰 찾다가 루프에 빠지면 그 가치는 크게 떨어진다고 느낌
- Amazon도 비슷하게 자체 TPU류 칩을 만드는 것 아닌지 궁금했음
- 나는 남의 왕국에 성을 짓지 말라는 말이 떠올랐음 결국 NVidia에서 사는 게 유일한 현실적 선택 같고, 그마저도 최적은 아니라고 봄
- 나는 오히려 그 가설의 반대편에 가까움. 이유는 두 가지인데, 첫째로 Google은 생산을 인위적으로 제한해온 것처럼 보였음 둘째로 TSMC는 가장 많은 캐파 비용을 낼 수 있는 쪽을 선호하니, 새 공정 첫 슬롯은 Nvidia가 가져간다고 봄 또 GCP는 Hetzner나 lambdalabs보다 운영 마진이 높고, 실제로 더 저렴한 GPU 임대처도 있어서 학생이나 소규모 연구자는 결국 GPU 쪽에 머물게 된다고 느낌
- 나라면 경영진만 좀 더 영감을 주는 편이었다면 Google에 베팅했을 것 같음 Cook 체제 Apple도 Jobs 시절보다 순했지만, Google은 절벽에서 떨어진 느낌이었음. OpenAI가 ChatGPT를 내놓지 않았다면 이 기술을 여전히 내부 실험에만 묵혀뒀을 수도 있다고 봄. 지금은 그 일이 오히려 칩 R&D 전체를 밀어주는 동력이 된 듯함
다른 회사들이 뉴스 사이클의 주목을 끄는 동안, Google은 조용히 강해지는 흐름을 타며 소비자 시장 점유율을 쌓아가는 것처럼 보였음 AI를 처음부터 수직 통합해온 덕인지 인프라 문제도 거의 없어 보였고, 한때는 끝난 회사처럼 보였는데 지금은 밀물처럼 사방으로 커지는 느낌임
- 다만 Google Antigravity 서브레딧은 완전 난장판처럼 보였음 https://www.reddit.com/r/GoogleAntigravityIDE/
- 나는 1~2년 안에 Google과 Apple이 결국 둘 다 이득을 챙길 시점이 올 거라고 봄 이들은 매달 다듬어지지 않은 제품을 내며 기업가치를 두 배로 만들려는 속도전 게임을 하는 게 아니고, 관찰하고 생각한 뒤 정말 완성도 높은 제품을 낼 시간이 있다고 기대함
- Google의 최신 오픈 모델들은 다른 오픈 모델과 꽤 경쟁력이 있다고 봄 특히 2~4GB 같은 소형 사이즈에서 혁신이 있고, 폰이나 더 작은 기기에서 현실적인 품질의 추론에 가까워지도록 격차를 줄이는 데 도움을 주고 있다고 느낌
- 과장만 걷어내면 OpenAI와 Anthropic은 돈으로 자신을 덮고 더 큰 모닥불을 만들려고 서로 불 지르는 것처럼 보였음
- AI 도입은 Google에겐 OpenAI나 Anthropic만큼 실존적 문제가 아니라고 봄 게다가 Google이 무슨 말을 해도 다른 둘처럼 hype를 만들기 어렵고, 결국 기업 홍보 문구처럼 들리기 쉽다고 느낌
Gemini, ChatGPT, Claude를 모두 쓰는 입장에서 보면, Gemini는 두 모델보다 일관되게 훨씬 적은 토큰을 쓰는 편이었음 결국 Gemini가 지금 수준에 머무는 건 더 작은 thinking budget 때문처럼 보였음 Google이 아마 가장 많은 컴퓨트와 가장 낮은 비용 구조를 갖고 있을 텐데, 왜 다른 둘처럼 추론 컴퓨트를 강하게 밀어붙이지 않는지는 의문이었음. 다른 서비스 부담 때문인지, 학습 중심 전략인지 모르겠지만 꽤 흥미로운 지점이라고 느낌
- 나는 몇 달 동안 20달러 안팎의 Google One 구독으로 Gemini Pro를 써봤는데, 정보 검증을 위해 웹 검색을 돌리는 횟수도 ChatGPT 5.4 Pro보다 일관되게 적다고 느꼈음 코딩 비교도 해보려 했지만 Gemini VSCode 애드인이 작동하지 않아 못 했음 Android와 웹 앱에는 버그도 많았고, 스레드 사이를 오가면 채팅 기록이 사라지는 문제까지 있어서 이번 달에 Google One 구독을 해지할 생각임
- Gemini를 Claude나 ChatGPT 대신 써야 할 경쟁 우위가 뭔지 잘 모르겠음 출력 품질이 그 둘에 거의 못 미친다고 느낌
- 오늘 막 공개한 엔터프라이즈 agentic 플랫폼이 Fortune 500이 추론 워크로드를 얹는 중력 우물이 될 수도 있겠다고 기대함
- 나는 GLM-5가 GLM-4.7보다 좋아진 핵심 이유 중 하나가 토큰 사용에 더 적극적이었기 때문이라고 절반쯤 확신함 4.7은 소스 코드를 충분히 읽게 만드는 게 너무 힘들었고, 그래도 일단 읽히면 꽤 유능했음 검소함은 장점이지만, 반대로 충분히 반성하지 않음, 요소를 충분히 고려하지 않음, 소스 코드를 충분히 읽지 않음을 뜻할 수도 있다고 봄. 결국 토큰을 아끼는 것과 많이 쓰는 것 사이에서 아직은 누구도 확실히 모르는 영역이라고 느낌
TPU 8t superpod 하나가 9,600칩과 2PB의 공유 고대역폭 메모리까지 스케일된다는 설명은 인상적이었음 내가 이 분야를 잘 아는 건 아니지만, 적어도 내 눈에는 Google의 꽤 큰 경쟁 우위처럼 보였음
- 내 생각에도 그건 맞음. 그래도 instruction과 data 분리 쪽의 돌파구 없이는 AGI를 만들진 못할 것이라고 봄
TPU 8t와 TPU 8i가 이전 세대 대비 전력당 성능이 최대 2배라는 말은 꽤 인상적이었음 특히 이전 세대가 2025년 제품일 만큼 최근이라는 점이 더 흥미로웠음. 또 학습용과 추론용 하드웨어가 분리된 점도 눈에 띄었고, NV 하드웨어를 쓰는 회사들도 이렇게 나눠 쓰는지 아니면 더 범용적인지 궁금했음
- 학습이 compute-bound, 추론이 memory-bound라는 건 잘 알려진 사실이지만, Nvidia 배포는 보통 둘 중 하나에 특화하지는 않는다고 알고 있음 많은 클라우드와 네오클라우드는 워크로드 자체를 소유하지 않아서 범용성이 중요하고, 비싼 H200에 네트워킹까지 투자한 이상 다양한 고객에게 팔 수 있어야 하기 때문임 다만 Vera Rubin의 Grok LPU나 Cerebras처럼 추론 최적화 전용 가속기도 나오고 있어서, 특화 흐름은 이미 시작됐다고 봄
- NVIDIA 쪽은 확답 못 하겠지만, AWS는 자체 학습용 칩과 추론용 칩을 따로 갖고 있음 다만 소문으로는 추론 칩이 너무 약해서 일부 회사는 추론도 학습용 칩에서 돌린다고 들었음
- 전용 하드웨어는 대체로 더 빠른 성능을 내므로, 어떤 분야가 성숙해질수록 복잡하고 비싼 시스템이 싸고 흔한 1달러 칩으로 내려오는 경향이 있다고 봄 그래서 Google이 NVidia 위에 올라탄 회사들보다 자기 스택을 훨씬 잘 이해한다고 느꼈음. Google은 키보드부터 실리콘까지 다 소유하고 있어서, 서로 자원을 두고 경쟁하는 기능들을 분리하는 법을 충분히 반복 학습한 것처럼 보였음
- 학습용 칩도 결국 느리지만 처리량 높은 대규모 추론에는 꽤 쓸만할 것 같음 시간 민감도가 낮은 용도에서는 이런 방식이 꽤 대중화될 거라고 예상함
- Vera Rubin에 빠른 추론용 Groq 칩이 들어간다는 점만 봐도 하나의 추세가 보였음 에너지 수요가 이렇게 높은 상황에서는 가능한 모든 최적화를 추구하는 게 자연스럽다고 느낌
나는 Gemini를 JetBrains의 Junie와 함께 쓰고 있는데, Junie 자체는 Claude Code만큼 좋진 않아도 현재 Google 도구들보다는 훨씬 앞서 있다고 느낌 이 조합으로 꽤 저렴하게도 일관된 결과를 잘 얻고 있음
- JetBrains IDE와 도구 문맥 안에서 봤을 때도, Junie가 경쟁 제품과 맞먹는 수준이라고 보는지 궁금했음
대형 추론 제공업체 중에서 Google은 모델 폐기 정책이 가장 불편한 축에 든다고 느낌 출시 정확히 1년 뒤에 모델을 없애고 다음 세대로 강제 이동시키는데, 자체 실리콘을 쓰니 오히려 더 안정적일 줄 알았더니 반대였음. rate limiting도 OpenAI보다 훨씬 빡빡해서, 이게 TPU 탓인지 그냥 이상한 정책 결정인지 궁금했음
- Google이 오래된 Gemini 릴리스를 너무 가볍게 종료하는 태도는 꽤 답답했음 내 해석으로는 대부분의 도구가 최신 모델만 쓰다 보니 새 모델이 금세 전체 볼륨의 90% 이상을 먹고, 그러면 Google식 비용편익 분석이 적용돼 구형이 무심하게 꺼지는 구조 같음 최근 Gemini 2.5의 EOL 날짜를 연장한 건 오히려 놀라웠고, Google은 원래 고객 집착형 회사는 아니었다는 생각임
- Flash 2는 아직 6월까지 EOL도 아닌데 주말 동안 429가 떠서 오류율 90% 수준을 봤음 그래서 결국 GPT 5.4 nano로 갈아탔음
AI에 최종 승자가 생긴다면, 결국 전체 스택을 가진 Google이거나 가장 많은 AI 가능 엣지 사이트를 배포할 Apple이 이길 것 같아서 다른 그림이 잘 안 그려졌음
- 내 생각에 승자는 특정 작업을 잘하는 로컬 모델 래퍼일 수도 있음 검색 같은 일을 사람 비위 맞추는 의인화된 아첨꾼이 아니라 제대로 수행하도록 설계된 쪽이 더 유력해 보였음
- Google이 제품 측면에서 계속 헛발질할 가능성도 꽤 크다고 봄 엄청난 배포력 덕분에 그래도 버틸 수는 있겠지만, 더 나은 제품이 나오면 IE 대 Chrome처럼 충분히 파괴적 전환을 당할 여지도 남아 있다고 느낌
이 링크에 아키텍처 설명이 더 자세히 정리돼 있었음. https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive