# OpenAI, Broadcom과 만든 첫 자체 추론 칩 Jalapeño 공개

> Clean Markdown view of GeekNews topic #30806. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=30806](https://news.hada.io/topic?id=30806)
- GeekNews Markdown: [https://news.hada.io/topic/30806.md](https://news.hada.io/topic/30806.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-06-25T09:47:36+09:00
- Updated: 2026-06-25T09:47:36+09:00
- Original source: [techcrunch.com](https://techcrunch.com/2026/06/24/openai-unveils-its-first-custom-chip-built-by-broadcom/)
- Points: 3
- Comments: 1

## Topic Body

- **Jalapeño(할라페뇨)** 는 LLM 추론(inference)에 특화된 가속기이자 Broadcom과 함께 만드는 **다세대 컴퓨팅 플랫폼**의 첫 결과물  
- 설계 착수부터 제조 테이프아웃까지 단 **9개월** 소요, 고성능 첨단 반도체 분야 사상 가장 빠른 ASIC 개발 주기로 추정  
- 초기 테스트에서 일반 AI GPU 대비 약 **50% 비용 절감**, 와트당 성능도 현 최첨단 대비 크게 우수  
- 칩 아키텍처부터 커널, 메모리, 네트워킹까지 직접 설계하는 **풀스택 전략**의 일환으로, Nvidia GPU 의존도 축소와 소프트웨어 기업을 넘어 **AI 인프라 사업자**로의 확장을 겨냥  
- 2026년 말부터 Microsoft 등 파트너와 **기가와트 규모 데이터센터**에 배치 예정, 1조 달러 규모 IPO를 앞둔 수익성 입증 압박 속 의미 부각  
  
---  
  
### Jalapeño 칩 공개  
- 수요일 OpenAI와 Broadcom(NASDAQ: AVGO)이 OpenAI 첫 **인텔리전스 프로세서(Intelligence Processor)** Jalapeño(할라페뇨) 공개  
- LLM 추론의 미래를 겨냥해 설계된 가속기로, 두 회사가 함께 만드는 **다세대 컴퓨팅 플랫폼**의 첫 AI 가속기  
- Broadcom 회장 겸 CEO **Hock Tan**과 사장 **Charlie Kawwas**가 OpenAI CEO Sam Altman과 사장 Greg Brockman에게 칩 샘플을 직접 전달  
- 소비자 제품을 넘어 **AI 인프라 사업자**로 도약하려는 OpenAI 전략의 중요한 단계  
  
### 칩 구조와 성능  
  
- Jalapeño는 기존 AI 워크로드용 가속기를 개조한 범용 칩이 아니라, 현대 **LLM 추론을 위한 백지 상태(blank-slate) 설계**  
- 특정 AI 작업에 맞춰 설계 가능한 **ASIC**으로, Nvidia GPU보다 유연성은 낮지만 비용이 저렴  
- ## 성능·효율  
  - 초기 테스트에서 일반 AI GPU 대비 약 **50% 비용 절감** (Hock Tan 인터뷰)  
  - 최종 성능은 측정 중이나, **와트당 성능**이 현 최첨단 대비 크게 향상된 수준  
  - **데이터 이동을 줄이고** 연산·메모리·네트워킹 자원의 균형을 맞춰, 실제 활용률을 이론적 최대 성능에 근접하게 구현  
  - 공개된 칩 이미지에서 **8개의 HBM 사이트**와 중앙의 컴퓨트 다이 확인  
- ## 작동 검증  
  - 엔지니어링 샘플이 양산 목표 주파수·전력에서 ML 워크로드 구동 중이며, 여기에는 **GPT‑5.3‑Codex‑Spark** 포함  
  - 상세 기술 보고서는 향후 몇 달 내 공개 예정  
  - Broadcom의 실리콘 구현과 **Tomahawk 네트워킹 실리콘**이 대규모 양산 지원  
  
### 9개월 테이프아웃, OpenAI 모델이 가속  
  
- 초기 설계부터 제조 테이프아웃까지 단 **9개월** 만에 공동 개발, 고성능 첨단 반도체에서 사상 가장 빠른 ASIC 개발 주기로 추정  
- 설계·최적화 과정 일부에 OpenAI **자체 모델**을 활용, Brockman은 모델이 개발을 가속한 정도가 "놀라울 정도"였다고 언급  
- 사용자에게 제공되는 동일한 모델이 향후 모델 구동용 인프라 개선에 기여  
- AI가 엔지니어의 더 빠른 칩 설계를 도우면, 업계 전반의 **컴퓨팅 비용** 절감과 첨단 AI 접근성 확대로 이어질 가능성  
  
### 다세대 플랫폼과 파트너  
  
- Jalapeño는 2026년 말 초기 배치를 목표로, 이후 수년간 확장될 **다세대 컴퓨팅 플랫폼**의 첫 단계  
- ## 협력 구조  
  - **OpenAI** — 가속기 설계, LLM 기초에 대한 깊은 이해 기반  
  - **Broadcom** — 칩 구현, 네트워킹·연결 기술  
  - **Celestica** — 보드, 랙, 시스템 통합 전문성  
- 작년 OpenAI와 Broadcom은 **10기가와트** 규모 컴퓨팅용 맞춤 칩 개발 계획을 발표, 이번에 그 첫 칩 공개  
- ## 폭발적 수요  
  - Broadcom CEO Hock Tan은 2026년부터 Microsoft 등 파트너와 **기가와트 규모 데이터센터** 배치를 가능케 한다고 언급, 2026년 말 소규모 프로토타입 후 확장 계획  
  - Brockman은 "컴퓨팅을 충분히 빨리 확보할 수 없다", Tan은 6개 고객사의 수요가 "**그야말로 채울 수 없는 수준**"이며 2027~2028년에도 동일하거나 더 높을 것이라고 언급  
  - OpenAI 하드웨어 프로그램 책임자 **Richard Ho**는 프런티어 AI 모델에 가장 중요한 커널, 메모리 이동, 네트워킹, 서빙 패턴을 중심으로 아키텍처를 최적화했다고 설명  
  
### 풀스택 전략과 경쟁 구도  
  
- OpenAI는 프런티어 모델 개발과 제품 구축을 넘어, 그 아래 인프라까지 직접 설계 — **칩 아키텍처, 커널, 메모리 시스템, 네트워킹, 스케줄링, 배포 시스템, 제품 경험** 포함  
- 이로써 **Google**(TPU), **Amazon**(Trainium), **Microsoft**(Azure Maia 100)처럼 자체 실리콘을 갖춘 풀스택 AI 사업자 대열에 합류  
- ## Nvidia 의존도 축소  
  - "누구도 Nvidia에 종속되길 원치 않는다"(Quilter Cheviot 기술 리서치 총괄 Ben Barringer), 칩 공급선 다변화 흐름  
  - OpenAI는 Nvidia 최대 고객 중 하나이면서도 **AMD**(Instinct MI450 시리즈), **Cerebras** 등과도 공급 계약 체결  
- ## 사업적 의미  
  - Nvidia가 AI 데이터센터의 핵심 부품 공급으로 세계 최고 가치 기업에 오른 가운데, AI 인프라 시장의 수익 잠재력 부각  
  - 1조 달러 가치가 거론되는 **IPO**를 앞둔 OpenAI로서, 추론 비용 절감은 막대한 학습 비용 회수와 수익성 입증의 열쇠  
  - Broadcom 주가는 2026년 들어 상승, 2022년 말 대비 약 7배 수준으로 협력의 수혜 반영  
  
### 첨단 AI의 대중화  
  
- 추론은 **AI가 사람과 만나는 지점**으로, 비용·속도·안정성 개선이 곧 더 빠른 ChatGPT 응답, 대기 없는 Codex 작업, 더 저렴한 API 제품, 수요 급증 시 더 안정적인 접근으로 이어짐  
- 첨단 모델을 더 많은 사람이 매일 쓸 수 있을 만큼 **이용 가능·안정적·저렴하게** 만드는 것이 AI 대중화의 핵심  
- 학생, 개발자, 소상공인, 연구자, 기업 등 배우고 만들고 어려운 문제를 풀려는 모두를 위해 인프라를 유용한 지능으로 전환하는 데 기여

## Comments


### Comment 60284

- Author: neo
- Created: 2026-06-25T09:47:37+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=48663324) 
- “OpenAI 모델로 설계와 최적화를 가속했다”는 부분을 더 자세히 보고 싶음  
  지금 표현만 보면 Microsoft Office나 5K LG Ultrafine 40인치 모니터 덕분에 개발이 빨라졌다고 말하는 것 같은 **마케팅 문구**로 보임  
  정말 암시하는 만큼 큰 일이라면, OpenAI가 훨씬 더 크게 강조했을 것 같음
  - 칩 CEO 입장에서는 “설계”와 “생산”이 무엇을 뜻하느냐에 따라 완전히 달라짐  
    “설계”가 설계 완료를 뜻하는지, “생산”이 생산 시작, 즉 **테이프아웃**을 뜻하는지 불명확함  
    RTL 동결부터 테이프아웃까지 9개월이라면 대형 복잡한 3nm 칩 기준으로 꽤 평범하고, 예상치 못한 이슈까지 감안하면 살짝 인상적이지도 않은 일정임  
    반대로 개념 단계, 즉 RTL 없이 아키텍처 블록도만 있던 상태에서 테이프아웃까지라면 놀라운 일정이고, 실제는 그 중간쯤일 가능성이 큼  
    더 구체적인 발표라면 실제 기술 마일스톤과 게이트를 써야 함
  - 칩 개발에 쓰는 **하드웨어 기술 언어(HDL)** 는 프로그래밍 언어와 비슷하고, 기존 모델도 이를 이해해서 꽤 많은 일을 할 수 있음  
    칩 설계 작업 흐름에 대형 언어 모델을 쓰기 위해 별도의 특화 모델이 꼭 필요한 건 아님  
    설계 검증도 전통적인 프로그래밍이 많이 들어가므로 대형 언어 모델의 도움을 받을 수 있음  
    전혀 의미 없는 말은 아니고, 오늘 오픈소스 칩 설계 소프트웨어를 내려받으면 대형 언어 모델이 작은 칩을 직접 시작하는 데도 도와줄 수 있음
  - Broadcom은 이미 AI SoC용 **IP**를 많이 갖고 있음  
    이 추론 칩의 어려운 부분은 Broadcom이 이미 설계해 두었고, OpenAI는 원하는 사양을 Broadcom에 전달했을 가능성이 큼  
    Google TPU와도 꽤 비슷할 것 같음  
    “1세대 가속기가 현재 최첨단 대비 와트당 성능을 상당히 높일 것”이라는데, 여기서 “상당히”가 무엇인지 궁금함  
    Vera Rubin은 올해 말 대량 출하 예정이고, Blackwell보다 추론 전력 효율이 10배 높을 것으로 예상됨[0]  
    이미 테이프아웃을 했더라도 버그 수정, 칩 제조, HBM 할당, 랙 설계, 상호 연결, 데이터센터 배치까지 하려면 최소 12개월, 아마 그 이상 걸릴 가능성이 큼  
    이 칩이 데이터센터에 대량으로 들어갈 때쯤이면 Vera Rubin Ultra나 Feynman과 경쟁하게 될 수도 있음  
    개인적으로 OpenAI가 이 프로젝트에 투자하지 말았어야 한다고 봄  
    아직 너무 이르고, Anthropic처럼 모델에 집중해서 이긴 뒤 수익성이 생기면 이런 프로젝트를 해야 했음  
    AI에는 에너지라는 단단한 상한이 있기 때문에 OpenAI에 위험이 큼  
    1GW가 있다면 가장 좋은 칩만 설치해야 하고, Nvidia 칩이 더 좋다면 이 프로젝트는 수십억 달러를 낭비한 셈이 됨  
    [0][https://developer.nvidia.com/blog/scaling-token-factory-reve...](<https://developer.nvidia.com/blog/scaling-token-factory-revenue-and-ai-efficiency-by-maximizing-performance-per-watt/>)
  - 가능한 의미는 크게 두 가지이고, 그 사이의 농담도 있음  
    1) OpenAI가 칩 설계를 개선할 수 있는 AI 기술을 실제로 갖고 있음 — 대담하고 가능성 낮은 주장이라 증거가 필요함  
    2) OpenAI가 시뮬레이션 하드웨어에서 성능을 테스트할 **테스트·검증 모델과 커널**을 설계함  
    문제는 후자만 의미할 수도 있는 문장을 전자처럼 들리게 썼다는 점이고, 그래서 신뢰하기 어려움
  - Verilog는 이미 많이 공개되어 있어서, AI 도움으로 더 많은 Verilog를 작성해 칩을 설계했을 가능성은 충분함  
    꼭 혁명적일 필요는 없고, **AI 보조 설계**가 맞아떨어져 맞춤형 ASIC을 만들 가치가 있었을 수 있음

- OpenAI 글에서는 빠졌지만 칩은 **TSMC**가 만든다는 점이 거의 확실해 보임 [1]  
  Intel이 맡았는지는 확신이 없었음  
  1. [https://www.investing.com/news/stock-market-news/openai-unve...](<https://www.investing.com/news/stock-market-news/openai-unveils-custom-chip-it-designed-with-broadcom-to-boost-its-ai-infrastructure-4758233>)
  - Twitter에서 본 주장으로는 Google, Amazon, OpenAI 같은 회사들이 Broadcom을 쓰는 이유가 단순한 설계 역량뿐 아니라, Broadcom이 **TSMC와 메모리 제조사 할당 계약**을 갖고 있기 때문이라고 함
  - 최근에야 퍼즐이 맞춰졌음  
    Broadcom은 Google의 TPU 하드웨어 파트너가 되고 TSMC 생산능력을 Google과 공유하면서 큰돈을 벌었고, 이제 OpenAI에도 같은 일을 하는 것으로 보임  
    AI 골드러시를 활용하는 정말 영리한 방식임  
    다만 그렇게 번 돈으로 VMWare와 Bitnami에서처럼 소프트웨어 업계에서 돈을 뜯어내는 데 쓰지 않았으면 좋겠음

- 가중치가 칩의 **ROM** 일부로 들어간 추론 칩을 보고 싶음  
  가중치마다 곱셈기 하나가 있고, 상수라서 전체가 단순한 덧셈기 묶음으로 바뀌며, 완전 파이프라인 처리량은 클록당 토큰 하나가 될 수 있음  
  그러면 실리콘 한 조각으로 수백만 사용자를 동시에 처리하고, 출력 버스에서 초당 5억 토큰이 나올 수도 있음  
  단점은 칩이 엄청나게 커져서 웨이퍼 한 장 전체가 될 것이라는 점임  
  웨이퍼 수준 결함은 큰 문제가 아닐 수 있음. 신경망은 일부 가중치가 빠지거나 틀려도 버티는 편임  
  업계 속도가 빠르기 때문에 모델 가중치에서 생산까지 매우 빠르게 달려가고, 웨이퍼 50장을 만들어 1년 쓰다가 모델이 낡으면 버리는 식이 될 것 같음
  - 정확히는 가중치를 ROM에 넣는 것이라기보다 **메모리 내 연산(CIM)** 을 가리키는 것에 가까움  
    데이터, 여기서는 곱셈 값이 프로세서, 여기서는 곱셈 회로의 일부가 되는 기법임  
    “가져와서 처리”하는 문제를 아키텍처적으로 완전히 우회함  
    데이터가 연산이 일어나는 곳에 있으므로 이동하지 않고, 지연도 없음
  - 예전에 [https://taalas.com/](<https://taalas.com/>)가 나왔고, 비슷한 생각을 하는 곳은 더 있을 것 같음  
    이런 방식은 frontier 모델보다는 **작은 모델**에 더 적합해 보임. 최전선 모델은 너무 빨리 바뀜
  - Cerebras를 봤는지 궁금함  
    설명한 것만큼 멀리 간 건 아니고, 코어와 RAM이 아주 많지만 가중치는 여전히 소프트웨어로 올려야 하며 큰 모델에서는 칩 안으로 스트리밍해야 함  
    그래도 **웨이퍼 전체 칩**이긴 함
  - 가중치를 ROM에 넣는 생각은 한동안 해왔음  
    많은 작업에서는 ROM에 가중치를 넣어도 괜찮을 수 있음  
    다만 가중치마다 곱셈기 하나를 두는 건 좋은 아이디어인지 확신이 없음  
    2비트 정도로 양자화했다면 가능할 수도 있지만, 아니면 각 곱셈기나 행 근처에 작은 ROM을 두어 멀리서 데이터를 옮기지 않고 N개의 서로 다른 행렬 연산을 처리하게 하는 편이 나을 수 있음  
    또 다른 재미있는 구상은 DRAM에 MAC 유닛 행을 붙여서 DRAM 행을 벡터로 쓰는 것임  
    행 크기가 64Kbit라면 8비트 가중치 기준 8K개이고, 가중치와 계산을 같은 칩에 유지할 수 있음  
    다만 한 칩에 충분한 곱셈기를 넣을 수 있을지는 모르겠음  
    **시스톨릭 배열**은 수만~수십만 개가 각각 클록당 한 연산을 수행할 수 있음
  - 멤리스터가 이 용도에 이상적이고 재프로그래밍도 가능하다고들 하지만, 멤리스터는 컴퓨팅 세계의 **탄소 나노튜브** 같은 존재로 보임

- 칩 수준에서 아직 풀 수 있는 **효율 개선**이 엄청나게 많아 보여서 흥미로움  
  Taalas는 어떻게 보는지 궁금함  
  LLM 모델을 실제로 실리콘에 구워 넣고, 미세조정용 온보드 메모리를 일부 둔다고 함  
  비용과 지연시간에서 큰 이득을 주장함  
  아주 빠른 데모는 [https://chatjimmy.ai/](<https://chatjimmy.ai/>)에서 볼 수 있음  
  [https://taalas.com/](<https://taalas.com/>)  
  [https://www.reddit.com/r/singularity/comments/1r9frzk/taalas...](<https://www.reddit.com/r/singularity/comments/1r9frzk/taalas_llms_baked_into_hardware_no_hbm_weights/>)
  - 범용 GPU만 독점적으로 쓴다면 당연히 효율을 많이 놓치게 됨  
    그래서 Google이 10년도 더 전에 TPU를 만들기 시작했음  
    Timnit Gebru가 LLM의 환경 영향을 계산할 때 GPU를 기준으로 삼고 TPU 효율을 무시한 논문 때문에 Google이 Gebru를 해고했던 논란이 기억남  
    그 큰 **효율 격차** 때문에 Jeff Dean이 매우 화났던 것으로 보임
  - 이런 종류를 더 많이 보면 멋지겠지만, 새 모델이 나올 때마다 완전히 새 모델로 업데이트하는 능력은 제한적일 것 같음  
    그렇다면 판매하기가 극도로 어려워짐
  - 기술적으로는 흥미롭지만 세부사항이 너무 부족해 보임  
    칩에 영원히 바뀌지 않는 단일 모델을 넣는 생각은 마음에 들지 않음  
    가중치에 **재기록 가능한 ROM**을 쓰면 실리콘이 얼마나 더 비싸질지 궁금함  
    그렇게 하면 설계 대상 모델의 미세조정이 가능해지고, 모델이 낡는다는 우려를 줄일 수 있음
  - 챗봇에서 17k 토큰/초는 멋지지만 거의 쓸모없는 시연임  
    코딩 에이전트에서는 의미 있는 개선이고, 로보틱스에서는 **완전한 혁명**이 될 수 있음  
    8B 모델은 일반 용도로는 유용하지 않지만, 특정 용도에서는 엄청난 지능을 제공할 수 있음  
    Nvidia의 Tesla/Waymo 경쟁자는 7B LLM과 2B 확산 모델인데, 이를 그런 속도로 돌릴 수 있다면 기존 해법보다 비용이 한 자릿수 규모로 낮아질 수 있음
  - 모델 발전이 크게 둔화되는 시점에 이르러서는 이런 하드웨어가 LLM 제공자의 미래가 될 것 같음  
    지금도 그 시점에 가깝다고 주장할 수는 있음  
    AWS 같은 **하이퍼스케일러**는 몇 년간 유효할 모델을 서비스하는 데 이런 칩을 잘 활용할 것임  
    하지만 지금은 특히 Deepseek/Kimi/GLM 같은 오픈 가중치 모델에서 몇 달마다 모델 품질이 크게 뛰고 있음  
    그 전까지는 범용 하드웨어 대비 이 방식이 비용 효율적일 방법이 잘 보이지 않음  
    또한 모바일 하드웨어 안에 이런 것의 소형 버전이 들어가서, 매우 빠르고 효율적인 온디바이스 LLM을 제공하게 될 것 같음

- 꽤 큰 움직임  
  Google과 TPU는 7세대쯤 온 것으로 보이고, LPU나 Cerebras의 Wafer Scale Engine 같은 파생 시도까지 생각하면 훨씬 더 선견지명이 있었던 것처럼 보임  
  다만 첫인상으로는 이 칩이 학습이 아니라 **추론** 쪽을 겨냥한 것 같고, 그것도 흥미로운 선택임
  - 학습은 거의 1회성 비용이고, 아키텍처 개선으로 이미 효율이 내려가는 중임  
    반면 추론은 계속 발생하는 비용이고 시간이 지나면 훨씬 더 많은 자원을 소모하므로, 이를 훨씬 효율적으로 만드는 데 집중하는 편이 장기적으로 이득이 큼
  - 이제는 **추론 비용**이 학습 비용보다 더 높다고 봄  
    Nvidia는 범용 학습 칩의 왕이지만, 추론은 특화할 수 있음
  - Cerebras의 Codex Spark 5.3은 큰 실패였음  
    문맥 창이 작고 모델도 오래됨  
    그래도 개선돼서 GPT 5.5를 초당 1000토큰으로 누릴 수 있으면 좋겠음
  - “초기 테스트에서 Jalapeño가 현재 최첨단 대비 와트당 성능을 상당히 높일 것”이라고 하는데, 여기서 정말 중요한 것이 무엇인지 보이기 시작함  
    표현은 모호하지만 TPU도 비슷한 주장을 함  
    Google의 “우리에게 해자는 없다” 메모는 여전히 맞다고 봄. 모른다면 [https://newsletter.semianalysis.com/p/google-we-have-no-moat...](<https://newsletter.semianalysis.com/p/google-we-have-no-moat-and-neither>) 참고  
    지금 흐름은 60~90년대 IBM, DEC, Cray, Sun이 벌였던 **하드웨어 경쟁**과 더 비슷해지는 듯함  
    역사는 반복되진 않지만 운율을 맞추곤 하고, 이런 노력들도 같은 궤적을 따를 것 같음

- AI 발전 속도와 AI가 더 빠르고 좋은 AI를 만드는 데 도움을 주는 상황을 보면, 이런 하드웨어가 의미 있는 투자 회수 전에 구식이 될지 계속 궁금함  
  이미 양자화와 오프로딩으로 거대한 AI 모델을 더 적은 자원에서 돌릴 수 있지만, 그건 시작일 뿐임  
  언젠가, 어쩌면 멀지 않은 시점에 200B급 거대 LLM을 5년 된 Dell 데스크톱에서 잘 돌릴 수 있게 하는 돌파구가 나올 수도 있음  
  미친 소리처럼 들리겠지만 초기 하드디스크 크기를 보라  
  IBM 350은 지름 24인치 플래터 50장을 가진 디스크로 3.5Mb를 저장했고, 오늘날 가치로 3만5000달러에 임대됐음  
  [https://www.computerhistory.org/storageengine/first-commerci...](<https://www.computerhistory.org/storageengine/first-commercial-hard-disk-drive-shipped/>)  
  이를 멀티테라바이트 SSD와 비교하고, 같은 개선을 현재 LLM 아키텍처와 실행 방식에 적용해 보라  
  AI의 도움까지 있으면 머지않아 도약이 일어나고, 현재 최첨단 Nvidia 카드로 가득 찬 데이터센터가 거의 하룻밤 사이에 낡아질 수 있음
  - 그런 돌파구가 있다면, 같은 방법으로 오늘날 데이터센터에서 **200T 모델**을 돌릴 수도 있지 않나 싶음
  - 흥미로운 생각이지만 하드디스크와의 비교는 아마 공정하지 않음  
    IBM 350은 70년 전에 상용화됐고, 오늘날 누군가가 멀티 TB SSD와 비교할 수 있게 되기까지 70년이 걸렸음  
    게다가 **무어의 법칙**이 앞으로 수십 년간 LLM에도 반드시 적용된다는 보장은 없음
  - 제본스 역설과 스케일링 법칙 때문에 그렇게 되지 않을 것 같음  
    더 큰 모델이 항상 더 좋다면, 실제로 그런 것처럼 보이므로 언제나 **고성능 하드웨어**가 필요함
  - 컴퓨팅의 돌파구는 보통 컴퓨팅 사용량을 줄이기보다 더 늘림
  - 언젠가 GPU 외에 LLM에 맞춘 **전용 하드웨어**가 나올 것 같음  
    TPU가 있긴 하지만 주로 데이터센터용이고, GPU는 원래 그래픽 애플리케이션에서 온 것을 적응시킨 것임  
    데이터센터 수요가 마르면 혁신이 본격화될 수 있음

- 여기서 많이 논의되지 않은 부분이 있음  
  Broadcom CEO Hock Tan은 인터뷰에서 이 가속기가 현재까지 일반적인 AI 그래픽 처리 장치 대비 약 **50% 비용 절감**을 보인다고 했음 [0]  
  그림이 너무 빨리 바뀌고 아직 낮게 매달린 과실이 많아서, 어떤 공급자가 해자를 갖는지나 투자를 회수할 수 있는지를 따지는 논의는 별 의미가 없어 보임  
  [0] - [https://www.bloomberg.com/news/articles/2026-06-24/openai-an...](<https://www.bloomberg.com/news/articles/2026-06-24/openai-and-broadcom-unveil-ai-chip-to-run-models-faster-cheaper>)
  - GPU 마진이 75%라면 50% 저렴한 건 놀랄 일이 아님
  - “일반적인”이라는 말이 큰 역할을 함  
    Nvidia가 현재 파는 칩보다 훨씬 오래된 칩을 뜻할 수도 있음

- “2026년 말 초기 배포를 목표로 하고 이후 몇 년에 걸쳐 확대”라면, IPO 이후에 **미래 약속**으로 IPO 영업 자료에 크게 실릴 것 같음  
  IPO 전 발표는 무엇이든 회의적으로 봄
  - 내러티브가 IPO 전 장난처럼 느껴지고, 생긴 건 세탁 바구니 뚜껑 같음  
    사기여도 놀라지 않을 듯함
  - 누구의 IPO인지 모르겠음  
    Broadcom과 Google은 당연히 이미 상장돼 있음

- Microsoft, Google, Amazon도 이런 일을 하지만, 이들은 칩을 호스팅할 **하이퍼스케일 데이터센터 인프라**도 갖고 있음  
  칩을 설계하고 테이프아웃하는 것과 패키징, 냉각, 배포, 전력 공급, 플릿 관리는 완전히 다른 스택임  
  그 부분을 어디서 가져올지 궁금함
  - Stargate를 잊으면 안 됨  
    업데이트: Twitter에서 누군가 Microsoft와 Oracle에 50:50으로 호스팅될 것이라고 했음

- 예전에 Opus 4.5로 Verilog 기반 **LLM 추론 엔진**을 설계하게 했고, 펌웨어와 자동 검증까지 포함했음: [https://github.com/cpldcpu/smollm.c](<https://github.com/cpldcpu/smollm.c>)  
  물론 최적과는 거리가 멀지만, 추상화 수준을 낮춰 구현으로 내려가는 방식이 매우 강력하다는 걸 확인함
  - Verilog와 FPGA 전반을 배울 만한 튜토리얼을 추천해줄 수 있는지 궁금함  
    Tang Nano 9k가 하나 남아 있지만, Claude에게 무작정 바이브코딩으로 해결책을 만들게 할 자신은 없고 최소한의 기본 이해는 갖추고 싶음