OpenAI, Broadcom과 만든 첫 자체 추론 칩 Jalapeño 공개

(techcrunch.com)

3P by GN⁺ 2시간전 | ★ favorite | 댓글 1개

Jalapeño(할라페뇨) 는 LLM 추론(inference)에 특화된 가속기이자 Broadcom과 함께 만드는 다세대 컴퓨팅 플랫폼의 첫 결과물
설계 착수부터 제조 테이프아웃까지 단 9개월 소요, 고성능 첨단 반도체 분야 사상 가장 빠른 ASIC 개발 주기로 추정
초기 테스트에서 일반 AI GPU 대비 약 50% 비용 절감, 와트당 성능도 현 최첨단 대비 크게 우수
칩 아키텍처부터 커널, 메모리, 네트워킹까지 직접 설계하는 풀스택 전략의 일환으로, Nvidia GPU 의존도 축소와 소프트웨어 기업을 넘어 AI 인프라 사업자로의 확장을 겨냥
2026년 말부터 Microsoft 등 파트너와 기가와트 규모 데이터센터에 배치 예정, 1조 달러 규모 IPO를 앞둔 수익성 입증 압박 속 의미 부각

Jalapeño 칩 공개

수요일 OpenAI와 Broadcom(NASDAQ: AVGO)이 OpenAI 첫 인텔리전스 프로세서(Intelligence Processor) Jalapeño(할라페뇨) 공개
LLM 추론의 미래를 겨냥해 설계된 가속기로, 두 회사가 함께 만드는 다세대 컴퓨팅 플랫폼의 첫 AI 가속기
Broadcom 회장 겸 CEO Hock Tan과 사장 Charlie Kawwas가 OpenAI CEO Sam Altman과 사장 Greg Brockman에게 칩 샘플을 직접 전달
소비자 제품을 넘어 AI 인프라 사업자로 도약하려는 OpenAI 전략의 중요한 단계

칩 구조와 성능

Jalapeño는 기존 AI 워크로드용 가속기를 개조한 범용 칩이 아니라, 현대 LLM 추론을 위한 백지 상태(blank-slate) 설계
특정 AI 작업에 맞춰 설계 가능한 ASIC으로, Nvidia GPU보다 유연성은 낮지만 비용이 저렴
성능·효율
- 초기 테스트에서 일반 AI GPU 대비 약 50% 비용 절감 (Hock Tan 인터뷰)
- 최종 성능은 측정 중이나, 와트당 성능이 현 최첨단 대비 크게 향상된 수준
- 데이터 이동을 줄이고 연산·메모리·네트워킹 자원의 균형을 맞춰, 실제 활용률을 이론적 최대 성능에 근접하게 구현
- 공개된 칩 이미지에서 8개의 HBM 사이트와 중앙의 컴퓨트 다이 확인
작동 검증
- 엔지니어링 샘플이 양산 목표 주파수·전력에서 ML 워크로드 구동 중이며, 여기에는 GPT‑5.3‑Codex‑Spark 포함
- 상세 기술 보고서는 향후 몇 달 내 공개 예정
- Broadcom의 실리콘 구현과 Tomahawk 네트워킹 실리콘이 대규모 양산 지원

9개월 테이프아웃, OpenAI 모델이 가속

초기 설계부터 제조 테이프아웃까지 단 9개월 만에 공동 개발, 고성능 첨단 반도체에서 사상 가장 빠른 ASIC 개발 주기로 추정
설계·최적화 과정 일부에 OpenAI 자체 모델을 활용, Brockman은 모델이 개발을 가속한 정도가 "놀라울 정도"였다고 언급
사용자에게 제공되는 동일한 모델이 향후 모델 구동용 인프라 개선에 기여
AI가 엔지니어의 더 빠른 칩 설계를 도우면, 업계 전반의 컴퓨팅 비용 절감과 첨단 AI 접근성 확대로 이어질 가능성

다세대 플랫폼과 파트너

Jalapeño는 2026년 말 초기 배치를 목표로, 이후 수년간 확장될 다세대 컴퓨팅 플랫폼의 첫 단계
협력 구조
- OpenAI — 가속기 설계, LLM 기초에 대한 깊은 이해 기반
- Broadcom — 칩 구현, 네트워킹·연결 기술
- Celestica — 보드, 랙, 시스템 통합 전문성
작년 OpenAI와 Broadcom은 10기가와트 규모 컴퓨팅용 맞춤 칩 개발 계획을 발표, 이번에 그 첫 칩 공개
폭발적 수요
- Broadcom CEO Hock Tan은 2026년부터 Microsoft 등 파트너와 기가와트 규모 데이터센터 배치를 가능케 한다고 언급, 2026년 말 소규모 프로토타입 후 확장 계획
- Brockman은 "컴퓨팅을 충분히 빨리 확보할 수 없다", Tan은 6개 고객사의 수요가 "그야말로 채울 수 없는 수준"이며 2027~2028년에도 동일하거나 더 높을 것이라고 언급
- OpenAI 하드웨어 프로그램 책임자 Richard Ho는 프런티어 AI 모델에 가장 중요한 커널, 메모리 이동, 네트워킹, 서빙 패턴을 중심으로 아키텍처를 최적화했다고 설명

풀스택 전략과 경쟁 구도

OpenAI는 프런티어 모델 개발과 제품 구축을 넘어, 그 아래 인프라까지 직접 설계 — 칩 아키텍처, 커널, 메모리 시스템, 네트워킹, 스케줄링, 배포 시스템, 제품 경험 포함
이로써 Google(TPU), Amazon(Trainium), Microsoft(Azure Maia 100)처럼 자체 실리콘을 갖춘 풀스택 AI 사업자 대열에 합류
Nvidia 의존도 축소
- "누구도 Nvidia에 종속되길 원치 않는다"(Quilter Cheviot 기술 리서치 총괄 Ben Barringer), 칩 공급선 다변화 흐름
- OpenAI는 Nvidia 최대 고객 중 하나이면서도 AMD(Instinct MI450 시리즈), Cerebras 등과도 공급 계약 체결
사업적 의미
- Nvidia가 AI 데이터센터의 핵심 부품 공급으로 세계 최고 가치 기업에 오른 가운데, AI 인프라 시장의 수익 잠재력 부각
- 1조 달러 가치가 거론되는 IPO를 앞둔 OpenAI로서, 추론 비용 절감은 막대한 학습 비용 회수와 수익성 입증의 열쇠
- Broadcom 주가는 2026년 들어 상승, 2022년 말 대비 약 7배 수준으로 협력의 수혜 반영

첨단 AI의 대중화

추론은 AI가 사람과 만나는 지점으로, 비용·속도·안정성 개선이 곧 더 빠른 ChatGPT 응답, 대기 없는 Codex 작업, 더 저렴한 API 제품, 수요 급증 시 더 안정적인 접근으로 이어짐
첨단 모델을 더 많은 사람이 매일 쓸 수 있을 만큼 이용 가능·안정적·저렴하게 만드는 것이 AI 대중화의 핵심
학생, 개발자, 소상공인, 연구자, 기업 등 배우고 만들고 어려운 문제를 풀려는 모두를 위해 인프라를 유용한 지능으로 전환하는 데 기여

GN⁺ 2시간전 [-]

Hacker News 의견들

“OpenAI 모델로 설계와 최적화를 가속했다”는 부분을 더 자세히 보고 싶음
지금 표현만 보면 Microsoft Office나 5K LG Ultrafine 40인치 모니터 덕분에 개발이 빨라졌다고 말하는 것 같은 마케팅 문구로 보임
정말 암시하는 만큼 큰 일이라면, OpenAI가 훨씬 더 크게 강조했을 것 같음
- 칩 CEO 입장에서는 “설계”와 “생산”이 무엇을 뜻하느냐에 따라 완전히 달라짐
  “설계”가 설계 완료를 뜻하는지, “생산”이 생산 시작, 즉 테이프아웃을 뜻하는지 불명확함
  RTL 동결부터 테이프아웃까지 9개월이라면 대형 복잡한 3nm 칩 기준으로 꽤 평범하고, 예상치 못한 이슈까지 감안하면 살짝 인상적이지도 않은 일정임
  반대로 개념 단계, 즉 RTL 없이 아키텍처 블록도만 있던 상태에서 테이프아웃까지라면 놀라운 일정이고, 실제는 그 중간쯤일 가능성이 큼
  더 구체적인 발표라면 실제 기술 마일스톤과 게이트를 써야 함
- 칩 개발에 쓰는 하드웨어 기술 언어(HDL) 는 프로그래밍 언어와 비슷하고, 기존 모델도 이를 이해해서 꽤 많은 일을 할 수 있음
  칩 설계 작업 흐름에 대형 언어 모델을 쓰기 위해 별도의 특화 모델이 꼭 필요한 건 아님
  설계 검증도 전통적인 프로그래밍이 많이 들어가므로 대형 언어 모델의 도움을 받을 수 있음
  전혀 의미 없는 말은 아니고, 오늘 오픈소스 칩 설계 소프트웨어를 내려받으면 대형 언어 모델이 작은 칩을 직접 시작하는 데도 도와줄 수 있음
- Broadcom은 이미 AI SoC용 IP를 많이 갖고 있음
  이 추론 칩의 어려운 부분은 Broadcom이 이미 설계해 두었고, OpenAI는 원하는 사양을 Broadcom에 전달했을 가능성이 큼
  Google TPU와도 꽤 비슷할 것 같음
  “1세대 가속기가 현재 최첨단 대비 와트당 성능을 상당히 높일 것”이라는데, 여기서 “상당히”가 무엇인지 궁금함
  Vera Rubin은 올해 말 대량 출하 예정이고, Blackwell보다 추론 전력 효율이 10배 높을 것으로 예상됨[0]
  이미 테이프아웃을 했더라도 버그 수정, 칩 제조, HBM 할당, 랙 설계, 상호 연결, 데이터센터 배치까지 하려면 최소 12개월, 아마 그 이상 걸릴 가능성이 큼
  이 칩이 데이터센터에 대량으로 들어갈 때쯤이면 Vera Rubin Ultra나 Feynman과 경쟁하게 될 수도 있음
  개인적으로 OpenAI가 이 프로젝트에 투자하지 말았어야 한다고 봄
  아직 너무 이르고, Anthropic처럼 모델에 집중해서 이긴 뒤 수익성이 생기면 이런 프로젝트를 해야 했음
  AI에는 에너지라는 단단한 상한이 있기 때문에 OpenAI에 위험이 큼
  1GW가 있다면 가장 좋은 칩만 설치해야 하고, Nvidia 칩이 더 좋다면 이 프로젝트는 수십억 달러를 낭비한 셈이 됨
  [0]https://developer.nvidia.com/blog/scaling-token-factory-reve...
- 가능한 의미는 크게 두 가지이고, 그 사이의 농담도 있음
  1. OpenAI가 칩 설계를 개선할 수 있는 AI 기술을 실제로 갖고 있음 — 대담하고 가능성 낮은 주장이라 증거가 필요함
  2. OpenAI가 시뮬레이션 하드웨어에서 성능을 테스트할 테스트·검증 모델과 커널을 설계함
    문제는 후자만 의미할 수도 있는 문장을 전자처럼 들리게 썼다는 점이고, 그래서 신뢰하기 어려움
- Verilog는 이미 많이 공개되어 있어서, AI 도움으로 더 많은 Verilog를 작성해 칩을 설계했을 가능성은 충분함
  꼭 혁명적일 필요는 없고, AI 보조 설계가 맞아떨어져 맞춤형 ASIC을 만들 가치가 있었을 수 있음
OpenAI 글에서는 빠졌지만 칩은 TSMC가 만든다는 점이 거의 확실해 보임 [1]
Intel이 맡았는지는 확신이 없었음
1. https://www.investing.com/news/stock-market-news/openai-unve...
- Twitter에서 본 주장으로는 Google, Amazon, OpenAI 같은 회사들이 Broadcom을 쓰는 이유가 단순한 설계 역량뿐 아니라, Broadcom이 TSMC와 메모리 제조사 할당 계약을 갖고 있기 때문이라고 함
- 최근에야 퍼즐이 맞춰졌음
  Broadcom은 Google의 TPU 하드웨어 파트너가 되고 TSMC 생산능력을 Google과 공유하면서 큰돈을 벌었고, 이제 OpenAI에도 같은 일을 하는 것으로 보임
  AI 골드러시를 활용하는 정말 영리한 방식임
  다만 그렇게 번 돈으로 VMWare와 Bitnami에서처럼 소프트웨어 업계에서 돈을 뜯어내는 데 쓰지 않았으면 좋겠음
가중치가 칩의 ROM 일부로 들어간 추론 칩을 보고 싶음
가중치마다 곱셈기 하나가 있고, 상수라서 전체가 단순한 덧셈기 묶음으로 바뀌며, 완전 파이프라인 처리량은 클록당 토큰 하나가 될 수 있음
그러면 실리콘 한 조각으로 수백만 사용자를 동시에 처리하고, 출력 버스에서 초당 5억 토큰이 나올 수도 있음
단점은 칩이 엄청나게 커져서 웨이퍼 한 장 전체가 될 것이라는 점임
웨이퍼 수준 결함은 큰 문제가 아닐 수 있음. 신경망은 일부 가중치가 빠지거나 틀려도 버티는 편임
업계 속도가 빠르기 때문에 모델 가중치에서 생산까지 매우 빠르게 달려가고, 웨이퍼 50장을 만들어 1년 쓰다가 모델이 낡으면 버리는 식이 될 것 같음
- 정확히는 가중치를 ROM에 넣는 것이라기보다 메모리 내 연산(CIM) 을 가리키는 것에 가까움
  데이터, 여기서는 곱셈 값이 프로세서, 여기서는 곱셈 회로의 일부가 되는 기법임
  “가져와서 처리”하는 문제를 아키텍처적으로 완전히 우회함
  데이터가 연산이 일어나는 곳에 있으므로 이동하지 않고, 지연도 없음
- 예전에 https://taalas.com/가 나왔고, 비슷한 생각을 하는 곳은 더 있을 것 같음
  이런 방식은 frontier 모델보다는 작은 모델에 더 적합해 보임. 최전선 모델은 너무 빨리 바뀜
- Cerebras를 봤는지 궁금함
  설명한 것만큼 멀리 간 건 아니고, 코어와 RAM이 아주 많지만 가중치는 여전히 소프트웨어로 올려야 하며 큰 모델에서는 칩 안으로 스트리밍해야 함
  그래도 웨이퍼 전체 칩이긴 함
- 가중치를 ROM에 넣는 생각은 한동안 해왔음
  많은 작업에서는 ROM에 가중치를 넣어도 괜찮을 수 있음
  다만 가중치마다 곱셈기 하나를 두는 건 좋은 아이디어인지 확신이 없음
  2비트 정도로 양자화했다면 가능할 수도 있지만, 아니면 각 곱셈기나 행 근처에 작은 ROM을 두어 멀리서 데이터를 옮기지 않고 N개의 서로 다른 행렬 연산을 처리하게 하는 편이 나을 수 있음
  또 다른 재미있는 구상은 DRAM에 MAC 유닛 행을 붙여서 DRAM 행을 벡터로 쓰는 것임
  행 크기가 64Kbit라면 8비트 가중치 기준 8K개이고, 가중치와 계산을 같은 칩에 유지할 수 있음
  다만 한 칩에 충분한 곱셈기를 넣을 수 있을지는 모르겠음
  시스톨릭 배열은 수만~수십만 개가 각각 클록당 한 연산을 수행할 수 있음
- 멤리스터가 이 용도에 이상적이고 재프로그래밍도 가능하다고들 하지만, 멤리스터는 컴퓨팅 세계의 탄소 나노튜브 같은 존재로 보임
칩 수준에서 아직 풀 수 있는 효율 개선이 엄청나게 많아 보여서 흥미로움
Taalas는 어떻게 보는지 궁금함
LLM 모델을 실제로 실리콘에 구워 넣고, 미세조정용 온보드 메모리를 일부 둔다고 함
비용과 지연시간에서 큰 이득을 주장함
아주 빠른 데모는 https://chatjimmy.ai/에서 볼 수 있음
https://taalas.com/
https://www.reddit.com/r/singularity/comments/1r9frzk/taalas...
- 범용 GPU만 독점적으로 쓴다면 당연히 효율을 많이 놓치게 됨
  그래서 Google이 10년도 더 전에 TPU를 만들기 시작했음
  Timnit Gebru가 LLM의 환경 영향을 계산할 때 GPU를 기준으로 삼고 TPU 효율을 무시한 논문 때문에 Google이 Gebru를 해고했던 논란이 기억남
  그 큰 효율 격차 때문에 Jeff Dean이 매우 화났던 것으로 보임
- 이런 종류를 더 많이 보면 멋지겠지만, 새 모델이 나올 때마다 완전히 새 모델로 업데이트하는 능력은 제한적일 것 같음
  그렇다면 판매하기가 극도로 어려워짐
- 기술적으로는 흥미롭지만 세부사항이 너무 부족해 보임
  칩에 영원히 바뀌지 않는 단일 모델을 넣는 생각은 마음에 들지 않음
  가중치에 재기록 가능한 ROM을 쓰면 실리콘이 얼마나 더 비싸질지 궁금함
  그렇게 하면 설계 대상 모델의 미세조정이 가능해지고, 모델이 낡는다는 우려를 줄일 수 있음
- 챗봇에서 17k 토큰/초는 멋지지만 거의 쓸모없는 시연임
  코딩 에이전트에서는 의미 있는 개선이고, 로보틱스에서는 완전한 혁명이 될 수 있음
  8B 모델은 일반 용도로는 유용하지 않지만, 특정 용도에서는 엄청난 지능을 제공할 수 있음
  Nvidia의 Tesla/Waymo 경쟁자는 7B LLM과 2B 확산 모델인데, 이를 그런 속도로 돌릴 수 있다면 기존 해법보다 비용이 한 자릿수 규모로 낮아질 수 있음
- 모델 발전이 크게 둔화되는 시점에 이르러서는 이런 하드웨어가 LLM 제공자의 미래가 될 것 같음
  지금도 그 시점에 가깝다고 주장할 수는 있음
  AWS 같은 하이퍼스케일러는 몇 년간 유효할 모델을 서비스하는 데 이런 칩을 잘 활용할 것임
  하지만 지금은 특히 Deepseek/Kimi/GLM 같은 오픈 가중치 모델에서 몇 달마다 모델 품질이 크게 뛰고 있음
  그 전까지는 범용 하드웨어 대비 이 방식이 비용 효율적일 방법이 잘 보이지 않음
  또한 모바일 하드웨어 안에 이런 것의 소형 버전이 들어가서, 매우 빠르고 효율적인 온디바이스 LLM을 제공하게 될 것 같음
꽤 큰 움직임
Google과 TPU는 7세대쯤 온 것으로 보이고, LPU나 Cerebras의 Wafer Scale Engine 같은 파생 시도까지 생각하면 훨씬 더 선견지명이 있었던 것처럼 보임
다만 첫인상으로는 이 칩이 학습이 아니라 추론 쪽을 겨냥한 것 같고, 그것도 흥미로운 선택임
- 학습은 거의 1회성 비용이고, 아키텍처 개선으로 이미 효율이 내려가는 중임
  반면 추론은 계속 발생하는 비용이고 시간이 지나면 훨씬 더 많은 자원을 소모하므로, 이를 훨씬 효율적으로 만드는 데 집중하는 편이 장기적으로 이득이 큼
- 이제는 추론 비용이 학습 비용보다 더 높다고 봄
  Nvidia는 범용 학습 칩의 왕이지만, 추론은 특화할 수 있음
- Cerebras의 Codex Spark 5.3은 큰 실패였음
  문맥 창이 작고 모델도 오래됨
  그래도 개선돼서 GPT 5.5를 초당 1000토큰으로 누릴 수 있으면 좋겠음
- “초기 테스트에서 Jalapeño가 현재 최첨단 대비 와트당 성능을 상당히 높일 것”이라고 하는데, 여기서 정말 중요한 것이 무엇인지 보이기 시작함
  표현은 모호하지만 TPU도 비슷한 주장을 함
  Google의 “우리에게 해자는 없다” 메모는 여전히 맞다고 봄. 모른다면 https://newsletter.semianalysis.com/p/google-we-have-no-moat... 참고
  지금 흐름은 60~90년대 IBM, DEC, Cray, Sun이 벌였던 하드웨어 경쟁과 더 비슷해지는 듯함
  역사는 반복되진 않지만 운율을 맞추곤 하고, 이런 노력들도 같은 궤적을 따를 것 같음
AI 발전 속도와 AI가 더 빠르고 좋은 AI를 만드는 데 도움을 주는 상황을 보면, 이런 하드웨어가 의미 있는 투자 회수 전에 구식이 될지 계속 궁금함
이미 양자화와 오프로딩으로 거대한 AI 모델을 더 적은 자원에서 돌릴 수 있지만, 그건 시작일 뿐임
언젠가, 어쩌면 멀지 않은 시점에 200B급 거대 LLM을 5년 된 Dell 데스크톱에서 잘 돌릴 수 있게 하는 돌파구가 나올 수도 있음
미친 소리처럼 들리겠지만 초기 하드디스크 크기를 보라
IBM 350은 지름 24인치 플래터 50장을 가진 디스크로 3.5Mb를 저장했고, 오늘날 가치로 3만5000달러에 임대됐음
https://www.computerhistory.org/storageengine/first-commerci...
이를 멀티테라바이트 SSD와 비교하고, 같은 개선을 현재 LLM 아키텍처와 실행 방식에 적용해 보라
AI의 도움까지 있으면 머지않아 도약이 일어나고, 현재 최첨단 Nvidia 카드로 가득 찬 데이터센터가 거의 하룻밤 사이에 낡아질 수 있음
- 그런 돌파구가 있다면, 같은 방법으로 오늘날 데이터센터에서 200T 모델을 돌릴 수도 있지 않나 싶음
- 흥미로운 생각이지만 하드디스크와의 비교는 아마 공정하지 않음
  IBM 350은 70년 전에 상용화됐고, 오늘날 누군가가 멀티 TB SSD와 비교할 수 있게 되기까지 70년이 걸렸음
  게다가 무어의 법칙이 앞으로 수십 년간 LLM에도 반드시 적용된다는 보장은 없음
- 제본스 역설과 스케일링 법칙 때문에 그렇게 되지 않을 것 같음
  더 큰 모델이 항상 더 좋다면, 실제로 그런 것처럼 보이므로 언제나 고성능 하드웨어가 필요함
- 컴퓨팅의 돌파구는 보통 컴퓨팅 사용량을 줄이기보다 더 늘림
- 언젠가 GPU 외에 LLM에 맞춘 전용 하드웨어가 나올 것 같음
  TPU가 있긴 하지만 주로 데이터센터용이고, GPU는 원래 그래픽 애플리케이션에서 온 것을 적응시킨 것임
  데이터센터 수요가 마르면 혁신이 본격화될 수 있음
여기서 많이 논의되지 않은 부분이 있음
Broadcom CEO Hock Tan은 인터뷰에서 이 가속기가 현재까지 일반적인 AI 그래픽 처리 장치 대비 약 50% 비용 절감을 보인다고 했음 [0]
그림이 너무 빨리 바뀌고 아직 낮게 매달린 과실이 많아서, 어떤 공급자가 해자를 갖는지나 투자를 회수할 수 있는지를 따지는 논의는 별 의미가 없어 보임
[0] - https://www.bloomberg.com/news/articles/2026-06-24/openai-an...
- GPU 마진이 75%라면 50% 저렴한 건 놀랄 일이 아님
- “일반적인”이라는 말이 큰 역할을 함
  Nvidia가 현재 파는 칩보다 훨씬 오래된 칩을 뜻할 수도 있음
“2026년 말 초기 배포를 목표로 하고 이후 몇 년에 걸쳐 확대”라면, IPO 이후에 미래 약속으로 IPO 영업 자료에 크게 실릴 것 같음
IPO 전 발표는 무엇이든 회의적으로 봄
- 내러티브가 IPO 전 장난처럼 느껴지고, 생긴 건 세탁 바구니 뚜껑 같음
  사기여도 놀라지 않을 듯함
- 누구의 IPO인지 모르겠음
  Broadcom과 Google은 당연히 이미 상장돼 있음
Microsoft, Google, Amazon도 이런 일을 하지만, 이들은 칩을 호스팅할 하이퍼스케일 데이터센터 인프라도 갖고 있음
칩을 설계하고 테이프아웃하는 것과 패키징, 냉각, 배포, 전력 공급, 플릿 관리는 완전히 다른 스택임
그 부분을 어디서 가져올지 궁금함
- Stargate를 잊으면 안 됨
  업데이트: Twitter에서 누군가 Microsoft와 Oracle에 50:50으로 호스팅될 것이라고 했음
예전에 Opus 4.5로 Verilog 기반 LLM 추론 엔진을 설계하게 했고, 펌웨어와 자동 검증까지 포함했음: https://github.com/cpldcpu/smollm.c
물론 최적과는 거리가 멀지만, 추상화 수준을 낮춰 구현으로 내려가는 방식이 매우 강력하다는 걸 확인함
- Verilog와 FPGA 전반을 배울 만한 튜토리얼을 추천해줄 수 있는지 궁금함
  Tang Nano 9k가 하나 남아 있지만, Claude에게 무작정 바이브코딩으로 해결책을 만들게 할 자신은 없고 최소한의 기본 이해는 갖추고 싶음

답변달기

OpenAI, Broadcom과 만든 첫 자체 추론 칩 Jalapeño 공개

Jalapeño 칩 공개

칩 구조와 성능

성능·효율

작동 검증

9개월 테이프아웃, OpenAI 모델이 가속

다세대 플랫폼과 파트너

협력 구조

폭발적 수요

풀스택 전략과 경쟁 구도

Nvidia 의존도 축소

사업적 의미

첨단 AI의 대중화

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들