OpenAI, Broadcom과 만든 첫 자체 추론 칩 Jalapeño 공개
(techcrunch.com)- Jalapeño(할라페뇨) 는 LLM 추론(inference)에 특화된 가속기이자 Broadcom과 함께 만드는 다세대 컴퓨팅 플랫폼의 첫 결과물
- 설계 착수부터 제조 테이프아웃까지 단 9개월 소요, 고성능 첨단 반도체 분야 사상 가장 빠른 ASIC 개발 주기로 추정
- 초기 테스트에서 일반 AI GPU 대비 약 50% 비용 절감, 와트당 성능도 현 최첨단 대비 크게 우수
- 칩 아키텍처부터 커널, 메모리, 네트워킹까지 직접 설계하는 풀스택 전략의 일환으로, Nvidia GPU 의존도 축소와 소프트웨어 기업을 넘어 AI 인프라 사업자로의 확장을 겨냥
- 2026년 말부터 Microsoft 등 파트너와 기가와트 규모 데이터센터에 배치 예정, 1조 달러 규모 IPO를 앞둔 수익성 입증 압박 속 의미 부각
Jalapeño 칩 공개
- 수요일 OpenAI와 Broadcom(NASDAQ: AVGO)이 OpenAI 첫 인텔리전스 프로세서(Intelligence Processor) Jalapeño(할라페뇨) 공개
- LLM 추론의 미래를 겨냥해 설계된 가속기로, 두 회사가 함께 만드는 다세대 컴퓨팅 플랫폼의 첫 AI 가속기
- Broadcom 회장 겸 CEO Hock Tan과 사장 Charlie Kawwas가 OpenAI CEO Sam Altman과 사장 Greg Brockman에게 칩 샘플을 직접 전달
- 소비자 제품을 넘어 AI 인프라 사업자로 도약하려는 OpenAI 전략의 중요한 단계
칩 구조와 성능
- Jalapeño는 기존 AI 워크로드용 가속기를 개조한 범용 칩이 아니라, 현대 LLM 추론을 위한 백지 상태(blank-slate) 설계
- 특정 AI 작업에 맞춰 설계 가능한 ASIC으로, Nvidia GPU보다 유연성은 낮지만 비용이 저렴
-
성능·효율
- 초기 테스트에서 일반 AI GPU 대비 약 50% 비용 절감 (Hock Tan 인터뷰)
- 최종 성능은 측정 중이나, 와트당 성능이 현 최첨단 대비 크게 향상된 수준
- 데이터 이동을 줄이고 연산·메모리·네트워킹 자원의 균형을 맞춰, 실제 활용률을 이론적 최대 성능에 근접하게 구현
- 공개된 칩 이미지에서 8개의 HBM 사이트와 중앙의 컴퓨트 다이 확인
-
작동 검증
- 엔지니어링 샘플이 양산 목표 주파수·전력에서 ML 워크로드 구동 중이며, 여기에는 GPT‑5.3‑Codex‑Spark 포함
- 상세 기술 보고서는 향후 몇 달 내 공개 예정
- Broadcom의 실리콘 구현과 Tomahawk 네트워킹 실리콘이 대규모 양산 지원
9개월 테이프아웃, OpenAI 모델이 가속
- 초기 설계부터 제조 테이프아웃까지 단 9개월 만에 공동 개발, 고성능 첨단 반도체에서 사상 가장 빠른 ASIC 개발 주기로 추정
- 설계·최적화 과정 일부에 OpenAI 자체 모델을 활용, Brockman은 모델이 개발을 가속한 정도가 "놀라울 정도"였다고 언급
- 사용자에게 제공되는 동일한 모델이 향후 모델 구동용 인프라 개선에 기여
- AI가 엔지니어의 더 빠른 칩 설계를 도우면, 업계 전반의 컴퓨팅 비용 절감과 첨단 AI 접근성 확대로 이어질 가능성
다세대 플랫폼과 파트너
- Jalapeño는 2026년 말 초기 배치를 목표로, 이후 수년간 확장될 다세대 컴퓨팅 플랫폼의 첫 단계
-
협력 구조
- OpenAI — 가속기 설계, LLM 기초에 대한 깊은 이해 기반
- Broadcom — 칩 구현, 네트워킹·연결 기술
- Celestica — 보드, 랙, 시스템 통합 전문성
- 작년 OpenAI와 Broadcom은 10기가와트 규모 컴퓨팅용 맞춤 칩 개발 계획을 발표, 이번에 그 첫 칩 공개
-
폭발적 수요
- Broadcom CEO Hock Tan은 2026년부터 Microsoft 등 파트너와 기가와트 규모 데이터센터 배치를 가능케 한다고 언급, 2026년 말 소규모 프로토타입 후 확장 계획
- Brockman은 "컴퓨팅을 충분히 빨리 확보할 수 없다", Tan은 6개 고객사의 수요가 "그야말로 채울 수 없는 수준"이며 2027~2028년에도 동일하거나 더 높을 것이라고 언급
- OpenAI 하드웨어 프로그램 책임자 Richard Ho는 프런티어 AI 모델에 가장 중요한 커널, 메모리 이동, 네트워킹, 서빙 패턴을 중심으로 아키텍처를 최적화했다고 설명
풀스택 전략과 경쟁 구도
- OpenAI는 프런티어 모델 개발과 제품 구축을 넘어, 그 아래 인프라까지 직접 설계 — 칩 아키텍처, 커널, 메모리 시스템, 네트워킹, 스케줄링, 배포 시스템, 제품 경험 포함
- 이로써 Google(TPU), Amazon(Trainium), Microsoft(Azure Maia 100)처럼 자체 실리콘을 갖춘 풀스택 AI 사업자 대열에 합류
-
Nvidia 의존도 축소
- "누구도 Nvidia에 종속되길 원치 않는다"(Quilter Cheviot 기술 리서치 총괄 Ben Barringer), 칩 공급선 다변화 흐름
- OpenAI는 Nvidia 최대 고객 중 하나이면서도 AMD(Instinct MI450 시리즈), Cerebras 등과도 공급 계약 체결
-
사업적 의미
- Nvidia가 AI 데이터센터의 핵심 부품 공급으로 세계 최고 가치 기업에 오른 가운데, AI 인프라 시장의 수익 잠재력 부각
- 1조 달러 가치가 거론되는 IPO를 앞둔 OpenAI로서, 추론 비용 절감은 막대한 학습 비용 회수와 수익성 입증의 열쇠
- Broadcom 주가는 2026년 들어 상승, 2022년 말 대비 약 7배 수준으로 협력의 수혜 반영
첨단 AI의 대중화
- 추론은 AI가 사람과 만나는 지점으로, 비용·속도·안정성 개선이 곧 더 빠른 ChatGPT 응답, 대기 없는 Codex 작업, 더 저렴한 API 제품, 수요 급증 시 더 안정적인 접근으로 이어짐
- 첨단 모델을 더 많은 사람이 매일 쓸 수 있을 만큼 이용 가능·안정적·저렴하게 만드는 것이 AI 대중화의 핵심
- 학생, 개발자, 소상공인, 연구자, 기업 등 배우고 만들고 어려운 문제를 풀려는 모두를 위해 인프라를 유용한 지능으로 전환하는 데 기여
댓글과 토론
Hacker News 의견들
-
“OpenAI 모델로 설계와 최적화를 가속했다”는 부분을 더 자세히 보고 싶음
지금 표현만 보면 Microsoft Office나 5K LG Ultrafine 40인치 모니터 덕분에 개발이 빨라졌다고 말하는 것 같은 마케팅 문구로 보임
정말 암시하는 만큼 큰 일이라면, OpenAI가 훨씬 더 크게 강조했을 것 같음- 칩 CEO 입장에서는 “설계”와 “생산”이 무엇을 뜻하느냐에 따라 완전히 달라짐
“설계”가 설계 완료를 뜻하는지, “생산”이 생산 시작, 즉 테이프아웃을 뜻하는지 불명확함
RTL 동결부터 테이프아웃까지 9개월이라면 대형 복잡한 3nm 칩 기준으로 꽤 평범하고, 예상치 못한 이슈까지 감안하면 살짝 인상적이지도 않은 일정임
반대로 개념 단계, 즉 RTL 없이 아키텍처 블록도만 있던 상태에서 테이프아웃까지라면 놀라운 일정이고, 실제는 그 중간쯤일 가능성이 큼
더 구체적인 발표라면 실제 기술 마일스톤과 게이트를 써야 함 - 칩 개발에 쓰는 하드웨어 기술 언어(HDL) 는 프로그래밍 언어와 비슷하고, 기존 모델도 이를 이해해서 꽤 많은 일을 할 수 있음
칩 설계 작업 흐름에 대형 언어 모델을 쓰기 위해 별도의 특화 모델이 꼭 필요한 건 아님
설계 검증도 전통적인 프로그래밍이 많이 들어가므로 대형 언어 모델의 도움을 받을 수 있음
전혀 의미 없는 말은 아니고, 오늘 오픈소스 칩 설계 소프트웨어를 내려받으면 대형 언어 모델이 작은 칩을 직접 시작하는 데도 도와줄 수 있음 - Broadcom은 이미 AI SoC용 IP를 많이 갖고 있음
이 추론 칩의 어려운 부분은 Broadcom이 이미 설계해 두었고, OpenAI는 원하는 사양을 Broadcom에 전달했을 가능성이 큼
Google TPU와도 꽤 비슷할 것 같음
“1세대 가속기가 현재 최첨단 대비 와트당 성능을 상당히 높일 것”이라는데, 여기서 “상당히”가 무엇인지 궁금함
Vera Rubin은 올해 말 대량 출하 예정이고, Blackwell보다 추론 전력 효율이 10배 높을 것으로 예상됨[0]
이미 테이프아웃을 했더라도 버그 수정, 칩 제조, HBM 할당, 랙 설계, 상호 연결, 데이터센터 배치까지 하려면 최소 12개월, 아마 그 이상 걸릴 가능성이 큼
이 칩이 데이터센터에 대량으로 들어갈 때쯤이면 Vera Rubin Ultra나 Feynman과 경쟁하게 될 수도 있음
개인적으로 OpenAI가 이 프로젝트에 투자하지 말았어야 한다고 봄
아직 너무 이르고, Anthropic처럼 모델에 집중해서 이긴 뒤 수익성이 생기면 이런 프로젝트를 해야 했음
AI에는 에너지라는 단단한 상한이 있기 때문에 OpenAI에 위험이 큼
1GW가 있다면 가장 좋은 칩만 설치해야 하고, Nvidia 칩이 더 좋다면 이 프로젝트는 수십억 달러를 낭비한 셈이 됨
[0]https://developer.nvidia.com/blog/scaling-token-factory-reve... - 가능한 의미는 크게 두 가지이고, 그 사이의 농담도 있음
- OpenAI가 칩 설계를 개선할 수 있는 AI 기술을 실제로 갖고 있음 — 대담하고 가능성 낮은 주장이라 증거가 필요함
- OpenAI가 시뮬레이션 하드웨어에서 성능을 테스트할 테스트·검증 모델과 커널을 설계함
문제는 후자만 의미할 수도 있는 문장을 전자처럼 들리게 썼다는 점이고, 그래서 신뢰하기 어려움
- Verilog는 이미 많이 공개되어 있어서, AI 도움으로 더 많은 Verilog를 작성해 칩을 설계했을 가능성은 충분함
꼭 혁명적일 필요는 없고, AI 보조 설계가 맞아떨어져 맞춤형 ASIC을 만들 가치가 있었을 수 있음
- 칩 CEO 입장에서는 “설계”와 “생산”이 무엇을 뜻하느냐에 따라 완전히 달라짐
-
OpenAI 글에서는 빠졌지만 칩은 TSMC가 만든다는 점이 거의 확실해 보임 [1]
Intel이 맡았는지는 확신이 없었음- Twitter에서 본 주장으로는 Google, Amazon, OpenAI 같은 회사들이 Broadcom을 쓰는 이유가 단순한 설계 역량뿐 아니라, Broadcom이 TSMC와 메모리 제조사 할당 계약을 갖고 있기 때문이라고 함
- 최근에야 퍼즐이 맞춰졌음
Broadcom은 Google의 TPU 하드웨어 파트너가 되고 TSMC 생산능력을 Google과 공유하면서 큰돈을 벌었고, 이제 OpenAI에도 같은 일을 하는 것으로 보임
AI 골드러시를 활용하는 정말 영리한 방식임
다만 그렇게 번 돈으로 VMWare와 Bitnami에서처럼 소프트웨어 업계에서 돈을 뜯어내는 데 쓰지 않았으면 좋겠음
-
가중치가 칩의 ROM 일부로 들어간 추론 칩을 보고 싶음
가중치마다 곱셈기 하나가 있고, 상수라서 전체가 단순한 덧셈기 묶음으로 바뀌며, 완전 파이프라인 처리량은 클록당 토큰 하나가 될 수 있음
그러면 실리콘 한 조각으로 수백만 사용자를 동시에 처리하고, 출력 버스에서 초당 5억 토큰이 나올 수도 있음
단점은 칩이 엄청나게 커져서 웨이퍼 한 장 전체가 될 것이라는 점임
웨이퍼 수준 결함은 큰 문제가 아닐 수 있음. 신경망은 일부 가중치가 빠지거나 틀려도 버티는 편임
업계 속도가 빠르기 때문에 모델 가중치에서 생산까지 매우 빠르게 달려가고, 웨이퍼 50장을 만들어 1년 쓰다가 모델이 낡으면 버리는 식이 될 것 같음- 정확히는 가중치를 ROM에 넣는 것이라기보다 메모리 내 연산(CIM) 을 가리키는 것에 가까움
데이터, 여기서는 곱셈 값이 프로세서, 여기서는 곱셈 회로의 일부가 되는 기법임
“가져와서 처리”하는 문제를 아키텍처적으로 완전히 우회함
데이터가 연산이 일어나는 곳에 있으므로 이동하지 않고, 지연도 없음 - 예전에 https://taalas.com/가 나왔고, 비슷한 생각을 하는 곳은 더 있을 것 같음
이런 방식은 frontier 모델보다는 작은 모델에 더 적합해 보임. 최전선 모델은 너무 빨리 바뀜 - Cerebras를 봤는지 궁금함
설명한 것만큼 멀리 간 건 아니고, 코어와 RAM이 아주 많지만 가중치는 여전히 소프트웨어로 올려야 하며 큰 모델에서는 칩 안으로 스트리밍해야 함
그래도 웨이퍼 전체 칩이긴 함 - 가중치를 ROM에 넣는 생각은 한동안 해왔음
많은 작업에서는 ROM에 가중치를 넣어도 괜찮을 수 있음
다만 가중치마다 곱셈기 하나를 두는 건 좋은 아이디어인지 확신이 없음
2비트 정도로 양자화했다면 가능할 수도 있지만, 아니면 각 곱셈기나 행 근처에 작은 ROM을 두어 멀리서 데이터를 옮기지 않고 N개의 서로 다른 행렬 연산을 처리하게 하는 편이 나을 수 있음
또 다른 재미있는 구상은 DRAM에 MAC 유닛 행을 붙여서 DRAM 행을 벡터로 쓰는 것임
행 크기가 64Kbit라면 8비트 가중치 기준 8K개이고, 가중치와 계산을 같은 칩에 유지할 수 있음
다만 한 칩에 충분한 곱셈기를 넣을 수 있을지는 모르겠음
시스톨릭 배열은 수만~수십만 개가 각각 클록당 한 연산을 수행할 수 있음 - 멤리스터가 이 용도에 이상적이고 재프로그래밍도 가능하다고들 하지만, 멤리스터는 컴퓨팅 세계의 탄소 나노튜브 같은 존재로 보임
- 정확히는 가중치를 ROM에 넣는 것이라기보다 메모리 내 연산(CIM) 을 가리키는 것에 가까움
-
칩 수준에서 아직 풀 수 있는 효율 개선이 엄청나게 많아 보여서 흥미로움
Taalas는 어떻게 보는지 궁금함
LLM 모델을 실제로 실리콘에 구워 넣고, 미세조정용 온보드 메모리를 일부 둔다고 함
비용과 지연시간에서 큰 이득을 주장함
아주 빠른 데모는 https://chatjimmy.ai/에서 볼 수 있음
https://taalas.com/
https://www.reddit.com/r/singularity/comments/1r9frzk/taalas...- 범용 GPU만 독점적으로 쓴다면 당연히 효율을 많이 놓치게 됨
그래서 Google이 10년도 더 전에 TPU를 만들기 시작했음
Timnit Gebru가 LLM의 환경 영향을 계산할 때 GPU를 기준으로 삼고 TPU 효율을 무시한 논문 때문에 Google이 Gebru를 해고했던 논란이 기억남
그 큰 효율 격차 때문에 Jeff Dean이 매우 화났던 것으로 보임 - 이런 종류를 더 많이 보면 멋지겠지만, 새 모델이 나올 때마다 완전히 새 모델로 업데이트하는 능력은 제한적일 것 같음
그렇다면 판매하기가 극도로 어려워짐 - 기술적으로는 흥미롭지만 세부사항이 너무 부족해 보임
칩에 영원히 바뀌지 않는 단일 모델을 넣는 생각은 마음에 들지 않음
가중치에 재기록 가능한 ROM을 쓰면 실리콘이 얼마나 더 비싸질지 궁금함
그렇게 하면 설계 대상 모델의 미세조정이 가능해지고, 모델이 낡는다는 우려를 줄일 수 있음 - 챗봇에서 17k 토큰/초는 멋지지만 거의 쓸모없는 시연임
코딩 에이전트에서는 의미 있는 개선이고, 로보틱스에서는 완전한 혁명이 될 수 있음
8B 모델은 일반 용도로는 유용하지 않지만, 특정 용도에서는 엄청난 지능을 제공할 수 있음
Nvidia의 Tesla/Waymo 경쟁자는 7B LLM과 2B 확산 모델인데, 이를 그런 속도로 돌릴 수 있다면 기존 해법보다 비용이 한 자릿수 규모로 낮아질 수 있음 - 모델 발전이 크게 둔화되는 시점에 이르러서는 이런 하드웨어가 LLM 제공자의 미래가 될 것 같음
지금도 그 시점에 가깝다고 주장할 수는 있음
AWS 같은 하이퍼스케일러는 몇 년간 유효할 모델을 서비스하는 데 이런 칩을 잘 활용할 것임
하지만 지금은 특히 Deepseek/Kimi/GLM 같은 오픈 가중치 모델에서 몇 달마다 모델 품질이 크게 뛰고 있음
그 전까지는 범용 하드웨어 대비 이 방식이 비용 효율적일 방법이 잘 보이지 않음
또한 모바일 하드웨어 안에 이런 것의 소형 버전이 들어가서, 매우 빠르고 효율적인 온디바이스 LLM을 제공하게 될 것 같음
- 범용 GPU만 독점적으로 쓴다면 당연히 효율을 많이 놓치게 됨
-
꽤 큰 움직임
Google과 TPU는 7세대쯤 온 것으로 보이고, LPU나 Cerebras의 Wafer Scale Engine 같은 파생 시도까지 생각하면 훨씬 더 선견지명이 있었던 것처럼 보임
다만 첫인상으로는 이 칩이 학습이 아니라 추론 쪽을 겨냥한 것 같고, 그것도 흥미로운 선택임- 학습은 거의 1회성 비용이고, 아키텍처 개선으로 이미 효율이 내려가는 중임
반면 추론은 계속 발생하는 비용이고 시간이 지나면 훨씬 더 많은 자원을 소모하므로, 이를 훨씬 효율적으로 만드는 데 집중하는 편이 장기적으로 이득이 큼 - 이제는 추론 비용이 학습 비용보다 더 높다고 봄
Nvidia는 범용 학습 칩의 왕이지만, 추론은 특화할 수 있음 - Cerebras의 Codex Spark 5.3은 큰 실패였음
문맥 창이 작고 모델도 오래됨
그래도 개선돼서 GPT 5.5를 초당 1000토큰으로 누릴 수 있으면 좋겠음 - “초기 테스트에서 Jalapeño가 현재 최첨단 대비 와트당 성능을 상당히 높일 것”이라고 하는데, 여기서 정말 중요한 것이 무엇인지 보이기 시작함
표현은 모호하지만 TPU도 비슷한 주장을 함
Google의 “우리에게 해자는 없다” 메모는 여전히 맞다고 봄. 모른다면 https://newsletter.semianalysis.com/p/google-we-have-no-moat... 참고
지금 흐름은 60~90년대 IBM, DEC, Cray, Sun이 벌였던 하드웨어 경쟁과 더 비슷해지는 듯함
역사는 반복되진 않지만 운율을 맞추곤 하고, 이런 노력들도 같은 궤적을 따를 것 같음
- 학습은 거의 1회성 비용이고, 아키텍처 개선으로 이미 효율이 내려가는 중임
-
AI 발전 속도와 AI가 더 빠르고 좋은 AI를 만드는 데 도움을 주는 상황을 보면, 이런 하드웨어가 의미 있는 투자 회수 전에 구식이 될지 계속 궁금함
이미 양자화와 오프로딩으로 거대한 AI 모델을 더 적은 자원에서 돌릴 수 있지만, 그건 시작일 뿐임
언젠가, 어쩌면 멀지 않은 시점에 200B급 거대 LLM을 5년 된 Dell 데스크톱에서 잘 돌릴 수 있게 하는 돌파구가 나올 수도 있음
미친 소리처럼 들리겠지만 초기 하드디스크 크기를 보라
IBM 350은 지름 24인치 플래터 50장을 가진 디스크로 3.5Mb를 저장했고, 오늘날 가치로 3만5000달러에 임대됐음
https://www.computerhistory.org/storageengine/first-commerci...
이를 멀티테라바이트 SSD와 비교하고, 같은 개선을 현재 LLM 아키텍처와 실행 방식에 적용해 보라
AI의 도움까지 있으면 머지않아 도약이 일어나고, 현재 최첨단 Nvidia 카드로 가득 찬 데이터센터가 거의 하룻밤 사이에 낡아질 수 있음- 그런 돌파구가 있다면, 같은 방법으로 오늘날 데이터센터에서 200T 모델을 돌릴 수도 있지 않나 싶음
- 흥미로운 생각이지만 하드디스크와의 비교는 아마 공정하지 않음
IBM 350은 70년 전에 상용화됐고, 오늘날 누군가가 멀티 TB SSD와 비교할 수 있게 되기까지 70년이 걸렸음
게다가 무어의 법칙이 앞으로 수십 년간 LLM에도 반드시 적용된다는 보장은 없음 - 제본스 역설과 스케일링 법칙 때문에 그렇게 되지 않을 것 같음
더 큰 모델이 항상 더 좋다면, 실제로 그런 것처럼 보이므로 언제나 고성능 하드웨어가 필요함 - 컴퓨팅의 돌파구는 보통 컴퓨팅 사용량을 줄이기보다 더 늘림
- 언젠가 GPU 외에 LLM에 맞춘 전용 하드웨어가 나올 것 같음
TPU가 있긴 하지만 주로 데이터센터용이고, GPU는 원래 그래픽 애플리케이션에서 온 것을 적응시킨 것임
데이터센터 수요가 마르면 혁신이 본격화될 수 있음
-
여기서 많이 논의되지 않은 부분이 있음
Broadcom CEO Hock Tan은 인터뷰에서 이 가속기가 현재까지 일반적인 AI 그래픽 처리 장치 대비 약 50% 비용 절감을 보인다고 했음 [0]
그림이 너무 빨리 바뀌고 아직 낮게 매달린 과실이 많아서, 어떤 공급자가 해자를 갖는지나 투자를 회수할 수 있는지를 따지는 논의는 별 의미가 없어 보임
[0] - https://www.bloomberg.com/news/articles/2026-06-24/openai-an...- GPU 마진이 75%라면 50% 저렴한 건 놀랄 일이 아님
- “일반적인”이라는 말이 큰 역할을 함
Nvidia가 현재 파는 칩보다 훨씬 오래된 칩을 뜻할 수도 있음
-
“2026년 말 초기 배포를 목표로 하고 이후 몇 년에 걸쳐 확대”라면, IPO 이후에 미래 약속으로 IPO 영업 자료에 크게 실릴 것 같음
IPO 전 발표는 무엇이든 회의적으로 봄- 내러티브가 IPO 전 장난처럼 느껴지고, 생긴 건 세탁 바구니 뚜껑 같음
사기여도 놀라지 않을 듯함 - 누구의 IPO인지 모르겠음
Broadcom과 Google은 당연히 이미 상장돼 있음
- 내러티브가 IPO 전 장난처럼 느껴지고, 생긴 건 세탁 바구니 뚜껑 같음
-
Microsoft, Google, Amazon도 이런 일을 하지만, 이들은 칩을 호스팅할 하이퍼스케일 데이터센터 인프라도 갖고 있음
칩을 설계하고 테이프아웃하는 것과 패키징, 냉각, 배포, 전력 공급, 플릿 관리는 완전히 다른 스택임
그 부분을 어디서 가져올지 궁금함- Stargate를 잊으면 안 됨
업데이트: Twitter에서 누군가 Microsoft와 Oracle에 50:50으로 호스팅될 것이라고 했음
- Stargate를 잊으면 안 됨
-
예전에 Opus 4.5로 Verilog 기반 LLM 추론 엔진을 설계하게 했고, 펌웨어와 자동 검증까지 포함했음: https://github.com/cpldcpu/smollm.c
물론 최적과는 거리가 멀지만, 추상화 수준을 낮춰 구현으로 내려가는 방식이 매우 강력하다는 걸 확인함- Verilog와 FPGA 전반을 배울 만한 튜토리얼을 추천해줄 수 있는지 궁금함
Tang Nano 9k가 하나 남아 있지만, Claude에게 무작정 바이브코딩으로 해결책을 만들게 할 자신은 없고 최소한의 기본 이해는 갖추고 싶음
- Verilog와 FPGA 전반을 배울 만한 튜토리얼을 추천해줄 수 있는지 궁금함