LLM을 칩 위에 ‘인쇄’하는 Taalas의 방식
(anuragk.com)- Taalas는 Llama 3.1 8B 모델을 ASIC 칩에 직접 새겨 넣어 초당 17,000토큰 추론 속도를 달성한 스타트업임
- GPU 기반 시스템보다 10배 저렴하고, 10배 적은 전력, 그리고 10배 빠른 추론 성능을 주장함
- 모델의 가중치를 실리콘 트랜지스터로 직접 새겨 넣는 구조로, GPU의 메모리 병목을 제거함
- 외부 DRAM/HBM 없이, 칩 내부의 SRAM만으로 KV 캐시와 LoRA 어댑터를 처리함
- 모델별 칩 제작은 상단 두 레이어만 맞춤화하는 방식으로, 2개월 만에 Llama 3.1용 칩을 완성함
Taalas 칩의 개요
- Taalas는 설립 2.5년 된 회사로, 이번 칩이 첫 번째 제품임
- 칩은 고정 기능형 ASIC으로, 한 모델만 저장 가능하며 재작성 불가
- CD-ROM이나 게임 카트리지처럼 단일 모델 전용 구조를 가짐
GPU 기반 LLM 추론의 비효율
- LLM은 여러 계층(layer) 으로 구성되며, 예시로 Llama 3.1 8B는 32개 계층을 가짐
- GPU는 각 계층의 가중치 행렬을 VRAM에서 불러와 연산 후 다시 저장하는 과정을 반복함
- 각 토큰을 생성할 때마다 이 과정을 32회 반복해야 함
- 이러한 메모리 왕복 과정이 지연과 에너지 소모를 유발하며, 이를 메모리 대역폭 병목 또는 Von Neumann 병목이라 부름
Taalas의 ‘하드와이어드’ 접근
- Taalas는 Llama 3.1의 32개 계층을 순차적으로 실리콘 위에 새겨 넣음
- 모델의 가중치가 물리적 트랜지스터로 구현됨
- 입력 벡터가 들어오면, 각 계층의 트랜지스터를 통과하며 전기 신호 형태로 연속 처리됨
- 중간 결과를 VRAM에 저장하지 않고, 배선(pipeline registers) 을 따라 다음 계층으로 바로 전달됨
- 회사는 4비트 데이터 저장과 곱셈 연산을 단일 트랜지스터로 수행하는 ‘magic multiplier’ 구조를 개발했다고 밝힘
메모리 구조
- 외부 DRAM/HBM은 사용하지 않음, 대신 칩 내부에 소량의 SRAM을 탑재
- DRAM과 논리 게이트를 혼합 제조하기 어렵기 때문
- 이 온칩 SRAM은 KV 캐시(대화 중 임시 메모리)와 LoRA 어댑터 저장에 사용됨
모델별 칩 제작 방식
- 모델마다 칩을 새로 제작하는 것은 일반적으로 비용이 높음
- Taalas는 기본 칩 구조를 공통으로 설계하고, 특정 모델에 맞게 상단 두 레이어(마스크) 만 수정
- 완전 신규 칩 제작보다 훨씬 빠른 방식
- Llama 3.1 8B용 칩 개발에는 약 2개월이 소요됨
- AI 업계 기준으로는 느리지만, 커스텀 칩 제작 속도로는 매우 빠른 수준임
향후 기대
- GPU 없이 로컬 모델을 실행하는 사용자 입장에서, 이런 하드웨어의 대량 생산이 기대됨
Hacker News 의견들
-
8B개의 계수(coefficients) 가 53B개의 트랜지스터에 패킹되어 있음. 계수당 약 6.5개의 트랜지스터가 사용됨
블록 양자화(block quantization)를 쓴 것 같음. 예를 들어 3비트 계수 4개짜리 블록이면 330개의 서로 다른 블록만 필요함
Llama 3.1의 행렬은 4096x4096, 즉 1,600만 개의 계수로 구성되는데, 이를 330개의 블록으로 압축 가능하다고 봄
블록당 약 25만 트랜지스터 예산을 가정하면 계수당 약 5개의 트랜지스터로 계산됨. FP4 수준에서도 충분히 실현 가능해 보임- PyTorch에
model.toVHDL()같은 기능이 생기길 기대함
- PyTorch에
-
이런 일이 가능하다는 사실에 사람들이 놀라는 게 오히려 놀라움
GPU가 생긴 이유도 결국 소프트웨어 연산을 하드웨어로 옮긴 결과였음. LLM도 같은 수학 구조를 가지므로 이 방향은 당연한 진화라고 생각함- 사람들이 놀라는 이유는 아마 ROI 시점 때문일 것임. 언제쯤 모델 전용 칩을 테이프아웃하는 게 수익성이 생길지가 관건임. MoE 구조는 이 과정에서 새로운 과제를 던질 것 같음
- 이건 CPU 대 GPU가 아니라 CPU/GPU 대 ASIC의 비교라고 봄. ASIC은 속도·전력·비용 면에서 유리하지만 설계가 어렵고 재프로그래밍이 불가능함. LLM처럼 성능 민감한 기능에는 ASIC이 적합함
- 가중치를 게이트에 직접 구워 넣는 방식은 확실히 새로운 접근임. “Weights to gates”라는 표현이 어울림
- 하지만 유연성이 떨어지는 게 문제임. 데이터센터 수요가 변하거나 새 모델이 나올 때 대응이 어려움. 다만 드론·국방용처럼 에너지 효율과 속도가 중요한 분야에서는 현실적임
- Nvidia도 분명 이런 걸 실험 중일 것이라 생각함. 아직 상업적으로는 이르지만 효율 중심의 AI 하드웨어로 가는 흐름은 확실함
-
폼팩터보다 진짜 혁신은 지연시간(latency) 임
클라우드 추론은 네트워크 오버헤드만 50~200ms인데, PCIe에 꽂힌 전용 ASIC은 첫 토큰을 마이크로초 단위로 낼 수 있음
실시간 비디오 생성이나 100ms 이하 응답이 필요한 에이전트에는 이게 결정적임. 비용은 GPU보다 높을 수 있지만 새로운 실시간 애플리케이션을 가능하게 함- 지연시간뿐 아니라 대역폭 신뢰성과 제어권도 중요함. 중앙집중형과 로컬 컴퓨팅은 늘 힘겨루기를 해왔음. 기업은 통제를, 사용자는 자율성을 원함. 결국 시장은 항상 “내 컴퓨터를 내가 완전히 통제하고 싶음”이라는 수요를 유지할 것임
- AI 서비스가 실제로 어디서 서빙되는지 궁금함. 예를 들어 런던에서 Claude를 쓸 때 요청이 어디로 가는지 알기 어려움. LLM용 엣지 네트워크가 있다면 이상적일 텐데, ASIC이 그걸 가능하게 할지도 모름
-
Gemma 5 Mini 같은 모델이 로컬 하드웨어에서 직접 실행되는 미래가 흥미로움
H.264나 AV1 인코더처럼 특정 모델을 위한 “AI 코어”가 생길 수도 있음
구조적 ASIC 시대를 다시 여는 Structured ASIC 플랫폼 덕분에 비용도 낮아질 가능성이 있음- 대기업들이 여기에 관심이 적은 이유는 두 가지로 보임. 첫째, AI 발전 속도가 너무 빨라 칩이 양산될 즈음엔 이미 구식이 될 수 있음. 둘째, 클라우드 구독 모델과 데이터 수집 중심의 비즈니스 구조가 오프라인 칩과 맞지 않음
- Apple은 이런 걸 어제라도 시작했어야 한다고 생각함. 내 폰이나 맥북에서 완전 로컬 AI가 돌아가는 게 진짜 원하는 미래임. 클라우드 기반 AI는 AOL 시대의 잔재 같음
- Cerebras나 Groq 같은 프로그래머블 ASIC이 이미 GPU 대비 몇 배 속도를 내는데도 시장 반응이 미미함
-
이건 마치 CD-ROM이나 게임 카트리지처럼 한 모델만 담는 칩을 상상하게 함. 컴퓨터에 슬롯을 꽂아 모델을 교체하는 식임
- 그 슬롯은 사실상 USB-C일 것임. 파워뱅크 형태의 추론 ASIC을 꽂아 쓰는 모습이 그려짐
- 예전 eGPU처럼 책상 밑에 두는 로컬 모델 장치를 원함. 완전 오프라인, 완전 개인 프라이버시 보장
- 이런 하드웨어는 오픈웨이트 모델을 장려하고 프라이버시도 강화함. 로봇이 작업에 따라 모델 카트리지를 교체하는 하드웨어 MoE도 가능할 듯함
- 모델 전용 카트리지는 성능/전력 효율이 훨씬 좋을 것 같음. 다만 소비자용으로 경제성이 맞을지는 의문임
- 전력 사용이 변수임. 가정용으로 2.5W에서 초당 170토큰이면 멋질 것임. 이런 발전이 언젠가 포지트로닉 브레인(https://en.wikipedia.org/wiki/Positronic_brain)으로 이어질 수도 있음
-
저렴하게 ASIC을 인쇄할 수 있다면 모델 사용 방식이 완전히 바뀔 것임
모델이 USB 장치 형태로 판매되고, 200억 미만의 밀집 모델이면 개인용 비서로 충분함
그래픽카드의 재현처럼 느껴짐. 오픈웨이트 모델이 많아진 지금, 낮은 구매·운영 비용으로도 큰 시장이 열릴 것임 -
MoE 구조에서는 어떻게 작동할지 궁금함
밀집형 LLM은 모든 가중치를 가까이 두는 게 유리하지만, MoE는 메모리 접근 중심이라 MAC과 메모리 간 불균형이 생김. 결국 칩렛 접근법으로 돌아갈 가능성이 큼- Google의 TPUv4는 Optical Circuit Switch로 3D 토러스 구조를 만들어 MoE 통신 패턴에 맞게 동적으로 재배선함. 4,096개의 칩을 하나의 팟으로 연결하고, SparseCore로 비연속 메모리 접근을 처리함. 이는 데이터센터급 규모의 이야기지만 확장성의 예시로 흥미로움
- 각 Expert 모델을 실리콘에 새기면 속도는 엄청날 것임. 결국 ASIC 인쇄 비용이 가장 큰 제약임
-
언젠가 AI 전용 PCIe 확장카드가 주류가 될 것 같음
예전 그래픽카드나 사운드카드처럼, 새 모델이 나오면 카드를 교체해 PC의 “지능”을 업그레이드하는 시대가 올 것임- 이런 방향은 거의 불가피한 진화라고 생각함. 정부나 대기업이 먼저 요구하고, 결국 소비자 시장으로 확산될 것임.
컴퓨팅은 항상 로컬 vs 서버 주기가 반복되어 왔지만, 온프레미스 수요는 결코 사라지지 않을 것임
- 이런 방향은 거의 불가피한 진화라고 생각함. 정부나 대기업이 먼저 요구하고, 결국 소비자 시장으로 확산될 것임.
-
결국 AI 칩 슬롯이 있는 메인보드나, 고속 포트에 꽂는 AI 주변기기가 등장할 것 같음
-
Apple 같은 제조사들이 이런 칩을 3년 내에 직접 내장할 수 있을지 궁금함. 오늘날 모델 수준의 초고속 로컬 성능을 기대함
- 모델을 모듈식 메모리로 업데이트(diff) 할 수 있을까? 성능 저하가 클지 궁금함
- 하지만 3년 동안 구식 모델을 돌리는 건 의미가 없을 수도 있음. 발전 속도가 너무 빠름