# LLM을 칩 위에 ‘인쇄’하는 Taalas의 방식

> Clean Markdown view of GeekNews topic #26896. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=26896](https://news.hada.io/topic?id=26896)
- GeekNews Markdown: [https://news.hada.io/topic/26896.md](https://news.hada.io/topic/26896.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-02-23T01:33:49+09:00
- Updated: 2026-02-23T01:33:49+09:00
- Original source: [anuragk.com](https://www.anuragk.com/blog/posts/Taalas.html)
- Points: 23
- Comments: 5

## Summary

LLM의 **가중치를 실리콘 트랜지스터로 직접 새겨 넣는** Taalas의 접근은 GPU 메모리 병목을 근본적으로 제거합니다. Llama 3.1 8B 모델을 ASIC 칩에 ‘인쇄’해 초당 17,000토큰을 처리하며, GPU 대비 **10배 저렴하고 10배 빠른 추론**을 내세웁니다. 외부 DRAM 없이 온칩 SRAM만으로 KV 캐시를 처리하고, 모델별로 상단 두 레이어만 교체해 2개월 만에 칩을 완성하는 방식은 LLM 전용 하드웨어 제작의 새로운 방향을 보여줍니다.

## Topic Body

- **Taalas**는 Llama 3.1 8B 모델을 **ASIC 칩**에 직접 새겨 넣어 초당 **17,000토큰** 추론 속도를 달성한 스타트업  
- GPU 기반 시스템보다 **10배 저렴하고, 10배 적은 전력**, 그리고 **10배 빠른 추론 성능**을 주장함  
- 모델의 **가중치를 실리콘 트랜지스터로 직접 새겨 넣는 구조**로, GPU의 메모리 병목을 제거함  
- 외부 **DRAM/HBM 없이**, 칩 내부의 **SRAM**만으로 KV 캐시와 LoRA 어댑터를 처리함  
- 모델별 칩 제작은 상단 두 레이어만 맞춤화하는 방식으로, **2개월 만에 Llama 3.1용 칩을 완성**함  
  
---  
  
### Taalas 칩의 개요  
- Taalas는 설립 2.5년 된 회사로, 이번 칩이 **첫 번째 제품**임  
- 칩은 **고정 기능형 ASIC**으로, 한 모델만 저장 가능하며 재작성 불가  
  - CD-ROM이나 게임 카트리지처럼 **단일 모델 전용 구조**를 가짐  
  
### GPU 기반 LLM 추론의 비효율  
- LLM은 여러 **계층(layer)** 으로 구성되며, 예시로 Llama 3.1 8B는 **32개 계층**을 가짐  
- GPU는 각 계층의 **가중치 행렬**을 VRAM에서 불러와 연산 후 다시 저장하는 과정을 반복함  
  - 각 토큰을 생성할 때마다 이 과정을 32회 반복해야 함  
- 이러한 **메모리 왕복 과정**이 지연과 에너지 소모를 유발하며, 이를 **메모리 대역폭 병목** 또는 **Von Neumann 병목**이라 부름  
  
### Taalas의 ‘하드와이어드’ 접근  
- Taalas는 Llama 3.1의 32개 계층을 **순차적으로 실리콘 위에 새겨 넣음**  
  - 모델의 가중치가 **물리적 트랜지스터**로 구현됨  
- 입력 벡터가 들어오면, 각 계층의 트랜지스터를 통과하며 **전기 신호 형태로 연속 처리**됨  
  - 중간 결과를 VRAM에 저장하지 않고, **배선(pipeline registers)** 을 따라 다음 계층으로 바로 전달됨  
- 회사는 **4비트 데이터 저장과 곱셈 연산을 단일 트랜지스터로 수행**하는 ‘**magic multiplier**’ 구조를 개발했다고 밝힘  
  
### 메모리 구조  
- 외부 **DRAM/HBM은 사용하지 않음**, 대신 칩 내부에 **소량의 SRAM**을 탑재  
  - DRAM과 논리 게이트를 혼합 제조하기 어렵기 때문  
- 이 **온칩 SRAM**은 **KV 캐시**(대화 중 임시 메모리)와 **LoRA 어댑터** 저장에 사용됨  
  
### 모델별 칩 제작 방식  
- 모델마다 칩을 새로 제작하는 것은 일반적으로 **비용이 높음**  
- Taalas는 **기본 칩 구조를 공통으로 설계**하고, 특정 모델에 맞게 **상단 두 레이어(마스크)** 만 수정  
  - 완전 신규 칩 제작보다 훨씬 빠른 방식  
- Llama 3.1 8B용 칩 개발에는 **약 2개월**이 소요됨  
  - AI 업계 기준으로는 느리지만, **커스텀 칩 제작 속도로는 매우 빠른 수준**임  
  
### 향후 기대  
- GPU 없이 로컬 모델을 실행하는 사용자 입장에서, **이런 하드웨어의 대량 생산**이 기대됨

## Comments



### Comment 51591

- Author: neo
- Created: 2026-02-23T01:33:49+09:00
- Points: 2

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47103661) 
- 8B개의 **계수(coefficients)** 가 53B개의 트랜지스터에 패킹되어 있음. 계수당 약 6.5개의 트랜지스터가 사용됨  
  블록 양자화(block quantization)를 쓴 것 같음. 예를 들어 3비트 계수 4개짜리 블록이면 330개의 서로 다른 블록만 필요함  
  Llama 3.1의 행렬은 4096x4096, 즉 1,600만 개의 계수로 구성되는데, 이를 330개의 블록으로 압축 가능하다고 봄  
  블록당 약 25만 트랜지스터 예산을 가정하면 계수당 약 5개의 트랜지스터로 계산됨. **FP4 수준에서도 충분히 실현 가능**해 보임
  - PyTorch에 `model.toVHDL()` 같은 기능이 생기길 기대함  

- 이런 일이 가능하다는 사실에 사람들이 놀라는 게 오히려 놀라움  
  GPU가 생긴 이유도 결국 **소프트웨어 연산을 하드웨어로 옮긴** 결과였음. LLM도 같은 수학 구조를 가지므로 이 방향은 당연한 진화라고 생각함
  - 사람들이 놀라는 이유는 아마 **ROI 시점** 때문일 것임. 언제쯤 모델 전용 칩을 테이프아웃하는 게 수익성이 생길지가 관건임. MoE 구조는 이 과정에서 새로운 과제를 던질 것 같음  
  - 이건 CPU 대 GPU가 아니라 **CPU/GPU 대 ASIC**의 비교라고 봄. ASIC은 속도·전력·비용 면에서 유리하지만 설계가 어렵고 재프로그래밍이 불가능함. LLM처럼 성능 민감한 기능에는 ASIC이 적합함  
  - 가중치를 게이트에 **직접 구워 넣는 방식**은 확실히 새로운 접근임. “Weights to gates”라는 표현이 어울림  
  - 하지만 유연성이 떨어지는 게 문제임. 데이터센터 수요가 변하거나 새 모델이 나올 때 대응이 어려움. 다만 **드론·국방용**처럼 에너지 효율과 속도가 중요한 분야에서는 현실적임  
  - Nvidia도 분명 이런 걸 실험 중일 것이라 생각함. 아직 상업적으로는 이르지만 **효율 중심의 AI 하드웨어**로 가는 흐름은 확실함  

- 폼팩터보다 진짜 혁신은 **지연시간(latency)** 임  
  클라우드 추론은 네트워크 오버헤드만 50~200ms인데, PCIe에 꽂힌 전용 ASIC은 첫 토큰을 마이크로초 단위로 낼 수 있음  
  실시간 비디오 생성이나 100ms 이하 응답이 필요한 에이전트에는 이게 결정적임. 비용은 GPU보다 높을 수 있지만 **새로운 실시간 애플리케이션**을 가능하게 함  
  - 지연시간뿐 아니라 **대역폭 신뢰성과 제어권**도 중요함. 중앙집중형과 로컬 컴퓨팅은 늘 힘겨루기를 해왔음. 기업은 통제를, 사용자는 자율성을 원함. 결국 시장은 항상 “내 컴퓨터를 내가 완전히 통제하고 싶음”이라는 수요를 유지할 것임  
  - AI 서비스가 실제로 어디서 서빙되는지 궁금함. 예를 들어 런던에서 Claude를 쓸 때 요청이 어디로 가는지 알기 어려움. **LLM용 엣지 네트워크**가 있다면 이상적일 텐데, ASIC이 그걸 가능하게 할지도 모름  

- Gemma 5 Mini 같은 모델이 **로컬 하드웨어에서 직접 실행되는 미래**가 흥미로움  
  H.264나 AV1 인코더처럼 특정 모델을 위한 “AI 코어”가 생길 수도 있음  
  구조적 ASIC 시대를 다시 여는 [Structured ASIC 플랫폼](https://en.wikipedia.org/wiki/Structured_ASIC_platform) 덕분에 비용도 낮아질 가능성이 있음  
  - 대기업들이 여기에 관심이 적은 이유는 두 가지로 보임. 첫째, AI 발전 속도가 너무 빨라 칩이 양산될 즈음엔 **이미 구식**이 될 수 있음. 둘째, **클라우드 구독 모델**과 데이터 수집 중심의 비즈니스 구조가 오프라인 칩과 맞지 않음  
  - Apple은 이런 걸 **어제라도 시작했어야** 한다고 생각함. 내 폰이나 맥북에서 완전 로컬 AI가 돌아가는 게 진짜 원하는 미래임. 클라우드 기반 AI는 AOL 시대의 잔재 같음  
  - Cerebras나 Groq 같은 **프로그래머블 ASIC**이 이미 GPU 대비 몇 배 속도를 내는데도 시장 반응이 미미함  

- 이건 마치 **CD-ROM이나 게임 카트리지**처럼 한 모델만 담는 칩을 상상하게 함. 컴퓨터에 슬롯을 꽂아 모델을 교체하는 식임  
  - 그 슬롯은 사실상 **USB-C**일 것임. 파워뱅크 형태의 추론 ASIC을 꽂아 쓰는 모습이 그려짐  
  - 예전 eGPU처럼 **책상 밑에 두는 로컬 모델 장치**를 원함. 완전 오프라인, 완전 개인 프라이버시 보장  
  - 이런 하드웨어는 **오픈웨이트 모델**을 장려하고 프라이버시도 강화함. 로봇이 작업에 따라 모델 카트리지를 교체하는 **하드웨어 MoE**도 가능할 듯함  
  - 모델 전용 카트리지는 성능/전력 효율이 훨씬 좋을 것 같음. 다만 소비자용으로 경제성이 맞을지는 의문임  
  - 전력 사용이 변수임. 가정용으로 2.5W에서 초당 170토큰이면 멋질 것임. 이런 발전이 언젠가 **포지트로닉 브레인**(https://en.wikipedia.org/wiki/Positronic_brain)으로 이어질 수도 있음  

- 저렴하게 **ASIC을 인쇄할 수 있다면** 모델 사용 방식이 완전히 바뀔 것임  
  모델이 USB 장치 형태로 판매되고, 200억 미만의 밀집 모델이면 개인용 비서로 충분함  
  **그래픽카드의 재현**처럼 느껴짐. 오픈웨이트 모델이 많아진 지금, 낮은 구매·운영 비용으로도 큰 시장이 열릴 것임  

- MoE 구조에서는 어떻게 작동할지 궁금함  
  밀집형 LLM은 모든 가중치를 가까이 두는 게 유리하지만, MoE는 **메모리 접근 중심**이라 MAC과 메모리 간 불균형이 생김. 결국 **칩렛 접근법**으로 돌아갈 가능성이 큼  
  - Google의 TPUv4는 **Optical Circuit Switch**로 3D 토러스 구조를 만들어 MoE 통신 패턴에 맞게 동적으로 재배선함. 4,096개의 칩을 하나의 팟으로 연결하고, SparseCore로 비연속 메모리 접근을 처리함. 이는 데이터센터급 규모의 이야기지만 **확장성의 예시**로 흥미로움  
  - 각 Expert 모델을 실리콘에 새기면 속도는 엄청날 것임. 결국 **ASIC 인쇄 비용**이 가장 큰 제약임  

- 언젠가 **AI 전용 PCIe 확장카드**가 주류가 될 것 같음  
  예전 그래픽카드나 사운드카드처럼, 새 모델이 나오면 카드를 교체해 PC의 “지능”을 업그레이드하는 시대가 올 것임  
  - 이런 방향은 거의 **불가피한 진화**라고 생각함. 정부나 대기업이 먼저 요구하고, 결국 소비자 시장으로 확산될 것임.  
    컴퓨팅은 항상 **로컬 vs 서버** 주기가 반복되어 왔지만, 온프레미스 수요는 결코 사라지지 않을 것임  

- 결국 **AI 칩 슬롯**이 있는 메인보드나, 고속 포트에 꽂는 AI 주변기기가 등장할 것 같음  

- Apple 같은 제조사들이 이런 칩을 3년 내에 **직접 내장**할 수 있을지 궁금함. 오늘날 모델 수준의 **초고속 로컬 성능**을 기대함  
  - 모델을 **모듈식 메모리로 업데이트(diff)** 할 수 있을까? 성능 저하가 클지 궁금함  
  - 하지만 3년 동안 **구식 모델**을 돌리는 건 의미가 없을 수도 있음. 발전 속도가 너무 빠름

### Comment 52335

- Author: dolsangodkimchi
- Created: 2026-03-04T09:52:35+09:00
- Points: 1

디지털로 미적분하는 것과 아날로그로 미적분하는 것의 차이가 떠오르네요.

### Comment 52311

- Author: chcv0313
- Created: 2026-03-04T01:59:51+09:00
- Points: 1

llm모델이 아니라 텍스트 임베딩 모델을 이걸로 만들면 좋겠는데요

### Comment 52365

- Author: bungker
- Created: 2026-03-04T15:05:40+09:00
- Points: 1
- Parent comment: 52311
- Depth: 1

그러네요 한번만들면 계속쓰니

### Comment 51650

- Author: parkindani
- Created: 2026-02-23T13:42:20+09:00
- Points: 1

칩 신규 설계와 개발 속도가 AI 덕분에 가속화된다면 이게 진짜 미래일 수도 있겠네요. 25년쯤 전에 하드웨어 성능이 경쟁적으로 올라가던 때 생각도 나고요.
