# AI의 보편화를 향한 길 (초당 17K 토큰)

> Clean Markdown view of GeekNews topic #26860. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=26860](https://news.hada.io/topic?id=26860)
- GeekNews Markdown: [https://news.hada.io/topic/26860.md](https://news.hada.io/topic/26860.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-02-21T09:53:25+09:00
- Updated: 2026-02-21T09:53:25+09:00
- Original source: [taalas.com](https://taalas.com/the-path-to-ubiquitous-ai/)
- Points: 5
- Comments: 2

## Topic Body

- Taalas는 **AI 모델을 맞춤형 실리콘 칩으로 변환하는 플랫폼**을 개발해, 모델을 하드웨어로 구현하는 데 단 두 달만 소요  
- 첫 제품인 **Llama 3.1 8B 하드와이어드 모델**은 초당 17K 토큰을 처리하며, 기존 대비 10배 빠르고 20배 저렴하며 전력 소모는 10분의 1 수준  
- **저전력·저비용·고속 추론**을 가능하게 하며, 메모리와 연산을 통합한 새로운 칩 아키텍처로 기존 GPU 기반 시스템의 복잡성을 제거  
- Taalas는 이러한 접근을 통해 **AI의 실시간화와 대중화**를 앞당기고, 개발자들이 초저지연·초저비용 환경에서 새로운 응용을 실험할 수 있도록 함  
  
---  
  
### AI의 현재 한계와 필요성  
- AI는 이미 **특정 영역에서 인간을 능가**하지만, **지연 시간(latency)** 과 **비용(cost)** 이 대중적 활용의 가장 큰 제약으로 지적됨  
  - 언어 모델과의 상호작용은 인간 사고 속도보다 느리고, 코딩 보조 도구는 수 분간 응답을 기다리게 함  
  - 자동화된 에이전트형 AI는 밀리초 단위의 반응이 필요하지만, 현재 시스템은 이를 충족하지 못함  
- 최신 모델의 배포에는 **수백 kW 전력과 복잡한 냉각·패키징·메모리 구조**가 필요한 대형 슈퍼컴퓨터급 인프라가 요구됨  
  - 이러한 구조는 도시 규모의 데이터센터와 위성 네트워크로 확장되어 **운영비 폭증**을 초래함  
- Taalas는 과거 ENIAC에서 트랜지스터로의 전환처럼, **AI도 효율적이고 저비용 구조로 진화해야 함**을 강조  
  
### Taalas의 기술 철학  
- 설립 2년 반 만에, Taalas는 **AI 모델을 맞춤형 실리콘으로 변환하는 플랫폼**을 완성  
  - 새로운 모델을 수신한 후 **2개월 내 하드웨어화** 가능  
  - 결과물인 **Hardcore Models**는 기존 소프트웨어 기반 대비 **속도·비용·전력 효율에서 10배 수준의 개선**  
- 세 가지 핵심 원칙 제시  
  1. **완전한 특화(Total specialization)**  
     - 각 AI 모델별로 최적화된 실리콘을 제작해 극단적 효율 달성  
  2. **저장과 연산의 통합(Merging storage and computation)**  
     - DRAM과 연산 칩의 분리로 인한 병목을 제거하고, **단일 칩 내 DRAM 밀도 수준의 통합 구조** 구현  
  3. **급진적 단순화(Radical simplification)**  
     - HBM, 3D 스태킹, 액체 냉각 등 복잡한 기술을 제거해 **시스템 비용을 한 자릿수 수준으로 절감**  
  
### 첫 제품: Llama 3.1 8B 하드와이어드 모델  
- **세계에서 가장 빠르고 저비용·저전력의 추론 플랫폼**으로 소개  
  - Llama 3.1 8B 모델을 실리콘에 직접 구현해 **초당 17K 토큰 처리**, 기존 대비 10배 속도, 20배 저렴한 제작비, 10배 낮은 전력 소모  
- **오픈소스 모델**을 기반으로 실용성과 개발 용이성을 확보  
  - 컨텍스트 윈도 크기 조정 및 **LoRA 기반 미세조정(fine-tuning)** 지원  
- 1세대 칩은 **3비트·6비트 혼합 양자화**를 사용해 GPU 대비 품질 저하가 일부 존재  
  - 2세대 실리콘(HC2)은 **표준 4비트 부동소수점 형식**을 채택해 품질과 효율을 개선  
  
### 향후 모델 로드맵  
- **두 번째 모델**은 중간 규모의 추론형 LLM으로, 봄에 연구소에서 완성 후 추론 서비스에 통합 예정  
- **세 번째 모델**은 HC2 플랫폼 기반의 **프런티어급 LLM**으로, 더 높은 밀도와 속도를 제공하며 겨울 배포 예정  
  
### 개발자 접근성과 팀 구조  
- 현재 베타 서비스로 공개된 Llama 모델은 **초저지연·초저비용 환경**을 체험할 수 있는 형태로 제공  
  - [chatjimmy.ai](https://chatjimmy.ai/) 데모와 [API 서비스](https://taalas.com/api-request-form)로 이용 가능  
- Taalas는 **24명 팀과 3천만 달러의 비용**으로 첫 제품을 완성했으며, 이는 **정밀한 목표 설정과 집중된 실행력**의 결과로 제시됨  
- 팀은 20년 이상 협업해온 소규모 전문가 그룹으로 구성되어 있으며, **품질·정밀성·장인정신**을 중시  
  
### 결론: AI의 실시간화와 대중화  
- Taalas의 기술은 **성능·전력 효율·비용에서 단계적 도약**을 제공  
- 기존 GPU 중심 구조와 다른 **새로운 AI 시스템 아키텍처 철학**을 제시  
- **지연과 비용의 장벽을 제거**함으로써, AI를 실시간으로 활용할 수 있는 환경을 개발자에게 제공  
- 향후 더 강력한 모델로 확장하며, **AI의 보편적 접근성**을 실현하는 방향으로 발전 예정

## Comments


### Comment 51539

- Author: colus001
- Created: 2026-02-21T18:13:26+09:00
- Points: 1

얼마나 의미가 있을지 모르겠네요. 시장은 Hype 를 좋아하니까 펀딩은 잘되겠지만, 앞다투어 새로운 모델을 쏟아내는데 2개월이면 뭐 까마득한 느낌이라.

### Comment 51511

- Author: neo
- Created: 2026-02-21T09:53:25+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47086181) 
- 이 칩은 범용이 아니라 **고속·저지연 추론**에 특화된 설계임  
  8B dense 3bit quant(Llama 3.1) 기준 초당 15k 토큰 처리, 6nm 공정 880mm² 다이, 53B 트랜지스터, 약 200W 소비, 생산 단가가 20배 저렴하고 토큰당 에너지는 10배 절감됨  
  창업진은 AMD·Nvidia 출신으로 25년 경력, VC 투자금 2억 달러 확보  
  1mm²당 약 0.2달러로 계산하면 10억 파라미터당 20달러 수준이며, 큰 다이는 수율이 낮아짐  
  자세한 내용은 [창업자 인터뷰](https://www.nextplatform.com/2026/02/19/taalas-etches-ai-models-onto-transistors-to-rocket-boost-inference/) 참고  
  10k 토큰 미만의 **초저지연 애플리케이션**에 적합하며, 봄 출시 시 VC 자금이 몰릴 가능성이 큼
  - 수학적 계산이 유용함. 초당 16k 토큰은 놀라운 속도이며, 이는 **새로운 제품 카테고리**로 볼 수 있음  
    Nvidia H200이 12k tok/s 정도지만 배치 처리라 첫 토큰 지연이 훨씬 큼  
    Taalas는 밀리초 단위 응답이라 **실시간 음성·비디오 생성**에 적합함  
    다만 2개월 내 칩 생산은 지나치게 낙관적임. 그래도 v3 버전은 실제 API 요청을 처리할 수준이 될 것이라 기대함
  - 20달러짜리 다이라면 모델별 **게임보이 카트리지**처럼 팔 수도 있겠다는 농담
  - Recursive Language Model([논문 링크](https://arxiv.org/abs/2512.24601))을 쓰면 컨텍스트 한계를 보완할 수 있을지 궁금함  
    토큰 소모가 많지만 토큰이 싸다면 정확도 향상에 유리할 수도 있음
  - 880mm²면 M1 Ultra보다 크고 H100보다도 큼  
    다이 크기가 커지면 수율이 낮아지는데, 몇 비트 오류는 큰 문제 아닐지도 의문임
  - 이런 칩으로 **지능형 로봇**이 어떻게 발전할지 흥미로움

- 댓글들이 모델 정확도를 논하지만, 이건 Llama 3.1 8B 모델임을 이해 못한 듯함  
  핵심은 모델이 아니라 **맞춤형 하드웨어 성능**임  
  GLM-5 같은 최신 모델을 얹으면 정말 대단할 것 같음  
  응답이 ‘엔터 치자마자’ 나올 정도로 즉각적임  
  다만 모델 교체 시 하드웨어를 통째로 바꿔야 하는 구조가 시장성에 영향을 줄 수 있음
  - 가격 정보는 [이 이미지](https://www.nextplatform.com/wp-content/uploads/2026/02/taalas-hci-performance-3.jpg)에 있음  
    아직 시장 반응을 보려는 탐색적 가격 정책으로 보임  
    유연성 대신 **속도 극대화**를 택했지만 LoRA 기반 파인튜닝은 지원한다고 함  
    단순한 데이터 태깅이나 대규모 병렬 처리에는 매우 유용할 것임
  - 개인적으로는 Cerebras가 훨씬 앞서 있다고 생각함. tok/s 비교는 부적절함

- **ChatJimmy 데모**를 써봤는데, 답변이 눈 깜짝할 사이에 나와서 놀랐음  
  [chatjimmy.ai](https://chatjimmy.ai/)
  - 고양이용 잠수함을 설계해달라 했더니 즉시 답변이 왔음  
    내용도 의외로 구체적이고 유용했음
  - 이 속도라면 테스트 통과할 때까지 **코드 자동 반복 생성**이 가능함  
    완전히 새로운 개발 방식이 열릴 것 같음
  - 투자자라면 OpenAI 대신 ChatJimmy에 투자해야 할지도 모름
  - 다만 파일 첨부 기능은 작동하지 않았고, 문맥 이해가 약간 어긋남
  - 초당 16,000 토큰을 직접 확인했다며 감탄함

- 많은 이들이 회의적이지만, **비프론티어 모델**에도 충분한 수요가 있음  
  [Llama 3.1 활동 그래프](https://openrouter.ai/meta-llama/llama-3.1-8b-instruct/activity)만 봐도 주간 22% 성장 중임  
  지연이 줄면 웹페이지 로드 수준에서도 LLM을 쓸 수 있음
  - 프론티어 모델에도 시장이 있을 수 있음. 예를 들어 Anthropic이 Opus 4.6을 칩에 새긴다면 추론 비용을 줄일 수 있음
  - 오래된 모델이 여전히 **창의적 작업**에 강함. 최신 모델은 코드·추론 중심으로 튜닝되어 창의성이 줄어듦
  - 구조화된 콘텐츠 추출이나 마크다운 변환 같은 작업에 이상적임  
    이 칩은 LLM을 **실시간 인터페이스**로 바꿔줌
  - 로봇처럼 **저지연·협소한 작업 경로**가 필요한 분야에도 적합함

- 틀린 답변을 이렇게 빠르게 본 적은 없다는 농담이지만, 기술은 매우 유망함  
  8B 모델은 작지만 장기적으로는 큰 시장이 될 것임
  - 질문에는 답 못했지만 그걸 **믿기 힘들 정도로 빠르게** 못했다는 말이 나올 정도임  
    지금은 쓸모없지만 완전히 새로운 감각의 기술임
  - Qwen 2.5용으로 나오면 바로 살 것 같음  
    실제 업무에는 프론티어 모델이 꼭 필요하지 않음
  - 7~9B 모델도 충분히 좋음. 여러 모델을 병행 질의해 **합의 기반 정확도**를 높이는 게 중요함  
    80B 이상부터는 차이가 미미해짐
  - 철자 오류를 지적하며 유머러스하게 반응함

- 이런 카드를 개인용 PC에 꽂아 **Claude Code**를 대체할 수 있을지 상상함  
  초당 17k 토큰이면 여러 **에이전트 파이프라인**을 동시에 돌릴 수 있음  
  각 에이전트가 코드 수정·검증 역할을 맡아 빠르게 반복 개선 가능함  
  최고 모델이 아니어도 중간급 모델을 여러 번 순환시켜 더 나은 결과를 얻을 수 있을지 궁금함
  - 모델 자체보다 **도구와 하네스**가 결과 품질을 좌우함  
    빠른 토큰 출력과 좋은 툴링이 결합되면 프론티어 모델과의 격차를 줄일 수 있음
  - 다만 모델이 자기 출력을 기반으로 스스로 개선하는 건 불가능함. **현실 기반 학습**이 필요함

- 수정된 정보에 따르면, 실제로는 **모델이 실리콘에 새겨진 단일 칩** 구조임  
  Llama 8B q3 모델을 1k 컨텍스트로 새겨 넣은 형태로 보이며, 10개 칩(총 2.4kW)이 필요함  
  모델 변경이 불가능하므로 **장기간 고정된 작업**에만 적합함  
  - 데이터 태깅처럼 100토큰 이하의 짧은 문제에 이상적임  
  - RAG나 **에이전트형 검색**을 더 많이 수행하는 모델 설계도 가능할 듯함  
  - 모델 교체 주기가 빠른 지금, 6개월 이상 걸리는 칩 생산은 현실적으로 어려움  
  - NLP 작업 전반에 응용 가능함  
  - 비디오 게임 **NPC용 칩**으로도 적합할 수 있음

- 초당 17k 토큰은 단순히 배포 효율뿐 아니라 **평가 방식 자체를 바꾸는 속도**임  
  기존 MMLU 같은 정적 벤치마크는 인간 속도 기준이라, 이 정도 처리량에서는 수만 번의 상호작용 테스트가 가능해짐  
  속도가 높을수록 기존 평가가 더 부적절해짐을 보여줌

- 챗봇을 써봤는데 15k tok/s로 긴 답변이 즉시 나와 충격적이었음  
  로컬 코딩용으로 프론티어 모델 버전을 갖고 싶음
  - 읽는 데 2분 걸릴 텍스트가 1초도 안 돼 생성되는 건 **말도 안 되는 광경**이었음
  - 외계 문명을 못 찾는 이유가 그들이 **다른 시간 스케일**로 작동하기 때문이라는 농담이 떠오름
  - 이런 속도를 **추론 루프나 코드 생성 하네스**에 적용하면 AI 혁신이 일어날 것임

- 부정적인 반응도 있지만, **지연이 낮은 모델**이 필요한 응용은 매우 많음  
  예를 들어 자유 입력 검색을 구조화 질의로 변환하는 작업은 기존 모델의 지연 때문에 불가능했음  
  이런 칩은 사용자가 느끼는 **즉시성 수준의 AI 반응**을 가능하게 함