AI의 보편화를 향한 길 (초당 17K 토큰)
(taalas.com)- Taalas는 AI 모델을 맞춤형 실리콘 칩으로 변환하는 플랫폼을 개발해, 모델을 하드웨어로 구현하는 데 단 두 달만 소요
- 첫 제품인 Llama 3.1 8B 하드와이어드 모델은 초당 17K 토큰을 처리하며, 기존 대비 10배 빠르고 20배 저렴하며 전력 소모는 10분의 1 수준
- 저전력·저비용·고속 추론을 가능하게 하며, 메모리와 연산을 통합한 새로운 칩 아키텍처로 기존 GPU 기반 시스템의 복잡성을 제거
- Taalas는 이러한 접근을 통해 AI의 실시간화와 대중화를 앞당기고, 개발자들이 초저지연·초저비용 환경에서 새로운 응용을 실험할 수 있도록 함
AI의 현재 한계와 필요성
- AI는 이미 특정 영역에서 인간을 능가하지만, 지연 시간(latency) 과 비용(cost) 이 대중적 활용의 가장 큰 제약으로 지적됨
- 언어 모델과의 상호작용은 인간 사고 속도보다 느리고, 코딩 보조 도구는 수 분간 응답을 기다리게 함
- 자동화된 에이전트형 AI는 밀리초 단위의 반응이 필요하지만, 현재 시스템은 이를 충족하지 못함
- 최신 모델의 배포에는 수백 kW 전력과 복잡한 냉각·패키징·메모리 구조가 필요한 대형 슈퍼컴퓨터급 인프라가 요구됨
- 이러한 구조는 도시 규모의 데이터센터와 위성 네트워크로 확장되어 운영비 폭증을 초래함
- Taalas는 과거 ENIAC에서 트랜지스터로의 전환처럼, AI도 효율적이고 저비용 구조로 진화해야 함을 강조
Taalas의 기술 철학
- 설립 2년 반 만에, Taalas는 AI 모델을 맞춤형 실리콘으로 변환하는 플랫폼을 완성
- 새로운 모델을 수신한 후 2개월 내 하드웨어화 가능
- 결과물인 Hardcore Models는 기존 소프트웨어 기반 대비 속도·비용·전력 효율에서 10배 수준의 개선
- 세 가지 핵심 원칙 제시
-
완전한 특화(Total specialization)
- 각 AI 모델별로 최적화된 실리콘을 제작해 극단적 효율 달성
-
저장과 연산의 통합(Merging storage and computation)
- DRAM과 연산 칩의 분리로 인한 병목을 제거하고, 단일 칩 내 DRAM 밀도 수준의 통합 구조 구현
-
급진적 단순화(Radical simplification)
- HBM, 3D 스태킹, 액체 냉각 등 복잡한 기술을 제거해 시스템 비용을 한 자릿수 수준으로 절감
-
완전한 특화(Total specialization)
첫 제품: Llama 3.1 8B 하드와이어드 모델
-
세계에서 가장 빠르고 저비용·저전력의 추론 플랫폼으로 소개
- Llama 3.1 8B 모델을 실리콘에 직접 구현해 초당 17K 토큰 처리, 기존 대비 10배 속도, 20배 저렴한 제작비, 10배 낮은 전력 소모
-
오픈소스 모델을 기반으로 실용성과 개발 용이성을 확보
- 컨텍스트 윈도 크기 조정 및 LoRA 기반 미세조정(fine-tuning) 지원
- 1세대 칩은 3비트·6비트 혼합 양자화를 사용해 GPU 대비 품질 저하가 일부 존재
- 2세대 실리콘(HC2)은 표준 4비트 부동소수점 형식을 채택해 품질과 효율을 개선
향후 모델 로드맵
- 두 번째 모델은 중간 규모의 추론형 LLM으로, 봄에 연구소에서 완성 후 추론 서비스에 통합 예정
- 세 번째 모델은 HC2 플랫폼 기반의 프런티어급 LLM으로, 더 높은 밀도와 속도를 제공하며 겨울 배포 예정
개발자 접근성과 팀 구조
- 현재 베타 서비스로 공개된 Llama 모델은 초저지연·초저비용 환경을 체험할 수 있는 형태로 제공
- chatjimmy.ai 데모와 API 서비스로 이용 가능
- Taalas는 24명 팀과 3천만 달러의 비용으로 첫 제품을 완성했으며, 이는 정밀한 목표 설정과 집중된 실행력의 결과로 제시됨
- 팀은 20년 이상 협업해온 소규모 전문가 그룹으로 구성되어 있으며, 품질·정밀성·장인정신을 중시
결론: AI의 실시간화와 대중화
- Taalas의 기술은 성능·전력 효율·비용에서 단계적 도약을 제공
- 기존 GPU 중심 구조와 다른 새로운 AI 시스템 아키텍처 철학을 제시
- 지연과 비용의 장벽을 제거함으로써, AI를 실시간으로 활용할 수 있는 환경을 개발자에게 제공
- 향후 더 강력한 모델로 확장하며, AI의 보편적 접근성을 실현하는 방향으로 발전 예정
얼마나 의미가 있을지 모르겠네요. 시장은 Hype 를 좋아하니까 펀딩은 잘되겠지만, 앞다투어 새로운 모델을 쏟아내는데 2개월이면 뭐 까마득한 느낌이라.
Hacker News 의견들
-
이 칩은 범용이 아니라 고속·저지연 추론에 특화된 설계임
8B dense 3bit quant(Llama 3.1) 기준 초당 15k 토큰 처리, 6nm 공정 880mm² 다이, 53B 트랜지스터, 약 200W 소비, 생산 단가가 20배 저렴하고 토큰당 에너지는 10배 절감됨
창업진은 AMD·Nvidia 출신으로 25년 경력, VC 투자금 2억 달러 확보
1mm²당 약 0.2달러로 계산하면 10억 파라미터당 20달러 수준이며, 큰 다이는 수율이 낮아짐
자세한 내용은 창업자 인터뷰 참고
10k 토큰 미만의 초저지연 애플리케이션에 적합하며, 봄 출시 시 VC 자금이 몰릴 가능성이 큼- 수학적 계산이 유용함. 초당 16k 토큰은 놀라운 속도이며, 이는 새로운 제품 카테고리로 볼 수 있음
Nvidia H200이 12k tok/s 정도지만 배치 처리라 첫 토큰 지연이 훨씬 큼
Taalas는 밀리초 단위 응답이라 실시간 음성·비디오 생성에 적합함
다만 2개월 내 칩 생산은 지나치게 낙관적임. 그래도 v3 버전은 실제 API 요청을 처리할 수준이 될 것이라 기대함 - 20달러짜리 다이라면 모델별 게임보이 카트리지처럼 팔 수도 있겠다는 농담
- Recursive Language Model(논문 링크)을 쓰면 컨텍스트 한계를 보완할 수 있을지 궁금함
토큰 소모가 많지만 토큰이 싸다면 정확도 향상에 유리할 수도 있음 - 880mm²면 M1 Ultra보다 크고 H100보다도 큼
다이 크기가 커지면 수율이 낮아지는데, 몇 비트 오류는 큰 문제 아닐지도 의문임 - 이런 칩으로 지능형 로봇이 어떻게 발전할지 흥미로움
- 수학적 계산이 유용함. 초당 16k 토큰은 놀라운 속도이며, 이는 새로운 제품 카테고리로 볼 수 있음
-
댓글들이 모델 정확도를 논하지만, 이건 Llama 3.1 8B 모델임을 이해 못한 듯함
핵심은 모델이 아니라 맞춤형 하드웨어 성능임
GLM-5 같은 최신 모델을 얹으면 정말 대단할 것 같음
응답이 ‘엔터 치자마자’ 나올 정도로 즉각적임
다만 모델 교체 시 하드웨어를 통째로 바꿔야 하는 구조가 시장성에 영향을 줄 수 있음- 가격 정보는 이 이미지에 있음
아직 시장 반응을 보려는 탐색적 가격 정책으로 보임
유연성 대신 속도 극대화를 택했지만 LoRA 기반 파인튜닝은 지원한다고 함
단순한 데이터 태깅이나 대규모 병렬 처리에는 매우 유용할 것임 - 개인적으로는 Cerebras가 훨씬 앞서 있다고 생각함. tok/s 비교는 부적절함
- 가격 정보는 이 이미지에 있음
-
ChatJimmy 데모를 써봤는데, 답변이 눈 깜짝할 사이에 나와서 놀랐음
chatjimmy.ai- 고양이용 잠수함을 설계해달라 했더니 즉시 답변이 왔음
내용도 의외로 구체적이고 유용했음 - 이 속도라면 테스트 통과할 때까지 코드 자동 반복 생성이 가능함
완전히 새로운 개발 방식이 열릴 것 같음 - 투자자라면 OpenAI 대신 ChatJimmy에 투자해야 할지도 모름
- 다만 파일 첨부 기능은 작동하지 않았고, 문맥 이해가 약간 어긋남
- 초당 16,000 토큰을 직접 확인했다며 감탄함
- 고양이용 잠수함을 설계해달라 했더니 즉시 답변이 왔음
-
많은 이들이 회의적이지만, 비프론티어 모델에도 충분한 수요가 있음
Llama 3.1 활동 그래프만 봐도 주간 22% 성장 중임
지연이 줄면 웹페이지 로드 수준에서도 LLM을 쓸 수 있음- 프론티어 모델에도 시장이 있을 수 있음. 예를 들어 Anthropic이 Opus 4.6을 칩에 새긴다면 추론 비용을 줄일 수 있음
- 오래된 모델이 여전히 창의적 작업에 강함. 최신 모델은 코드·추론 중심으로 튜닝되어 창의성이 줄어듦
- 구조화된 콘텐츠 추출이나 마크다운 변환 같은 작업에 이상적임
이 칩은 LLM을 실시간 인터페이스로 바꿔줌 - 로봇처럼 저지연·협소한 작업 경로가 필요한 분야에도 적합함
-
틀린 답변을 이렇게 빠르게 본 적은 없다는 농담이지만, 기술은 매우 유망함
8B 모델은 작지만 장기적으로는 큰 시장이 될 것임- 질문에는 답 못했지만 그걸 믿기 힘들 정도로 빠르게 못했다는 말이 나올 정도임
지금은 쓸모없지만 완전히 새로운 감각의 기술임 - Qwen 2.5용으로 나오면 바로 살 것 같음
실제 업무에는 프론티어 모델이 꼭 필요하지 않음 - 7~9B 모델도 충분히 좋음. 여러 모델을 병행 질의해 합의 기반 정확도를 높이는 게 중요함
80B 이상부터는 차이가 미미해짐 - 철자 오류를 지적하며 유머러스하게 반응함
- 질문에는 답 못했지만 그걸 믿기 힘들 정도로 빠르게 못했다는 말이 나올 정도임
-
이런 카드를 개인용 PC에 꽂아 Claude Code를 대체할 수 있을지 상상함
초당 17k 토큰이면 여러 에이전트 파이프라인을 동시에 돌릴 수 있음
각 에이전트가 코드 수정·검증 역할을 맡아 빠르게 반복 개선 가능함
최고 모델이 아니어도 중간급 모델을 여러 번 순환시켜 더 나은 결과를 얻을 수 있을지 궁금함- 모델 자체보다 도구와 하네스가 결과 품질을 좌우함
빠른 토큰 출력과 좋은 툴링이 결합되면 프론티어 모델과의 격차를 줄일 수 있음 - 다만 모델이 자기 출력을 기반으로 스스로 개선하는 건 불가능함. 현실 기반 학습이 필요함
- 모델 자체보다 도구와 하네스가 결과 품질을 좌우함
-
수정된 정보에 따르면, 실제로는 모델이 실리콘에 새겨진 단일 칩 구조임
Llama 8B q3 모델을 1k 컨텍스트로 새겨 넣은 형태로 보이며, 10개 칩(총 2.4kW)이 필요함
모델 변경이 불가능하므로 장기간 고정된 작업에만 적합함- 데이터 태깅처럼 100토큰 이하의 짧은 문제에 이상적임
- RAG나 에이전트형 검색을 더 많이 수행하는 모델 설계도 가능할 듯함
- 모델 교체 주기가 빠른 지금, 6개월 이상 걸리는 칩 생산은 현실적으로 어려움
- NLP 작업 전반에 응용 가능함
- 비디오 게임 NPC용 칩으로도 적합할 수 있음
-
초당 17k 토큰은 단순히 배포 효율뿐 아니라 평가 방식 자체를 바꾸는 속도임
기존 MMLU 같은 정적 벤치마크는 인간 속도 기준이라, 이 정도 처리량에서는 수만 번의 상호작용 테스트가 가능해짐
속도가 높을수록 기존 평가가 더 부적절해짐을 보여줌 -
챗봇을 써봤는데 15k tok/s로 긴 답변이 즉시 나와 충격적이었음
로컬 코딩용으로 프론티어 모델 버전을 갖고 싶음- 읽는 데 2분 걸릴 텍스트가 1초도 안 돼 생성되는 건 말도 안 되는 광경이었음
- 외계 문명을 못 찾는 이유가 그들이 다른 시간 스케일로 작동하기 때문이라는 농담이 떠오름
- 이런 속도를 추론 루프나 코드 생성 하네스에 적용하면 AI 혁신이 일어날 것임
-
부정적인 반응도 있지만, 지연이 낮은 모델이 필요한 응용은 매우 많음
예를 들어 자유 입력 검색을 구조화 질의로 변환하는 작업은 기존 모델의 지연 때문에 불가능했음
이런 칩은 사용자가 느끼는 즉시성 수준의 AI 반응을 가능하게 함