- Tenstorrent는 AMD의 Zen 아키텍처와 테슬라의 자율 주행 칩을 설계한 유명한 칩 설계자 Jim Keller가 이끄는 회사
- RISC-V 기반의 GPU 대안인 Grayskull을 출시, 프로그래밍 및 확장이 용이하며, 실행 시 희소성과 조건부 계산 처리에 뛰어남
- Grayskull e75와 Grayskull e150 두 가지 버전의 개발 키트를 선보임. AI 개발을 위한 추론 전용 하드웨어로, TT-Buda와 TT-Metalium 소프트웨어를 제공
- Tenstorrent는 일본의 선도적인 반도체 기술 센터(LSTC)와의 파트너십을 맺음.
- Tenstorrent의 RISC-V 및 칩렛 IP를 사용하여 최첨단 2nm AI 가속기를 구축할 예정
Grayskull의 힘!
- Grayskull e75 모델은 75W에서 작동하는 저프로파일, 반 길이 PCIe Gen 4 보드에 단일 Grayskull 프로세서를 탑재함.
- Grayskull e150 모델은 최대 200W에서 작동하는 표준 높이, 3/4 길이 PCIe Gen 4 보드에 Grayskull 프로세서를 탑재하며, 전력과 처리량을 균형 있게 제공함.
Tenstorrent 프로세서와 DevKits
- Tenstorrent 프로세서는 Tensix 코어라고 불리는 코어 그리드로 구성되며, DRAM을 통하지 않고 네트워크를 통해 서로 직접 통신할 수 있는 네트워크 통신 하드웨어를 갖춤.
- Grayskull DevKits는 자연어 처리를 위한 BERT, 이미지 인식을 위한 ResNet, 음성 인식 및 번역을 위한 Whisper, 실시간 객체 탐지를 위한 YOLOv5, 이미지 분할을 위한 U-Net 등 다양한 모델을 지원함.
- Grayskull e75와 e150 DevKits는 각각 $599와 $799에 구매 가능함.
GN⁺의 의견
- Tenstorrent의 Grayskull이 전통적인 GPU에 대한 RISC-V 기반 대안으로서, AI 개발자들에게 새로운 선택지를 제공함으로써 업계에 다양성을 더할 수 있음.
- Grayskull이 실행 시 희소성과 조건부 계산 처리에 특화되어 있다는 점은, AI 모델의 효율성과 성능을 향상시킬 수 있는 잠재력을 가짐.
- 이 기술을 도입할 때는 기존의 개발 환경과의 호환성, 생태계 지원, 그리고 장기적인 성능 및 비용 효율성을 고려해야 함.
- 비슷한 기능을 제공하는 업계의 다른 제품으로는 NVIDIA의 GPU와 Google의 TPU가 있으나, Grayskull은 RISC-V 아키텍처를 기반으로 한 점에서 차별화됨.
- Grayskull의 성공은 오픈소스 하드웨어 생태계의 성장과 혁신을 촉진할 수 있으며, 이는 기술의 민주화와 접근성 향상에 기여할 수 있음.
Hacker News 의견
-
Grayskull 개발 키트에 대한 요약:
- Grayskull e75: 75W 소비 전력, 96 Tensix 코어, 1GHz 클록 속도, 96MB SRAM, 8GB LPDDR4 메모리 (102.4 GB/s), 가격 $599
- Grayskull e150: 200W 소비 전력, 120 Tensix 코어, 1.2GHz 클록 속도, 120MB SRAM, 8GB LPDDR4 메모리 (118.4 GB/s), 가격 $799
- 이 제품들의 추론 성능이 그래픽 카드와 비교하여 어떨지, 홈 랩에 적합할지 관심이 모아짐.
- 제품의 프리뷰 버전 언박싱 인터뷰가 있으나 성능 수치는 제공되지 않음.
-
아키텍처에 대한 의견:
- Jim Keller의 참여로 관심을 받고 있으나, CPU/ASIC 설계에 대한 지식이 없는 사람에게는 아키텍처가 다소 '기괴'해 보임.
- 코어 그리드와 메모리, 인터페이스가 섞여 있고, 네트워크로 연결된 토폴로지에 대한 설명을 요청함.
-
아키텍처 작동 방식에 대한 설명:
- Tensix 코어와 공유 메모리로 구성된 기본 시스템.
- 각 Tensix 코어에는 텐서 연산을 수행하는 고밀도 텐서 수학 유닛(FPU), SIMD 엔진(SFPU), 5개의 Risc-V CPU 코어, 대용량 로컬 메모리 저장소가 포함됨.
- 코어들은 두 개의 반대 방향으로 이동하는 도넛 모양으로 연결됨.
- RISC-V 코어는 FPU, SFPU를 제어하고 데이터를 준비/이동하는 데 사용됨.
- SFPU는 RISC-V 코어에서 구동할 수 있는 보다 범용적인 SIMT 엔진임.
- SFPU 시뮬레이터를 GitHub에서 사용해 볼 수 있으며, 프로그래밍 모델은 저수준 커널 예제에서 확인 가능함.
- Grayskull SFPU는 64개의 19비트 값을 저장할 수 있는 4개의 범용 LRegs를 가지고 있으며, Wormhole은 32개의 32비트 값을 저장할 수 있는 8개의 범용 LRegs를 가짐.
- Wormhole SFPU는 Grayskull에 비해 약 3배의 IPC 증가와 몇 가지 새로운 SFPU 명령어를 가짐.
- 문서를 검토하고 GitHub 리포지토리를 살펴보면 더 많은 정보를 찾을 수 있음.
-
모델 선택에 대한 의문:
- BERT, ResNet, Whisper, YOLOv5, U-Net 등의 모델로 시작하는 이유에 대해 궁금증을 제기함.
- 전력 효율성을 목표로 하는 것으로 추측되지만, 완전히 일치하지는 않음.
-
시스템 요구 사항에 대한 질문:
- 호스트 시스템에 64GB RAM이 필요한 이유에 대해 의문을 제기함.
- 추론 서버는 추론 하드웨어 외에는 최소한의 구성이어야 하는 것이 아닌가 함.
-
다른 회사의 맞춤형 실리콘과의 비교:
- AWS, Google, Tesla의 맞춤형 실리콘과 이러한 종류의 프로세서를 비교하는 방법에 대해 궁금해함.
-
아키텍처의 유사성:
- 인텔 프로젝트 Larrabee GPU가 작동하려고 했던 방식과 유사하다고 느낌, 단 RISC-V를 사용함.
-
추론 전용 솔루션에 대한 실망:
- Groq, Tenstorrent 등 유망한 스타트업들이 추론 전용 솔루션을 제공하는 것에 대해 지친다고 표현함.
- Groq 공식 채널을 통해 훈련을 가능하게 하는 개발에 투자할 계획이 없다는 정보를 얻음.
- 추론 수요가 훈련 수요보다 수백만 배 많을 수 있기 때문에 이해는 가지만, 여전히 실망스러움을 느낌.
-
Grayskull™ e150의 RISC-V 코어 수:
- Grayskull™ e150은 120개의 Tensix 코어를 가지고 있으며, 각각 5개의 RISC-V 코어를 포함하여 총 600개의 RISC-V CPU 코어를 가짐.
-
성능과 아키텍처에 대한 정보 부족:
- 성능이나 아키텍처에 대한 자세한 정보를 찾을 수 없음.
- ML 중심 장치에 대해 메모리 대역폭이 매우 낮고 가격이 매우 높음.
- 놓치고 있는 것이 무엇인지에 대한 의문을 제기함.