Llama 3.1 405B on Cerebras Inference 하이라이트
- 초당 969개의 출력 토큰 생성 - 최고의 GPU 결과보다 12배 빠름
- 첫 번째 토큰까지의 시간 240ms - 대부분의 API보다 짧음
- 128K 컨텍스트 길이 지원 - 기록된 최고 성능
- 16비트 가중치 - 전체 모델 정확도 유지
- 2025년 1분기 일반 출시 예정, 입력 토큰 백만 개당 $6, 출력 토큰 백만 개당 $12
인스턴트 속도의 프론티어 AI
- Cerebras는 올해 Llama 3.1 8B와 70B를 초당 2,000 토큰 이상으로 밀어 올렸음
- GPT-4o, Claude 3.5 Sonnet, Llama 3.1 405B와 같은 프론티어 모델은 GPU, ASIC, 클라우드에서 초당 200 토큰을 초과한 적이 없었음
- Cerebras Inference는 이러한 문제를 해결하여 Llama 3.1 405B가 128K 컨텍스트에서 완전한 성능을 발휘하도록 함
- 1,000 토큰 프롬프트에서 초당 969개의 출력 토큰을 생성하여 기록을 경신함
- 100,000 토큰 입력 프롬프트에서 539 토큰/초를 달성하여 Fireworks보다 11배, AWS보다 44배 빠름
최상의 지연 시간
- 첫 번째 토큰까지의 시간은 실제 애플리케이션에서 가장 중요한 지표 중 하나임
- Cerebras는 240밀리초로 Llama 3.1-405B를 실행하는 모든 플랫폼 중 가장 빠른 첫 번째 토큰 시간을 제공함
- GPU 기반 솔루션보다 훨씬 빠른 응답 시간으로 사용자 경험을 크게 개선함
가용성
- Llama 3.1-405B를 위한 Cerebras Inference는 현재 고객 시험 중이며, 2025년 1분기에 일반 출시 예정임
- 출력 가격은 AWS, Azure, GCP보다 20% 저렴함
오픈 모델이 가장 빠른 모델
- Meta의 오픈 접근 방식과 Cerebras의 혁신적인 추론 기술 덕분에 Llama 3.1-405B는 폐쇄형 프론티어 모델보다 10배 이상 빠르게 실행됨
- 음성, 비디오, 추론 애플리케이션에 적합한 기반을 제공함
Hacker News 의견
-
Llama 3.1 70b 모델을 8x H100 클러스터에서 구현하는데 100 tok/s를 넘기기 어려움
- 이 속도를 어떻게 달성했는지 궁금함
- 다중 노드 추론이나 희소 주의 메커니즘이 필요할 것 같음
-
지연 시간 비교가 공정한지 확신할 수 없음
- 지연 시간에는 컨텍스트/프롬프트의 처리량, 하드웨어 접근 대기 시간, 기타 API 오버헤드가 포함됨
- Cerebras의 숫자는 대기 시간이 거의 포함되지 않았을 가능성이 높음
-
높은 처리량을 좋은 지연 시간으로 제공하려면 과도한 프로비저닝이 필요함
- 대기 시간이 모델 로딩을 포함하는지 여부가 불분명함
- 배치 작업에서는 Cerebras 머신을 100% 활용하여 1k tokens/s를 지속적으로 얻을 수 있음
-
현재 세대 모델과 RAG, 다중 에이전트, 코드 해석기를 사용하면 모델 지연 시간이 벽이 됨
- 405B 클래스 모델의 토큰 처리량으로 많은 상호작용 경험이 가능해짐
-
Cerebras 칩은 전체 웨이퍼를 사용하며 44GB의 SRAM만 포함함
- 405B 모델을 bf16 정밀도로 맞추려면 19개의 칩이 필요함
- 웨이퍼 제조 비용으로 보면 1500개 이상의 H100을 사용하는 것과 같음
-
API를 시도하기 위한 대기 목록이 있음
- 서비스를 구매할 수 없을 때 회사의 주장에 대해 회의적일 필요가 있음
-
Nvidia가 Cerebras를 인수할 가능성이 높다고 생각함
-
새로운 하드웨어로 성능 향상이 가능하다는 사실이 인상적임
- 하드웨어를 통한 훈련 성능 개선의 한계가 궁금함
-
토큰/초/와트 비교를 보고 싶음
-
경쟁사 Groq에 대한 언급이 없음
-
이러한 지연 시간으로 서비스를 제공하는 데 필요한 비용이 궁금함
- 비용이 얼마나 널리 채택될 수 있는지를 결정함
- 정말로 지연 시간이 필요한 비즈니스만을 위한 것인지, 일반적으로 배포될 수 있는지 궁금함