Cerebras Inference에서 Llama 3.1 405B로 초당 969 토큰을 처리 가능

(cerebras.ai)

3P by GN⁺ 8달전 | ★ favorite | 댓글 1개

Llama 3.1 405B on Cerebras Inference 하이라이트

초당 969개의 출력 토큰 생성 - 최고의 GPU 결과보다 12배 빠름
첫 번째 토큰까지의 시간 240ms - 대부분의 API보다 짧음
128K 컨텍스트 길이 지원 - 기록된 최고 성능
16비트 가중치 - 전체 모델 정확도 유지
2025년 1분기 일반 출시 예정, 입력 토큰 백만 개당 $6, 출력 토큰 백만 개당 $12

인스턴트 속도의 프론티어 AI

Cerebras는 올해 Llama 3.1 8B와 70B를 초당 2,000 토큰 이상으로 밀어 올렸음
GPT-4o, Claude 3.5 Sonnet, Llama 3.1 405B와 같은 프론티어 모델은 GPU, ASIC, 클라우드에서 초당 200 토큰을 초과한 적이 없었음
Cerebras Inference는 이러한 문제를 해결하여 Llama 3.1 405B가 128K 컨텍스트에서 완전한 성능을 발휘하도록 함
1,000 토큰 프롬프트에서 초당 969개의 출력 토큰을 생성하여 기록을 경신함
100,000 토큰 입력 프롬프트에서 539 토큰/초를 달성하여 Fireworks보다 11배, AWS보다 44배 빠름

최상의 지연 시간

첫 번째 토큰까지의 시간은 실제 애플리케이션에서 가장 중요한 지표 중 하나임
Cerebras는 240밀리초로 Llama 3.1-405B를 실행하는 모든 플랫폼 중 가장 빠른 첫 번째 토큰 시간을 제공함
GPU 기반 솔루션보다 훨씬 빠른 응답 시간으로 사용자 경험을 크게 개선함

가용성

Llama 3.1-405B를 위한 Cerebras Inference는 현재 고객 시험 중이며, 2025년 1분기에 일반 출시 예정임
출력 가격은 AWS, Azure, GCP보다 20% 저렴함

오픈 모델이 가장 빠른 모델

Meta의 오픈 접근 방식과 Cerebras의 혁신적인 추론 기술 덕분에 Llama 3.1-405B는 폐쇄형 프론티어 모델보다 10배 이상 빠르게 실행됨
음성, 비디오, 추론 애플리케이션에 적합한 기반을 제공함

▲

GN⁺ 8달전 [-]

Hacker News 의견

Llama 3.1 70b 모델을 8x H100 클러스터에서 구현하는데 100 tok/s를 넘기기 어려움
- 이 속도를 어떻게 달성했는지 궁금함
- 다중 노드 추론이나 희소 주의 메커니즘이 필요할 것 같음
지연 시간 비교가 공정한지 확신할 수 없음
- 지연 시간에는 컨텍스트/프롬프트의 처리량, 하드웨어 접근 대기 시간, 기타 API 오버헤드가 포함됨
- Cerebras의 숫자는 대기 시간이 거의 포함되지 않았을 가능성이 높음
높은 처리량을 좋은 지연 시간으로 제공하려면 과도한 프로비저닝이 필요함
- 대기 시간이 모델 로딩을 포함하는지 여부가 불분명함
- 배치 작업에서는 Cerebras 머신을 100% 활용하여 1k tokens/s를 지속적으로 얻을 수 있음
현재 세대 모델과 RAG, 다중 에이전트, 코드 해석기를 사용하면 모델 지연 시간이 벽이 됨
- 405B 클래스 모델의 토큰 처리량으로 많은 상호작용 경험이 가능해짐
Cerebras 칩은 전체 웨이퍼를 사용하며 44GB의 SRAM만 포함함
- 405B 모델을 bf16 정밀도로 맞추려면 19개의 칩이 필요함
- 웨이퍼 제조 비용으로 보면 1500개 이상의 H100을 사용하는 것과 같음
API를 시도하기 위한 대기 목록이 있음
- 서비스를 구매할 수 없을 때 회사의 주장에 대해 회의적일 필요가 있음
Nvidia가 Cerebras를 인수할 가능성이 높다고 생각함
새로운 하드웨어로 성능 향상이 가능하다는 사실이 인상적임
- 하드웨어를 통한 훈련 성능 개선의 한계가 궁금함
토큰/초/와트 비교를 보고 싶음
경쟁사 Groq에 대한 언급이 없음
이러한 지연 시간으로 서비스를 제공하는 데 필요한 비용이 궁금함
- 비용이 얼마나 널리 채택될 수 있는지를 결정함
- 정말로 지연 시간이 필요한 비즈니스만을 위한 것인지, 일반적으로 배포될 수 있는지 궁금함

답변달기