# Cerebras Inference에서 Llama 3.1 405B로 초당 969 토큰을 처리 가능

> Clean Markdown view of GeekNews topic #17859. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=17859](https://news.hada.io/topic?id=17859)
- GeekNews Markdown: [https://news.hada.io/topic/17859.md](https://news.hada.io/topic/17859.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-11-20T09:42:11+09:00
- Updated: 2024-11-20T09:42:11+09:00
- Original source: [cerebras.ai](https://cerebras.ai/blog/llama-405b-inference)
- Points: 3
- Comments: 1

## Topic Body

##### Llama 3.1 405B on Cerebras Inference 하이라이트

- 초당 969개의 출력 토큰 생성 - 최고의 GPU 결과보다 12배 빠름
- 첫 번째 토큰까지의 시간 240ms - 대부분의 API보다 짧음
- 128K 컨텍스트 길이 지원 - 기록된 최고 성능
- 16비트 가중치 - 전체 모델 정확도 유지
- 2025년 1분기 일반 출시 예정, 입력 토큰 백만 개당 $6, 출력 토큰 백만 개당 $12

##### 인스턴트 속도의 프론티어 AI

- Cerebras는 올해 Llama 3.1 8B와 70B를 초당 2,000 토큰 이상으로 밀어 올렸음
- GPT-4o, Claude 3.5 Sonnet, Llama 3.1 405B와 같은 프론티어 모델은 GPU, ASIC, 클라우드에서 초당 200 토큰을 초과한 적이 없었음
- Cerebras Inference는 이러한 문제를 해결하여 Llama 3.1 405B가 128K 컨텍스트에서 완전한 성능을 발휘하도록 함
- 1,000 토큰 프롬프트에서 초당 969개의 출력 토큰을 생성하여 기록을 경신함
- 100,000 토큰 입력 프롬프트에서 539 토큰/초를 달성하여 Fireworks보다 11배, AWS보다 44배 빠름

##### 최상의 지연 시간

- 첫 번째 토큰까지의 시간은 실제 애플리케이션에서 가장 중요한 지표 중 하나임
- Cerebras는 240밀리초로 Llama 3.1-405B를 실행하는 모든 플랫폼 중 가장 빠른 첫 번째 토큰 시간을 제공함
- GPU 기반 솔루션보다 훨씬 빠른 응답 시간으로 사용자 경험을 크게 개선함

##### 가용성

- Llama 3.1-405B를 위한 Cerebras Inference는 현재 고객 시험 중이며, 2025년 1분기에 일반 출시 예정임
- 출력 가격은 AWS, Azure, GCP보다 20% 저렴함

##### 오픈 모델이 가장 빠른 모델

- Meta의 오픈 접근 방식과 Cerebras의 혁신적인 추론 기술 덕분에 Llama 3.1-405B는 폐쇄형 프론티어 모델보다 10배 이상 빠르게 실행됨
- 음성, 비디오, 추론 애플리케이션에 적합한 기반을 제공함

## Comments


### Comment 31516

- Author: neo
- Created: 2024-11-20T09:42:12+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=42178761) 
- Llama 3.1 70b 모델을 8x H100 클러스터에서 구현하는데 100 tok/s를 넘기기 어려움
  - 이 속도를 어떻게 달성했는지 궁금함
  - 다중 노드 추론이나 희소 주의 메커니즘이 필요할 것 같음

- 지연 시간 비교가 공정한지 확신할 수 없음
  - 지연 시간에는 컨텍스트/프롬프트의 처리량, 하드웨어 접근 대기 시간, 기타 API 오버헤드가 포함됨
  - Cerebras의 숫자는 대기 시간이 거의 포함되지 않았을 가능성이 높음

- 높은 처리량을 좋은 지연 시간으로 제공하려면 과도한 프로비저닝이 필요함
  - 대기 시간이 모델 로딩을 포함하는지 여부가 불분명함
  - 배치 작업에서는 Cerebras 머신을 100% 활용하여 1k tokens/s를 지속적으로 얻을 수 있음

- 현재 세대 모델과 RAG, 다중 에이전트, 코드 해석기를 사용하면 모델 지연 시간이 벽이 됨
  - 405B 클래스 모델의 토큰 처리량으로 많은 상호작용 경험이 가능해짐

- Cerebras 칩은 전체 웨이퍼를 사용하며 44GB의 SRAM만 포함함
  - 405B 모델을 bf16 정밀도로 맞추려면 19개의 칩이 필요함
  - 웨이퍼 제조 비용으로 보면 1500개 이상의 H100을 사용하는 것과 같음

- API를 시도하기 위한 대기 목록이 있음
  - 서비스를 구매할 수 없을 때 회사의 주장에 대해 회의적일 필요가 있음

- Nvidia가 Cerebras를 인수할 가능성이 높다고 생각함

- 새로운 하드웨어로 성능 향상이 가능하다는 사실이 인상적임
  - 하드웨어를 통한 훈련 성능 개선의 한계가 궁금함

- 토큰/초/와트 비교를 보고 싶음

- 경쟁사 Groq에 대한 언급이 없음

- 이러한 지연 시간으로 서비스를 제공하는 데 필요한 비용이 궁금함
  - 비용이 얼마나 널리 채택될 수 있는지를 결정함
  - 정말로 지연 시간이 필요한 비즈니스만을 위한 것인지, 일반적으로 배포될 수 있는지 궁금함