# DeepSeek, V3/R1의 추론 시스템 구성 및 운영 비용/수익 공개

> Clean Markdown view of GeekNews topic #19518. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=19518](https://news.hada.io/topic?id=19518)
- GeekNews Markdown: [https://news.hada.io/topic/19518.md](https://news.hada.io/topic/19518.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2025-03-02T09:04:37+09:00
- Updated: 2025-03-02T09:04:37+09:00
- Original source: [github.com/deepseek-ai](https://github.com/deepseek-ai/open-infra-index/blob/main/202502OpenSourceWeek/day_6_one_more_thing_deepseekV3R1_inference_system_overview.md)
- Points: 12
- Comments: 1

## Summary

DeepSeek-V3/R1 추론 시스템은 더 높은 처리량과 낮은 지연 시간을 목표로 크로스-노드 Expert Parallelism(EP)을 적용하여 최적화되었으며, 이를 통해 배치 크기를 확장하고 GPU의 메모리 접근 부담을 줄여 성능을 향상시켰습니다. 운영 비용은 하루 기준 총 $87,072이며, 이론상 하루 수익은 $562,027로 수익률은 545%에 달하지만, 실제 수익은 DeepSeek-V3의 낮은 요금과 일부 무료 서비스 제공으로 인해 더 낮습니다. 시스템은 약 200대가 넘는 노드(노드당 H800 GPU 8개)에서 실행되며, 피크 시간대와 야간 저부하 시간대에 따라 효율적인 리소스 사용 전략을 채택하고 있습니다.

## Topic Body

- 오픈소스 공개 위크 마지막에 시스템 전체 개요와 **운영비용**까지 **원모어띵**으로 깜짝 공개   
### DeepSeek-V3/R1 추론 시스템 오버뷰  
#### 시스템 설계 원칙  
- DeepSeek-V3/R1 추론 시스템의 최적화 목표는 **더 높은 처리량과 낮은 지연 시간**임  
- 이를 위해 **크로스-노드 Expert Parallelism(EP)** 을 적용하여 최적화함.  
  - **처리량 증가**: EP는 배치 크기를 확장하여 GPU 행렬 연산 효율을 높이고 처리량을 증가시킴.  
  - **지연 시간 감소**: 전문가(Expert)를 여러 GPU에 분산하여 개별 GPU의 메모리 접근 부담을 줄임으로써 지연 시간을 낮춤.  
- 그러나, EP는 시스템 복잡도를 증가시킴:  
  - **크로스-노드 통신 필요**: 통신과 연산을 겹쳐 실행하여 병목을 방지해야 함.  
  - **다중 노드 사용**: Data Parallelism(DP)을 적용해야 하며, DP 간 로드 밸런싱이 필요함.  
#### 대규모 크로스-노드 Expert Parallelism(EP)  
- DeepSeek-V3/R1 모델은 각 레이어에서 256개 전문가 중 **8개만 활성화**되므로 **배치 크기 확장**이 필수적임  
- **Prefill 및 Decode 단계별 병렬성 차이**:  
  - **Prefill 단계**: EP32, DP32 (4개 노드, 각 GPU가 9개의 전문가 처리)  
  - **Decode 단계**: EP144, DP144 (18개 노드, 각 GPU가 2개의 전문가 처리)  
#### 연산-통신 중첩(Computation-Communication Overlapping)  
- EP는 크로스-노드 통신 비용을 증가시키므로, **이중 배치 오버랩 전략**을 사용하여 이를 줄임.  
  - **Prefill 단계**: 두 개의 마이크로배치를 교차 실행하여 한 배치의 통신을 다른 배치의 연산 뒤에 숨김.  
  - **Decode 단계**: 주의(attention) 레이어를 두 단계로 나누고 **5단계 파이프라인**을 사용하여 연산-통신 중첩을 극대화함.  
#### 최적 로드 밸런싱 구현  
- GPU 간 불균형을 방지하고 리소스 활용을 극대화하기 위해, **세 가지 로드 밸런싱 기법**을 적용함.  
- 1. **Prefill 로드 밸런서**  
  - **문제**: 요청 개수 및 시퀀스 길이 차이로 인해 코어-어텐션 연산 및 데이터 전송 부하가 불균형해짐.  
  - **목표**:  
    - GPU 간 코어-어텐션 연산 부하 균형 유지.  
    - GPU당 입력 토큰 개수 균등화.  
- 2. **Decode 로드 밸런서**  
  - **문제**: KVCache 사용량 차이로 GPU 간 연산 부하가 다름.  
  - **목표**:  
    - GPU 간 KVCache 사용량 균형 유지.  
    - GPU당 요청 개수 균등화.  
- 3. **Expert-Parallel 로드 밸런서**  
  - **문제**: 특정 전문가(Expert)의 부하가 높아 GPU 간 연산 불균형이 발생함.  
  - **목표**:  
    - 각 GPU의 전문가 연산 부하 균형 유지.  
  
#### DeepSeek 온라인 추론 시스템 통계  
- DeepSeek-V3/R1 추론 서비스는 **H800 GPU**에서 실행되며, 훈련과 동일한 연산 정밀도를 유지함  
  - **FP8**: 행렬 연산 및 데이터 전송  
  - **BF16**: 핵심 MLA 연산 및 조합 전송  
- 피크 및 야간 운영 전략  
  - 낮 동안 서비스 부하가 높고, 밤에는 부하가 감소함  
  - **피크 시간대**: 모든 노드를 활용하여 추론 서비스 실행  
  - **야간 저부하 시간대**: 일부 노드를 연구 및 훈련 용도로 전환하여 효율적인 리소스 사용  
- **24시간 운영 통계** (UTC+8, 2025-02-27 12:00 PM ~ 2025-02-28 12:00 PM)  
  - 총 입력 토큰: **608B** (이 중 56.3%인 **342B**는 KV 캐시 적중)  
  - 총 출력 토큰: **168B** (평균 출력 속도 **20~22 토큰/s**)  
  - 평균 **KVCache 길이**: 출력 토큰당 **4,989 토큰**  
  - **H800 노드당 처리 속도**:  
    - **Prefill 단계**: 73.7k 토큰/s (캐시 적중 포함)  
    - **Decode 단계**: 14.8k 토큰/s  
  
#### 운영 비용 및 수익 분석 : V3 & R1 의 UTC+8 02/27/2025 12:00 PM to 02/28/2025 12:00 PM 하루치 기준  
- **GPU 사용량**: 피크 시 278개 노드, 평균 226.75개 노드 (각 노드당 8개의 H800 GPU 포함)  
- **GPU 임대 비용**: H800 GPU 한 대당 $2/시간 → **총 하루 운영 비용: $87,072**  
- **모든 토큰이 과금 대상이라 가정하면 이론상 하루 수익**: $562,027 → **수익률 545%**  
  - (R1의 입력/출력 토큰 가격: $0.14M(캐시 적중), $0.55M(캐시 미적중), $2.19M)  
- 그러나, 실제 수익은 더 낮음:  
  - DeepSeek-V3 요금이 R1보다 훨씬 낮음  
  - 서비스의 일부만 수익화(웹 및 앱 사용은 무료로 제공됨)  
  - 야간에는 자동 할인 적용  
  
### [DeepSeek Open Infra 로 공개되는 5개 오픈소스](https://news.hada.io/topic?id=19359) 중 마지막 원모어띵으로 공개

## Comments


### Comment 35316

- Author: sppappi
- Created: 2025-03-03T08:02:19+09:00
- Points: 1

질문 3개하면 먹통이 되버리는..