- 오픈소스 공개 위크 마지막에 시스템 전체 개요와 운영비용까지 원모어띵으로 깜짝 공개
DeepSeek-V3/R1 추론 시스템 오버뷰
시스템 설계 원칙
- DeepSeek-V3/R1 추론 시스템의 최적화 목표는 더 높은 처리량과 낮은 지연 시간임
- 이를 위해 크로스-노드 Expert Parallelism(EP) 을 적용하여 최적화함.
-
처리량 증가: EP는 배치 크기를 확장하여 GPU 행렬 연산 효율을 높이고 처리량을 증가시킴.
-
지연 시간 감소: 전문가(Expert)를 여러 GPU에 분산하여 개별 GPU의 메모리 접근 부담을 줄임으로써 지연 시간을 낮춤.
- 그러나, EP는 시스템 복잡도를 증가시킴:
-
크로스-노드 통신 필요: 통신과 연산을 겹쳐 실행하여 병목을 방지해야 함.
-
다중 노드 사용: Data Parallelism(DP)을 적용해야 하며, DP 간 로드 밸런싱이 필요함.
대규모 크로스-노드 Expert Parallelism(EP)
- DeepSeek-V3/R1 모델은 각 레이어에서 256개 전문가 중 8개만 활성화되므로 배치 크기 확장이 필수적임
-
Prefill 및 Decode 단계별 병렬성 차이:
-
Prefill 단계: EP32, DP32 (4개 노드, 각 GPU가 9개의 전문가 처리)
-
Decode 단계: EP144, DP144 (18개 노드, 각 GPU가 2개의 전문가 처리)
연산-통신 중첩(Computation-Communication Overlapping)
- EP는 크로스-노드 통신 비용을 증가시키므로, 이중 배치 오버랩 전략을 사용하여 이를 줄임.
-
Prefill 단계: 두 개의 마이크로배치를 교차 실행하여 한 배치의 통신을 다른 배치의 연산 뒤에 숨김.
-
Decode 단계: 주의(attention) 레이어를 두 단계로 나누고 5단계 파이프라인을 사용하여 연산-통신 중첩을 극대화함.
최적 로드 밸런싱 구현
- GPU 간 불균형을 방지하고 리소스 활용을 극대화하기 위해, 세 가지 로드 밸런싱 기법을 적용함.
-
-
Prefill 로드 밸런서
-
문제: 요청 개수 및 시퀀스 길이 차이로 인해 코어-어텐션 연산 및 데이터 전송 부하가 불균형해짐.
-
목표:
- GPU 간 코어-어텐션 연산 부하 균형 유지.
- GPU당 입력 토큰 개수 균등화.
-
-
Decode 로드 밸런서
-
문제: KVCache 사용량 차이로 GPU 간 연산 부하가 다름.
-
목표:
- GPU 간 KVCache 사용량 균형 유지.
- GPU당 요청 개수 균등화.
-
-
Expert-Parallel 로드 밸런서
-
문제: 특정 전문가(Expert)의 부하가 높아 GPU 간 연산 불균형이 발생함.
-
목표:
DeepSeek 온라인 추론 시스템 통계
- DeepSeek-V3/R1 추론 서비스는 H800 GPU에서 실행되며, 훈련과 동일한 연산 정밀도를 유지함
-
FP8: 행렬 연산 및 데이터 전송
-
BF16: 핵심 MLA 연산 및 조합 전송
- 피크 및 야간 운영 전략
- 낮 동안 서비스 부하가 높고, 밤에는 부하가 감소함
-
피크 시간대: 모든 노드를 활용하여 추론 서비스 실행
-
야간 저부하 시간대: 일부 노드를 연구 및 훈련 용도로 전환하여 효율적인 리소스 사용
-
24시간 운영 통계 (UTC+8, 2025-02-27 12:00 PM ~ 2025-02-28 12:00 PM)
- 총 입력 토큰: 608B (이 중 56.3%인 342B는 KV 캐시 적중)
- 총 출력 토큰: 168B (평균 출력 속도 20~22 토큰/s)
- 평균 KVCache 길이: 출력 토큰당 4,989 토큰
-
H800 노드당 처리 속도:
-
Prefill 단계: 73.7k 토큰/s (캐시 적중 포함)
-
Decode 단계: 14.8k 토큰/s
운영 비용 및 수익 분석 : V3 & R1 의 UTC+8 02/27/2025 12:00 PM to 02/28/2025 12:00 PM 하루치 기준
-
GPU 사용량: 피크 시 278개 노드, 평균 226.75개 노드 (각 노드당 8개의 H800 GPU 포함)
-
GPU 임대 비용: H800 GPU 한 대당 $2/시간 → 총 하루 운영 비용: $87,072
-
모든 토큰이 과금 대상이라 가정하면 이론상 하루 수익: $562,027 → 수익률 545%
- (R1의 입력/출력 토큰 가격: $0.14M(캐시 적중), $0.55M(캐시 미적중), $2.19M)
- 그러나, 실제 수익은 더 낮음:
- DeepSeek-V3 요금이 R1보다 훨씬 낮음
- 서비스의 일부만 수익화(웹 및 앱 사용은 무료로 제공됨)
- 야간에는 자동 할인 적용