수익 공개

(github.com/deepseek-ai)

DeepSeek-V3/R1 추론 시스템 오버뷰

DeepSeek-V3/R1 추론 시스템의 최적화 목표는 더 높은 처리량과 낮은 지연 시간임
이를 위해 크로스-노드 Expert Parallelism(EP) 을 적용하여 최적화함.
- 처리량 증가: EP는 배치 크기를 확장하여 GPU 행렬 연산 효율을 높이고 처리량을 증가시킴.
- 지연 시간 감소: 전문가(Expert)를 여러 GPU에 분산하여 개별 GPU의 메모리 접근 부담을 줄임으로써 지연 시간을 낮춤.
그러나, EP는 시스템 복잡도를 증가시킴:
- 크로스-노드 통신 필요: 통신과 연산을 겹쳐 실행하여 병목을 방지해야 함.
- 다중 노드 사용: Data Parallelism(DP)을 적용해야 하며, DP 간 로드 밸런싱이 필요함.

DeepSeek-V3/R1 모델은 각 레이어에서 256개 전문가 중 8개만 활성화되므로 배치 크기 확장이 필수적임
Prefill 및 Decode 단계별 병렬성 차이:
- Prefill 단계: EP32, DP32 (4개 노드, 각 GPU가 9개의 전문가 처리)
- Decode 단계: EP144, DP144 (18개 노드, 각 GPU가 2개의 전문가 처리)

EP는 크로스-노드 통신 비용을 증가시키므로, 이중 배치 오버랩 전략을 사용하여 이를 줄임.
- Prefill 단계: 두 개의 마이크로배치를 교차 실행하여 한 배치의 통신을 다른 배치의 연산 뒤에 숨김.
- Decode 단계: 주의(attention) 레이어를 두 단계로 나누고 5단계 파이프라인을 사용하여 연산-통신 중첩을 극대화함.

GPU 간 불균형을 방지하고 리소스 활용을 극대화하기 위해, 세 가지 로드 밸런싱 기법을 적용함.
1. Prefill 로드 밸런서
- 문제: 요청 개수 및 시퀀스 길이 차이로 인해 코어-어텐션 연산 및 데이터 전송 부하가 불균형해짐.
- 목표:
  - GPU 간 코어-어텐션 연산 부하 균형 유지.
  - GPU당 입력 토큰 개수 균등화.
1. Decode 로드 밸런서
- 문제: KVCache 사용량 차이로 GPU 간 연산 부하가 다름.
- 목표:
  - GPU 간 KVCache 사용량 균형 유지.
  - GPU당 요청 개수 균등화.
1. Expert-Parallel 로드 밸런서
- 문제: 특정 전문가(Expert)의 부하가 높아 GPU 간 연산 불균형이 발생함.
- 목표:
  - 각 GPU의 전문가 연산 부하 균형 유지.

DeepSeek-V3/R1 추론 서비스는 H800 GPU에서 실행되며, 훈련과 동일한 연산 정밀도를 유지함
- FP8: 행렬 연산 및 데이터 전송
- BF16: 핵심 MLA 연산 및 조합 전송
피크 및 야간 운영 전략
- 낮 동안 서비스 부하가 높고, 밤에는 부하가 감소함
- 피크 시간대: 모든 노드를 활용하여 추론 서비스 실행
- 야간 저부하 시간대: 일부 노드를 연구 및 훈련 용도로 전환하여 효율적인 리소스 사용
24시간 운영 통계 (UTC+8, 2025-02-27 12:00 PM ~ 2025-02-28 12:00 PM)
- 총 입력 토큰: 608B (이 중 56.3%인 342B는 KV 캐시 적중)
- 총 출력 토큰: 168B (평균 출력 속도 20~22 토큰/s)
- 평균 KVCache 길이: 출력 토큰당 4,989 토큰
- H800 노드당 처리 속도:
  - Prefill 단계: 73.7k 토큰/s (캐시 적중 포함)
  - Decode 단계: 14.8k 토큰/s

GPU 사용량: 피크 시 278개 노드, 평균 226.75개 노드 (각 노드당 8개의 H800 GPU 포함)
GPU 임대 비용: H800 GPU 한 대당 $2/시간 → 총 하루 운영 비용: $87,072
모든 토큰이 과금 대상이라 가정하면 이론상 하루 수익: $562,027 → 수익률 545%
- (R1의 입력/출력 토큰 가격: $0.14M(캐시 적중), $0.55M(캐시 미적중), $2.19M)
그러나, 실제 수익은 더 낮음:
- DeepSeek-V3 요금이 R1보다 훨씬 낮음
- 서비스의 일부만 수익화(웹 및 앱 사용은 무료로 제공됨)
- 야간에는 자동 할인 적용

GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기

질문 3개하면 먹통이 되버리는..