12P by xguru 13일전 | ★ favorite | 댓글 1개
  • 오픈소스 공개 위크 마지막에 시스템 전체 개요와 운영비용까지 원모어띵으로 깜짝 공개

DeepSeek-V3/R1 추론 시스템 오버뷰

시스템 설계 원칙

  • DeepSeek-V3/R1 추론 시스템의 최적화 목표는 더 높은 처리량과 낮은 지연 시간
  • 이를 위해 크로스-노드 Expert Parallelism(EP) 을 적용하여 최적화함.
    • 처리량 증가: EP는 배치 크기를 확장하여 GPU 행렬 연산 효율을 높이고 처리량을 증가시킴.
    • 지연 시간 감소: 전문가(Expert)를 여러 GPU에 분산하여 개별 GPU의 메모리 접근 부담을 줄임으로써 지연 시간을 낮춤.
  • 그러나, EP는 시스템 복잡도를 증가시킴:
    • 크로스-노드 통신 필요: 통신과 연산을 겹쳐 실행하여 병목을 방지해야 함.
    • 다중 노드 사용: Data Parallelism(DP)을 적용해야 하며, DP 간 로드 밸런싱이 필요함.

대규모 크로스-노드 Expert Parallelism(EP)

  • DeepSeek-V3/R1 모델은 각 레이어에서 256개 전문가 중 8개만 활성화되므로 배치 크기 확장이 필수적임
  • Prefill 및 Decode 단계별 병렬성 차이:
    • Prefill 단계: EP32, DP32 (4개 노드, 각 GPU가 9개의 전문가 처리)
    • Decode 단계: EP144, DP144 (18개 노드, 각 GPU가 2개의 전문가 처리)

연산-통신 중첩(Computation-Communication Overlapping)

  • EP는 크로스-노드 통신 비용을 증가시키므로, 이중 배치 오버랩 전략을 사용하여 이를 줄임.
    • Prefill 단계: 두 개의 마이크로배치를 교차 실행하여 한 배치의 통신을 다른 배치의 연산 뒤에 숨김.
    • Decode 단계: 주의(attention) 레이어를 두 단계로 나누고 5단계 파이프라인을 사용하여 연산-통신 중첩을 극대화함.

최적 로드 밸런싱 구현

  • GPU 간 불균형을 방지하고 리소스 활용을 극대화하기 위해, 세 가지 로드 밸런싱 기법을 적용함.
    1. Prefill 로드 밸런서
    • 문제: 요청 개수 및 시퀀스 길이 차이로 인해 코어-어텐션 연산 및 데이터 전송 부하가 불균형해짐.
    • 목표:
      • GPU 간 코어-어텐션 연산 부하 균형 유지.
      • GPU당 입력 토큰 개수 균등화.
    1. Decode 로드 밸런서
    • 문제: KVCache 사용량 차이로 GPU 간 연산 부하가 다름.
    • 목표:
      • GPU 간 KVCache 사용량 균형 유지.
      • GPU당 요청 개수 균등화.
    1. Expert-Parallel 로드 밸런서
    • 문제: 특정 전문가(Expert)의 부하가 높아 GPU 간 연산 불균형이 발생함.
    • 목표:
      • 각 GPU의 전문가 연산 부하 균형 유지.

DeepSeek 온라인 추론 시스템 통계

  • DeepSeek-V3/R1 추론 서비스는 H800 GPU에서 실행되며, 훈련과 동일한 연산 정밀도를 유지함
    • FP8: 행렬 연산 및 데이터 전송
    • BF16: 핵심 MLA 연산 및 조합 전송
  • 피크 및 야간 운영 전략
    • 낮 동안 서비스 부하가 높고, 밤에는 부하가 감소함
    • 피크 시간대: 모든 노드를 활용하여 추론 서비스 실행
    • 야간 저부하 시간대: 일부 노드를 연구 및 훈련 용도로 전환하여 효율적인 리소스 사용
  • 24시간 운영 통계 (UTC+8, 2025-02-27 12:00 PM ~ 2025-02-28 12:00 PM)
    • 총 입력 토큰: 608B (이 중 56.3%인 342B는 KV 캐시 적중)
    • 총 출력 토큰: 168B (평균 출력 속도 20~22 토큰/s)
    • 평균 KVCache 길이: 출력 토큰당 4,989 토큰
    • H800 노드당 처리 속도:
      • Prefill 단계: 73.7k 토큰/s (캐시 적중 포함)
      • Decode 단계: 14.8k 토큰/s

운영 비용 및 수익 분석 : V3 & R1 의 UTC+8 02/27/2025 12:00 PM to 02/28/2025 12:00 PM 하루치 기준

  • GPU 사용량: 피크 시 278개 노드, 평균 226.75개 노드 (각 노드당 8개의 H800 GPU 포함)
  • GPU 임대 비용: H800 GPU 한 대당 $2/시간 → 총 하루 운영 비용: $87,072
  • 모든 토큰이 과금 대상이라 가정하면 이론상 하루 수익: $562,027 → 수익률 545%
    • (R1의 입력/출력 토큰 가격: $0.14M(캐시 적중), $0.55M(캐시 미적중), $2.19M)
  • 그러나, 실제 수익은 더 낮음:
    • DeepSeek-V3 요금이 R1보다 훨씬 낮음
    • 서비스의 일부만 수익화(웹 및 앱 사용은 무료로 제공됨)
    • 야간에는 자동 할인 적용

DeepSeek Open Infra 로 공개되는 5개 오픈소스 중 마지막 원모어띵으로 공개

질문 3개하면 먹통이 되버리는..