# DeepSeek, DeepEP 오픈소스 공개 (2 of 5)

> Clean Markdown view of GeekNews topic #19421. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=19421](https://news.hada.io/topic?id=19421)
- GeekNews Markdown: [https://news.hada.io/topic/19421.md](https://news.hada.io/topic/19421.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2025-02-25T12:08:51+09:00
- Updated: 2025-02-25T12:08:51+09:00
- Original source: [github.com/deepseek-ai](https://github.com/deepseek-ai/DeepEP)
- Points: 3
- Comments: 0

## Topic Body

- Mixture-of-Experts(MoE) 및 Expert Parallelism(EP)을 위한 **고성능 통신 라이브러리**  
- GPU 기반 **All-to-All 커널**을 제공하여 MoE 디스패치 및 결합 연산을 고속으로 처리  
- **FP8**과 같은 저정밀 연산 지원  
- **DeepSeek-V3** 논문에서 제안한 **그룹 제한 게이팅(group-limited gating) 알고리즘**을 적용하여 **비대칭 도메인 대역폭 포워딩**을 최적화  
  - 예: **NVLink → RDMA** 데이터 전송 최적화  
  - 훈련 및 **추론 프리필링(prefilling)** 작업에 적합한 높은 처리량 제공  
- 지연시간에 민감한 추론 디코딩을 위해 **RDMA 전용 저지연 커널** 포함  
- **통신-연산 오버랩 기법** 제공 (SM 리소스를 점유하지 않음)  
  
### 성능  
  
#### 일반 커널 (NVLink 및 RDMA 전송)  
- DeepEP는 **H800 GPU**와 **CX7 InfiniBand 400Gb/s RDMA 네트워크** 환경에서 성능을 테스트함  
- DeepSeek-V3/R1 설정을 기반으로, 배치당 4096개 토큰, 7168개 히든 노드, top-4 그룹, top-8 전문가 구조를 적용하고, FP8 디스패칭 및 BF16 결합을 사용함  
- 성능 테스트 결과, **노드 내부(NVLink 기반) 통신은 약 150GB/s 이상의 대역폭**을 보였으며, **노드 간(RDMA 기반) 통신은 전문가 수에 따라 40~47GB/s 수준의 대역폭**을 기록함  
- 전문가 수가 많아질수록 RDMA 대역폭이 소폭 증가하는 경향을 보였음 (예: 16명 전문가일 때 43GB/s, 64명 전문가일 때 46GB/s)  
  
#### 저지연 커널 (순수 RDMA)  
- 저지연 커널의 성능을 측정한 결과, 일반 커널보다 **지연시간(latency)이 크게 단축됨**  
- 배치당 128개 토큰을 처리하는 환경에서, 전문가 수에 따라 지연시간이 증가했지만 RDMA 대역폭은 비교적 일정하게 유지됨  
- 예를 들어, 전문가 8명일 때 **163마이크로초(us)**, 전문가 256명일 때 **194마이크로초(us)** 수준으로 증가하였음  
- 결합(combine) 연산에서는 디스패치보다 더 높은 지연시간이 발생했으며, 전문가 수가 증가할수록 RDMA 대역폭이 **40GB/s 이하로 점진적으로 감소**하는 경향을 보임  
- 즉, **저지연 커널은 작은 규모의 전문가 그룹에서는 매우 빠르게 동작하지만, 전문가 수가 많아지면 지연시간이 늘어나므로 적절한 균형이 필요함**  
  
### 네트워크 설정  
  
#### 트래픽 격리 (Traffic Isolation)  
- InfiniBand의 **Virtual Lanes(VL)** 을 활용하여 트래픽을 격리 가능  
- 권장 분리 방식:  
  - 일반 커널 사용 작업  
  - 저지연 커널 사용 작업  
  - 기타 작업  
- `NVSHMEM_IB_SL` 환경 변수를 통해 VL 설정 가능  
  
#### 적응형 라우팅 (Adaptive Routing)  
- InfiniBand 스위치의 **적응형 라우팅**을 지원  
- **저지연 커널에서는 활성화 가능**, 일반 커널에서는 비활성화 필요 (활성화 시 데이터 손상 위험)  
- 설정 권장 사항:  
  - **네트워크 부하가 높은 경우**: 적응형 라우팅 활성화  
  - **네트워크 부하가 낮은 경우**: 정적 라우팅 유지  
  
#### 혼잡 제어 (Congestion Control)  
- DeepEP는 혼잡 제어 기능을 비활성화한 상태로 운영  
- 실제 환경에서 네트워크 혼잡이 심각하지 않음을 확인함  
  
### 주요 기술적 고려 사항  
- **비공식 PTX 명령어 사용**: `ld.global.nc.L1::no_allocate.L2::256B`를 활용하여 성능 최적화  
  - Hopper 아키텍처에서는 정상 작동하지만, 다른 플랫폼에서는 `DISABLE_AGGRESSIVE_PTX_INSTRS=1`을 설정하여 비활성화 가능  
- **자동 튜닝 권장**: 최적의 성능을 위해 클러스터별 성능 테스트 후 설정 적용 필요  
  
### [DeepSeek Open Infra 로 공개되는 5개 오픈소스](https://news.hada.io/topic?id=19359) 중 두번째 임

## Comments


_No public comments on this page._