DeepSeek Open Infra: 5일간 5개의 AI 저장소 오픈소스로 공개

(github.com/deepseek-ai)

9P by GN⁺ 2025-02-22 | ★ favorite | 댓글 2개

DeepSeek AI 팀은 AGI 탐구에서 한계를 넘기 위해 노력하고 있음
다음 주부터 5개의 저장소를 오픈 소스로 공개할 예정이며, 이는 개발자로서의 작은 진전을 투명하게 공유하기 위함
이들은 온라인 서비스의 기본 구성 요소로, 문서화되고 배포되어 실제 환경에서 테스트된 코드임
매일 새로운 코드가 공개될 예정이며, 이는 커뮤니티 주도의 혁신을 촉진하기 위함임

Day 1: FlashMLA

Hopper GPU를 위한 효율적인 MLA 디코딩 커널
가변 길이 시퀀스 서빙을 위해 최적화 됨
현재 릴리즈 된 것
- BF16
- 64 블록사이즈 Paged kvcache
벤치마크: CUDA 12.6을 사용하여 H800 SXM5에서 메모리 바운드 구성에서 최대 3000GB/s, 연산 바운드 구성에서 580 TFLOPS를 달성

Day 2: DeepEP

Mixture-of-Experts(MoE) 및 Expert Parallelism(EP)을 위한 고성능 통신 라이브러리
GPU 기반 All-to-All 커널을 제공하여 MoE 디스패치 및 결합 연산을 고속으로 처리
FP8과 같은 저정밀 연산 지원
DeepSeek-V3 논문에서 제안한 그룹 제한 게이팅(group-limited gating) 알고리즘을 적용하여 비대칭 도메인 대역폭 포워딩을 최적화
- 예: NVLink → RDMA 데이터 전송 최적화
- 훈련 및 추론 프리필링(prefilling) 작업에 적합한 높은 처리량 제공
지연시간에 민감한 추론 디코딩을 위해 RDMA 전용 저지연 커널 포함
통신-연산 오버랩 기법 제공 (SM 리소스를 점유하지 않음)

Day 3: DeepGEMM

FP8 행렬 곱셈(GEMM) 을 효율적으로 수행하는 라이브러리로, DeepSeek-V3에서 제안된 미세 조정 스케일링(fine-grained scaling) 방식을 지원함
일반 GEMM과 Mix-of-Experts(MoE) 그룹화 GEMM을 모두 지원
CUDA 기반으로 구현되었으며, 설치 시 별도 컴파일 없이 경량 Just-In-Time(JIT) 모듈을 사용하여 런타임에서 커널을 컴파일함
현재 NVIDIA Hopper 텐서 코어 전용으로 지원
FP8 텐서 코어의 부정확한 누적 연산을 보완하기 위해 CUDA 코어 기반 이중 누적(promotion) 사용
CUTLASS 및 CuTe의 일부 개념을 활용하지만, 복잡한 템플릿 의존성을 줄여 약 300줄의 커널 코드만 포함하는 단순한 설계
Hopper FP8 행렬 연산 및 최적화 기법을 학습하기에 적합
경량 설계에도 불구하고 다양한 행렬 크기에서 전문가 수준으로 튜닝된 라이브러리와 유사하거나 더 나은 성능을 보임

Day 4: 최적화된 병렬 처리전략 : DualPipe, EPLB, Profile-Data

DeepSeek V3/R1에서 사용했던 전략 및 코드들
- DualPipe : 계산-통신 오버랩을 위한 양방향 파이프라인 병렬화 알고리듬
- EPLB: Expert-Parallel 로드밸런서
- Profile-Data: DeepSeek 인프라의 데이터 프로파일링으로 계산-통신 오버랩을 분석

Day 5: 3FS 파일시스템 과 Smallpond 데이터 처리 프레임워크

Fire-Flyer File System(3FS)는 AI 학습 및 추론 워크로드를 처리하기 위해 설계된 고성능 분산 파일 시스템
최신 SSD 및 RDMA 네트워크를 활용하여 공유 스토리지 계층을 제공하고, 분산 애플리케이션 개발을 단순화함
주요 특징 및 장점
- 성능 및 사용성
  - 분리형 아키텍처: 수천 개의 SSD 및 수백 개의 스토리지 노드 네트워크 대역폭을 결합하여 지역성에 관계없이 스토리지 리소스에 접근 가능
  - 강력한 일관성 보장: Chain Replication with Apportioned Queries(CRAQ)를 사용하여 일관성을 유지하여, 애플리케이션 코드를 단순화함
  - 파일 인터페이스 지원: FoundationDB 기반의 트랜잭션 키-값 저장소를 활용한 상태 없는 메타데이터 서비스 제공. 기존 파일 인터페이스를 사용하므로 새로운 스토리지 API 학습 불필요
- 다양한 워크로드 지원
  - 데이터 준비: 데이터 분석 파이프라인의 출력을 계층형 디렉터리 구조로 정리하고, 대량의 중간 출력을 효율적으로 관리
  - 데이터 로더 최적화: 데이터셋을 사전 로드하거나 섞을 필요 없이, 여러 컴퓨트 노드에서 학습 샘플에 랜덤 접근 가능
  - 체크포인트 저장: 대규모 학습을 위한 고속 병렬 체크포인트 저장 지원
  - KVCache 기반 추론 최적화: DRAM 기반 캐싱보다 비용 효율적이며 높은 처리량과 대용량 저장 가능
SmallPond - DuckDB와 3FS위에 구축된 경량 데이터 프로세싱 프레임워크
- 고성능 데이터 처리, 대규모 확장성, 간단한 운영이 특징
  - 고성능 데이터 처리: DuckDB를 활용하여 빠른 데이터 처리
  - 대규모 데이터셋 지원: 페타바이트(PB) 규모 데이터 처리 가능
  - 운영 간편성: 장기 실행 서비스 없이 손쉽게 사용

Day 6: V3/R1의 추론 시스템 구성 및 운영 비용/수익 공개

시스템 설계 원칙 : DeepSeek-V3/R1 추론 시스템의 최적화 목표는 더 높은 처리량과 낮은 지연 시간임
- 이를 위해 크로스-노드 Expert Parallelism(EP) 을 적용하여 최적화
DeepSeek 운영비용
- GPU 평균 226개 노드(노드당 8개의 H800 GPU)
- 하루 운영 비용: $87,072 (1.27억원) - H800 대당 $2/시간
- 이론상 하루 수익(R1기준): $562027 (8.2억원) → 수익률 545%
- 하지만, 실제 수익은 더 낮음 (V3가 R1보다 싸고, 서비스의 일부만 수익화 했기 때문)

2024 AI 인프라 논문 (SC24)

Fire-Flyer AI-HPC: 딥러닝을 위한 비용 효율적인 소프트웨어-하드웨어 공동 설계

딥러닝(DL) 및 대형 언어 모델(LLM)의 급속한 발전으로 인해 계산 성능과 대역폭에 대한 요구가 기하급수적으로 증가함
고성능 컴퓨팅(HPC) 구축 비용이 빠른 연산 칩과 고속 인터커넥트의 높은 가격으로 인해 급격히 상승함
이를 해결하기 위해 Fire-Flyer AI-HPC 아키텍처를 도입하여 하드웨어-소프트웨어 협력적 설계를 기반으로 비용 및 성능 최적화를 달성함
- 10,000개의 PCIe A100 GPU를 활용한 Fire-Flyer 2 시스템을 구축하여 DL 훈련을 수행함
- DGX-A100과 유사한 성능을 제공하면서 비용을 절반으로 줄이고, 에너지 소비를 40% 감소시킴
성능 최적화 요소
- HFReduce : Allreduce 통신을 가속화하여 GPU 간 데이터 동기화 속도를 향상시킴
- Computation-Storage Integrated Network : 네트워크 병목 현상을 방지하기 위해 다양한 혼잡 관리 기법을 적용
- 소프트웨어 스택 : HaiScale, 3FS, HAI-Platform을 통해 계산과 통신을 겹쳐서 실행하여 확장성을 극대화함

GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기

xguru 2025-02-23 [-]

DeepSeek이 정말 흥미로운 행보를 이어가네요. 어떤 것들이 공개될지 궁금합니다.

답변달기

GN⁺ 2025-02-22 [-]

Hacker News 의견

DeepSeek의 출시를 기대하면서도 과도한 분석은 하지 않는 유일한 사람인지 궁금함. 이 스레드는 개인적인 해석으로 가득 차 있는 느낌임
- DeepSeek은 여전히 사업체임. 훌륭한 출시이지만 기대와 동기가 과장된 것 같음
- "순수한 차고 에너지"라는 표현이 멋짐
- 그들의 추론 스택을 가장 기대하고 있음. 대부분의 사람들이 단일 H200 노드에서 R1을 실행하고 있지만, DeepSeek은 추론을 위해 GPU당 RAM이 훨씬 적었고 클러스터 기반 MoE 배포를 했음
- OpenAI의 12일간의 크리스마스보다 더 흥미로움
다음 주부터 5개의 레포를 오픈소스화할 예정임. 하루에 하나씩 공개할 것임
- 발표의 발표로 간주될 수 있음. 실제 레포가 공개되기 전까지는 논의하지 않는 것이 좋음. 오픈소스화될 내용에 대한 세부 정보가 없기 때문임
- 이것들은 온라인 서비스의 겸손한 빌딩 블록임. 문서화되고, 배포되었으며, 실제 환경에서 테스트되었음
DeepSeek의 혁신과 연구에 깊은 존경을 표함. 그들이 공개한 모든 것에 대해
- "공유된 모든 라인은 여정을 가속화하는 집단적 모멘텀이 됨. 일일 잠금 해제가 곧 시작됨. 상아탑이 아닌 순수한 차고 에너지와 커뮤니티 주도의 혁신"이라는 표현이 멋짐
사실 그들은 OpenAI를 완전히 해체하고 있음. 아마도 그들의 의도와는 상관없이
- LLM은 대부분의 CIO 잡지가 "블록체인 전략이 무엇인가?"라는 에세이를 실었을 때보다 더 합법적인 "블록체인"이었음
- AI 버블은 터질 것이며, 2026년 말까지 최대한 터질 것임
AI 분야에서 해자가 어디에 있는지 보는 것이 흥미로움. 좋은 기본 모델은 API에 접근할 수 있을 때 항상 증류될 수 있음. 시스템 프롬프트는 유출될 수 있고, UI 트릭은 복사될 수 있음. 결국 해자는 하드웨어와 수직 통합에 있을 수 있음
DeepSeek과 OpenAI가 이름을 바꿀 수 있을까?
인프라 도구를 오픈소스화하는 것은 AI 분야의 혁신을 정말 가속화할 수 있음. 잘 문서화된 레포에 접근할 수 있는 것이 기존 작업을 실험하고 구축하는 데 훨씬 더 쉬워짐
- 이 레포들이 분산 훈련이나 모델 서빙과 같은 특정 영역에 초점을 맞추고 있는지 궁금함
페이스북과 DeepSeek에 의해 확고히 오픈소스화된 기초 모델 회사들의 평가가 어떻게 경쟁할 수 있는지 궁금함. 중국과 페이스북이 대부분 무료로 제공하고 있기 때문에 이러한 모델을 구축하는 것이 수천억 달러의 가치를 창출하지 않을 것 같음

답변달기

DeepSeek Open Infra: 5일간 5개의 AI 저장소 오픈소스로 공개

Day 1: FlashMLA

Day 2: DeepEP

Day 3: DeepGEMM

Day 4: 최적화된 병렬 처리전략 : DualPipe, EPLB, Profile-Data

Day 5: 3FS 파일시스템 과 Smallpond 데이터 처리 프레임워크

Day 6: V3/R1의 추론 시스템 구성 및 운영 비용/수익 공개

2024 AI 인프라 논문 (SC24)

Fire-Flyer AI-HPC: 딥러닝을 위한 비용 효율적인 소프트웨어-하드웨어 공동 설계

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견