GN⁺: DeepSeek Open Infra: 5일간 5개의 AI 저장소 오픈소스로 공개
(github.com/deepseek-ai)- DeepSeek AI 팀은 AGI 탐구에서 한계를 넘기 위해 노력하고 있음
- 다음 주부터 5개의 저장소를 오픈 소스로 공개할 예정이며, 이는 개발자로서의 작은 진전을 투명하게 공유하기 위함
- 이들은 온라인 서비스의 기본 구성 요소로, 문서화되고 배포되어 실제 환경에서 테스트된 코드임
- 매일 새로운 코드가 공개될 예정이며, 이는 커뮤니티 주도의 혁신을 촉진하기 위함임
Day 1: FlashMLA
- Hopper GPU를 위한 효율적인 MLA 디코딩 커널
- 가변 길이 시퀀스 서빙을 위해 최적화 됨
- 현재 릴리즈 된 것
- BF16
- 64 블록사이즈 Paged kvcache
- 벤치마크: CUDA 12.6을 사용하여 H800 SXM5에서 메모리 바운드 구성에서 최대 3000GB/s, 연산 바운드 구성에서 580 TFLOPS를 달성
Day 2: DeepEP
- Mixture-of-Experts(MoE) 및 Expert Parallelism(EP)을 위한 고성능 통신 라이브러리
- GPU 기반 All-to-All 커널을 제공하여 MoE 디스패치 및 결합 연산을 고속으로 처리
- FP8과 같은 저정밀 연산 지원
-
DeepSeek-V3 논문에서 제안한 그룹 제한 게이팅(group-limited gating) 알고리즘을 적용하여 비대칭 도메인 대역폭 포워딩을 최적화
- 예: NVLink → RDMA 데이터 전송 최적화
- 훈련 및 추론 프리필링(prefilling) 작업에 적합한 높은 처리량 제공
- 지연시간에 민감한 추론 디코딩을 위해 RDMA 전용 저지연 커널 포함
- 통신-연산 오버랩 기법 제공 (SM 리소스를 점유하지 않음)
Day 3: DeepGEMM
- FP8 행렬 곱셈(GEMM) 을 효율적으로 수행하는 라이브러리로, DeepSeek-V3에서 제안된 미세 조정 스케일링(fine-grained scaling) 방식을 지원함
- 일반 GEMM과 Mix-of-Experts(MoE) 그룹화 GEMM을 모두 지원
- CUDA 기반으로 구현되었으며, 설치 시 별도 컴파일 없이 경량 Just-In-Time(JIT) 모듈을 사용하여 런타임에서 커널을 컴파일함
- 현재 NVIDIA Hopper 텐서 코어 전용으로 지원
- FP8 텐서 코어의 부정확한 누적 연산을 보완하기 위해 CUDA 코어 기반 이중 누적(promotion) 사용
- CUTLASS 및 CuTe의 일부 개념을 활용하지만, 복잡한 템플릿 의존성을 줄여 약 300줄의 커널 코드만 포함하는 단순한 설계
- Hopper FP8 행렬 연산 및 최적화 기법을 학습하기에 적합
- 경량 설계에도 불구하고 다양한 행렬 크기에서 전문가 수준으로 튜닝된 라이브러리와 유사하거나 더 나은 성능을 보임
Day 4: 최적화된 병렬 처리전략 : DualPipe, EPLB, Profile-Data
- DeepSeek V3/R1에서 사용했던 전략 및 코드들
- DualPipe : 계산-통신 오버랩을 위한 양방향 파이프라인 병렬화 알고리듬
- EPLB: Expert-Parallel 로드밸런서
- Profile-Data: DeepSeek 인프라의 데이터 프로파일링으로 계산-통신 오버랩을 분석
Day 5: 3FS 파일시스템 과 Smallpond 데이터 처리 프레임워크
- Fire-Flyer File System(3FS)는 AI 학습 및 추론 워크로드를 처리하기 위해 설계된 고성능 분산 파일 시스템
- 최신 SSD 및 RDMA 네트워크를 활용하여 공유 스토리지 계층을 제공하고, 분산 애플리케이션 개발을 단순화함
- 주요 특징 및 장점
- 성능 및 사용성
- 분리형 아키텍처: 수천 개의 SSD 및 수백 개의 스토리지 노드 네트워크 대역폭을 결합하여 지역성에 관계없이 스토리지 리소스에 접근 가능
- 강력한 일관성 보장: Chain Replication with Apportioned Queries(CRAQ)를 사용하여 일관성을 유지하여, 애플리케이션 코드를 단순화함
- 파일 인터페이스 지원: FoundationDB 기반의 트랜잭션 키-값 저장소를 활용한 상태 없는 메타데이터 서비스 제공. 기존 파일 인터페이스를 사용하므로 새로운 스토리지 API 학습 불필요
- 다양한 워크로드 지원
- 데이터 준비: 데이터 분석 파이프라인의 출력을 계층형 디렉터리 구조로 정리하고, 대량의 중간 출력을 효율적으로 관리
- 데이터 로더 최적화: 데이터셋을 사전 로드하거나 섞을 필요 없이, 여러 컴퓨트 노드에서 학습 샘플에 랜덤 접근 가능
- 체크포인트 저장: 대규모 학습을 위한 고속 병렬 체크포인트 저장 지원
- KVCache 기반 추론 최적화: DRAM 기반 캐싱보다 비용 효율적이며 높은 처리량과 대용량 저장 가능
- 성능 및 사용성
-
SmallPond - DuckDB와 3FS위에 구축된 경량 데이터 프로세싱 프레임워크
- 고성능 데이터 처리, 대규모 확장성, 간단한 운영이 특징
- 고성능 데이터 처리: DuckDB를 활용하여 빠른 데이터 처리
- 대규모 데이터셋 지원: 페타바이트(PB) 규모 데이터 처리 가능
- 운영 간편성: 장기 실행 서비스 없이 손쉽게 사용
- 고성능 데이터 처리, 대규모 확장성, 간단한 운영이 특징
2024 AI 인프라 논문 (SC24)
Fire-Flyer AI-HPC: 딥러닝을 위한 비용 효율적인 소프트웨어-하드웨어 공동 설계
- 딥러닝(DL) 및 대형 언어 모델(LLM)의 급속한 발전으로 인해 계산 성능과 대역폭에 대한 요구가 기하급수적으로 증가함
- 고성능 컴퓨팅(HPC) 구축 비용이 빠른 연산 칩과 고속 인터커넥트의 높은 가격으로 인해 급격히 상승함
- 이를 해결하기 위해 Fire-Flyer AI-HPC 아키텍처를 도입하여 하드웨어-소프트웨어 협력적 설계를 기반으로 비용 및 성능 최적화를 달성함
- 10,000개의 PCIe A100 GPU를 활용한 Fire-Flyer 2 시스템을 구축하여 DL 훈련을 수행함
- DGX-A100과 유사한 성능을 제공하면서 비용을 절반으로 줄이고, 에너지 소비를 40% 감소시킴
- 성능 최적화 요소
- HFReduce : Allreduce 통신을 가속화하여 GPU 간 데이터 동기화 속도를 향상시킴
- Computation-Storage Integrated Network : 네트워크 병목 현상을 방지하기 위해 다양한 혼잡 관리 기법을 적용
- 소프트웨어 스택 : HaiScale, 3FS, HAI-Platform을 통해 계산과 통신을 겹쳐서 실행하여 확장성을 극대화함
Hacker News 의견
-
DeepSeek의 출시를 기대하면서도 과도한 분석은 하지 않는 유일한 사람인지 궁금함. 이 스레드는 개인적인 해석으로 가득 차 있는 느낌임
- DeepSeek은 여전히 사업체임. 훌륭한 출시이지만 기대와 동기가 과장된 것 같음
- "순수한 차고 에너지"라는 표현이 멋짐
- 그들의 추론 스택을 가장 기대하고 있음. 대부분의 사람들이 단일 H200 노드에서 R1을 실행하고 있지만, DeepSeek은 추론을 위해 GPU당 RAM이 훨씬 적었고 클러스터 기반 MoE 배포를 했음
- OpenAI의 12일간의 크리스마스보다 더 흥미로움
-
다음 주부터 5개의 레포를 오픈소스화할 예정임. 하루에 하나씩 공개할 것임
- 발표의 발표로 간주될 수 있음. 실제 레포가 공개되기 전까지는 논의하지 않는 것이 좋음. 오픈소스화될 내용에 대한 세부 정보가 없기 때문임
- 이것들은 온라인 서비스의 겸손한 빌딩 블록임. 문서화되고, 배포되었으며, 실제 환경에서 테스트되었음
-
DeepSeek의 혁신과 연구에 깊은 존경을 표함. 그들이 공개한 모든 것에 대해
- "공유된 모든 라인은 여정을 가속화하는 집단적 모멘텀이 됨. 일일 잠금 해제가 곧 시작됨. 상아탑이 아닌 순수한 차고 에너지와 커뮤니티 주도의 혁신"이라는 표현이 멋짐
-
사실 그들은 OpenAI를 완전히 해체하고 있음. 아마도 그들의 의도와는 상관없이
- LLM은 대부분의 CIO 잡지가 "블록체인 전략이 무엇인가?"라는 에세이를 실었을 때보다 더 합법적인 "블록체인"이었음
- AI 버블은 터질 것이며, 2026년 말까지 최대한 터질 것임
-
AI 분야에서 해자가 어디에 있는지 보는 것이 흥미로움. 좋은 기본 모델은 API에 접근할 수 있을 때 항상 증류될 수 있음. 시스템 프롬프트는 유출될 수 있고, UI 트릭은 복사될 수 있음. 결국 해자는 하드웨어와 수직 통합에 있을 수 있음
-
DeepSeek과 OpenAI가 이름을 바꿀 수 있을까?
-
인프라 도구를 오픈소스화하는 것은 AI 분야의 혁신을 정말 가속화할 수 있음. 잘 문서화된 레포에 접근할 수 있는 것이 기존 작업을 실험하고 구축하는 데 훨씬 더 쉬워짐
- 이 레포들이 분산 훈련이나 모델 서빙과 같은 특정 영역에 초점을 맞추고 있는지 궁금함
-
페이스북과 DeepSeek에 의해 확고히 오픈소스화된 기초 모델 회사들의 평가가 어떻게 경쟁할 수 있는지 궁금함. 중국과 페이스북이 대부분 무료로 제공하고 있기 때문에 이러한 모델을 구축하는 것이 수천억 달러의 가치를 창출하지 않을 것 같음