DeepSeek-V4 논문 읽기 요약 - 노정석

(youtube.com)

7P by ragingwind 11시간전 | ★ favorite | 댓글 3개

DeepSeek-V4가 보여준 아키텍처 혁신과 프론티어 랩의 새로운 좌표, 2026년 4월 넷째 주, GPT-5.5와 구글 클라우드 넥스트 등 굵직한 발표가 이어진 가운데 가장 주목할 만한 사건은 DeepSeek-V4의 공개였습니다. R1 이후 약 1년 4개월 만에 등장한 이번 모델은 600B 규모였던 V3에서 1.6T 규모로 덩치를 키웠고, 활성화 파라미터도 소폭 늘었습니다. 무엇보다 Sparse Attention, mHC(Manifold-Constrained Hyper-Connections), Muon옵티마이저라는 세 갈래의 알고리즘 변화가 동시에 적용됐고, 그 결과물이 약 40페이지의 논문에 빼곡히 정리됐습니다. 김성현 님과 노정석 님은 이 보고서가 단순한 성능 자랑이 아니라, 1년에 걸친 고통스러운 시행착오의 기록이라고 평가했습니다.

핵심 아키텍처 변화

Sparse Attention의 본격 도입: 모든 이전 토큰을 참조하던 기존 방식 대신, 의미 있는 일부 토큰만 골라 참조하도록 바꿨습니다. 슬라이딩 윈도우 어텐션, 100분의 1로 압축한 토큰에 대한 풀 어텐션, 그리고 4분의 1로 압축한 뒤 Lightning Indexer로 top-k를 골라내는 Compressed Sparse Attention, 이 세 가지를 결합한 구조입니다.
mHC 적용: 딥러닝의 핵심인 잔차 연결의 통로를 넓혀 제약을 완화하는 Hyper-Connections를 매니폴드 위에서 안정화한 구조입니다.
Muon 옵티마이저 채택: Adam 이후 중국 모델들이 사실상 표준처럼 쓰는 옵티마이저로, 학습 속도와 데이터 효율을 함께 끌어올립니다.
MLA 제거: DeepSeek의 상징과도 같던 MLA를 버리고 단순한 Multi-Query Attention으로 전환했습니다.

장점과 특장점

롱컨텍스트 비용의 급감: V3 대비 2.5~3배 큰 모델임에도 토큰 연산 컴퓨트는 약 27% 수준, KV 캐시 메모리는 10% 수준까지 줄였습니다.
사전학습 단계부터 롱컨텍스트 학습: 초기 1T 토큰은 4K~16K로, 이후 30T 이상 토큰은 64K 이상에서 학습했습니다. 후처리에서 컨텍스트를 늘리던 관행과 결을 달리합니다.
인프라 최적화의 깊이: ByteDance의 Comet을 개선한 MoE 통신·연산 오버랩, 전력 스로틀링이 걸릴 정도까지 밀어붙인 메가커널, TileLang 기여, batch invariance 커널의 대폭 최적화, 전문가 가중치의 MXFP4(4비트) 압축 등이 촘촘하게 들어갔습니다.
알고리즘 리더십: 미국 빅테크가 아키텍처를 공개하지 않는 상황에서, 사전학습 영역만 놓고 보면 동등하거나 일부 앞선다고 볼 만한 수준이라는 평가가 나왔습니다.

단점과 한계

학습 불안정성: 최근 LLM 개발자들이 학습이 매우 안정적이라고 말하는 흐름과 달리, DeepSeek-V4는 학습 불안정 문제를 곳곳에서 겪었음을 솔직히 드러냅니다. MoE 게이팅 수정, 클램핑, 그리고 과거 시점 가중치로 라우팅하는 Anticipatory Routing 같은 난해한 장치까지 동원했습니다.
재현 난이도: Sparse Attention을 사실상 처음부터 학습시키는 일이 매우 어렵다는 것이 중국 내 다른 팀들의 공통된 결론이었습니다. DeepSeek가 성공했다고 해서 다른 팀이 쉽게 따라오기는 어려울 가능성이 큽니다.
포스트트레이닝의 아쉬움: 사전학습의 도약에 비해 포스트트레이닝은 상대적으로 여력이 남아 보인다는 평가입니다. 4.1, 4.2 단계에서 보강될 여지가 큰 영역입니다.
데이터에 대한 침묵: 32T 토큰을 준비했다고만 언급할 뿐, 합성 데이터 사용 여부 등 구체적인 데이터 구성에 관해서는 거의 말하지 않습니다.

차별점

투명한 공개: 다른 프론티어 랩들이 아키텍처를 감추는 것과 달리, 구조와 시행착오를 비교적 솔직하게 풀어놓습니다.
사전학습 단계 통합 설계: 롱컨텍스트, Sparse Attention, FP4 양자화를 후처리가 아닌 사전학습에 녹여낸 점이 두드러집니다.
하드웨어 다변화: NVIDIA 칩과 함께 화웨이 칩을 병행 사용한다고 밝히며, 중국 내 반도체 대안이 자리 잡아가고 있음을 시사합니다.

업계 시점에서 본 의미

중국 프론티어 랩의 지형 변화: DeepSeek, Kimi, Z.ai(GLM), 텐센트 Hunyuan 3, 샤오미 MiMo 등 다섯 곳에 가까운 팀이 동시에 전면에 등장했고, 사전학습 측면에서 미국과 동등하거나 일부 앞선 영역이 생겼다는 견해가 나옵니다.
포스트트레이닝이 다음 전장: 사전학습 수준에 견줄 만한 컴퓨트가 포스트트레이닝에 투입되는 시점이 곧 도래할 것으로 보이며, 여기서의 격차가 다음 세대의 승부처가 될 가능성이 큽니다.
모델 업데이트의 일상화: GPT-5.5, Claude Mythos, Spud, DeepSeek-V4가 비슷한 시기에 베이스 모델을 갈아치우면서, 모델 업데이트가 크롬 브라우저 업데이트처럼 무감각해지는 흐름이 감지됩니다.

이번 DeepSeek-V4는 단일 모델의 성능 지표보다도, 한 팀이 1년 동안 어떤 난제를 어떻게 정면돌파했는지를 드러낸 기록물에 가깝습니다. Sparse Attention을 사전학습 단계에서부터 끌고 가는 시도, 1.6T 규모에서 롱컨텍스트 비용을 한 자릿수대 비율까지 끌어내린 인프라 작업, 그리고 학습 불안정과 씨름하며 도입한 비정형적 장치들은 앞으로 중국발 프론티어 모델들의 새로운 베이스가 될 가능성이 큽니다. 동시에 포스트트레이닝과 데이터에서 남은 과제는 여전히 뚜렷해, 4.1과 4.2가 어디까지 이 격차를 좁힐지가 다음 분기의 관전 포인트가 될 것으로 보입니다.