4P by nextvine 3시간전 | ★ favorite | 댓글과 토론

Mixture of Experts(MoE)란 무엇인가 — DeepSeek이 왜 1.6조 파라미터인데 싸게 돌아가는지

DeepSeek V4가 1.6조 파라미터이면서 GPT-5.5의 10분의 1 가격에 서비스될 수 있는 이유를 MoE 아키텍처로 설명합니다.

MoE는 여러 전문가(Expert) 서브모델과 어떤 전문가를 쓸지 결정하는 라우터(게이팅 네트워크)로 구성됩니다. 핵심은 매 토큰마다 전체 파라미터 중 일부만 선택적으로 활성화한다는 것입니다. 기존 밀집 모델(Dense Model)은 입력이 무엇이든 모든 파라미터가 계산에 참여하지만, MoE는 라우터가 가장 적합한 전문가 몇 개만 골라 처리합니다.

DeepSeek V4-Pro 기준으로 전체 파라미터 1.6조 중 토큰당 490억(약 3%)만 활성화됩니다. 1.6조 규모의 지식을 담으면서 실제 추론 비용은 490억 수준 모델과 비슷한 셈입니다. 일반적으로 MoE는 같은 규모 밀집 모델 대비 가격 대비 성능을 3~5배 개선합니다.

단점도 있습니다. 계산은 희소하게 이루어지지만 모든 전문가의 파라미터를 메모리에 올려두어야 해 VRAM 요구량이 높고, 학습 시 특정 전문가에게 부하가 집중되는 불균형 문제를 별도로 관리해야 합니다.

2026년 현재 GPT-4, Gemini 1.5, Mixtral, DeepSeek 시리즈 등 주요 프론티어 모델 대부분이 MoE 기반입니다. AI 모델 경쟁의 축이 단순 크기에서 비용 대비 성능으로 이동하면서 MoE가 사실상 표준 아키텍처로 자리잡은 결과입니다.