Mixture of Experts(MoE)란 무엇인가 — DeepSeek이 왜 1.6조 파라미터인데 싸게 돌아가는지
(app-place-tech.com)Mixture of Experts(MoE)란 무엇인가 — DeepSeek이 왜 1.6조 파라미터인데 싸게 돌아가는지
DeepSeek V4가 1.6조 파라미터이면서 GPT-5.5의 10분의 1 가격에 서비스될 수 있는 이유를 MoE 아키텍처로 설명합니다.
MoE는 여러 전문가(Expert) 서브모델과 어떤 전문가를 쓸지 결정하는 라우터(게이팅 네트워크)로 구성됩니다. 핵심은 매 토큰마다 전체 파라미터 중 일부만 선택적으로 활성화한다는 것입니다. 기존 밀집 모델(Dense Model)은 입력이 무엇이든 모든 파라미터가 계산에 참여하지만, MoE는 라우터가 가장 적합한 전문가 몇 개만 골라 처리합니다.
DeepSeek V4-Pro 기준으로 전체 파라미터 1.6조 중 토큰당 490억(약 3%)만 활성화됩니다. 1.6조 규모의 지식을 담으면서 실제 추론 비용은 490억 수준 모델과 비슷한 셈입니다. 일반적으로 MoE는 같은 규모 밀집 모델 대비 가격 대비 성능을 3~5배 개선합니다.
단점도 있습니다. 계산은 희소하게 이루어지지만 모든 전문가의 파라미터를 메모리에 올려두어야 해 VRAM 요구량이 높고, 학습 시 특정 전문가에게 부하가 집중되는 불균형 문제를 별도로 관리해야 합니다.
2026년 현재 GPT-4, Gemini 1.5, Mixtral, DeepSeek 시리즈 등 주요 프론티어 모델 대부분이 MoE 기반입니다. AI 모델 경쟁의 축이 단순 크기에서 비용 대비 성능으로 이동하면서 MoE가 사실상 표준 아키텍처로 자리잡은 결과입니다.
최신 모델의 경우 내부 구현 방식을 자세히 알려주지 않기 때문에 자료조사 단계에서 이전 모델들이 나온거같고 gpt 5 이후에 나온 모델들은 모두 MoE 구조를 이어받았을 가능성이 높습니다. 오픈소스 병렬모델들이 MoE 구조로 되어있기 때문입니다. 최근 closed 모델의 경우에는 아키텍쳐를 공개를 안해서 확정된 공식은 아닙니다.