# Mixture of Experts(MoE)란 무엇인가 — DeepSeek이 왜 1.6조 파라미터인데 싸게 돌아가는지

> Clean Markdown view of GeekNews topic #28939. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=28939](https://news.hada.io/topic?id=28939)
- GeekNews Markdown: [https://news.hada.io/topic/28939.md](https://news.hada.io/topic/28939.md)
- Type: news
- Author: [nextvine](https://news.hada.io/@nextvine)
- Published: 2026-04-27T13:20:29+09:00
- Updated: 2026-04-27T13:20:29+09:00
- Original source: [app-place-tech.com](https://app-place-tech.com/post/mixture-of-experts-moe-deepseek-1-6-0d00f332)
- Points: 4
- Comments: 1

## Topic Body

**Mixture of Experts(MoE)란 무엇인가 — DeepSeek이 왜 1.6조 파라미터인데 싸게 돌아가는지**  
  
DeepSeek V4가 1.6조 파라미터이면서 GPT-5.5의 10분의 1 가격에 서비스될 수 있는 이유를 MoE 아키텍처로 설명합니다.  
  
MoE는 여러 전문가(Expert) 서브모델과 어떤 전문가를 쓸지 결정하는 라우터(게이팅 네트워크)로 구성됩니다. 핵심은 매 토큰마다 전체 파라미터 중 일부만 선택적으로 활성화한다는 것입니다. 기존 밀집 모델(Dense Model)은 입력이 무엇이든 모든 파라미터가 계산에 참여하지만, MoE는 라우터가 가장 적합한 전문가 몇 개만 골라 처리합니다.  
  
DeepSeek V4-Pro 기준으로 전체 파라미터 1.6조 중 토큰당 490억(약 3%)만 활성화됩니다. 1.6조 규모의 지식을 담으면서 실제 추론 비용은 490억 수준 모델과 비슷한 셈입니다. 일반적으로 MoE는 같은 규모 밀집 모델 대비 가격 대비 성능을 3~5배 개선합니다.  
  
단점도 있습니다. 계산은 희소하게 이루어지지만 모든 전문가의 파라미터를 메모리에 올려두어야 해 VRAM 요구량이 높고, 학습 시 특정 전문가에게 부하가 집중되는 불균형 문제를 별도로 관리해야 합니다.  
  
2026년 현재 GPT-4, Gemini 1.5, Mixtral, DeepSeek 시리즈 등 주요 프론티어 모델 대부분이 MoE 기반입니다. AI 모델 경쟁의 축이 단순 크기에서 비용 대비 성능으로 이동하면서 MoE가 사실상 표준 아키텍처로 자리잡은 결과입니다.

## Comments


### Comment 56401

- Author: picopress
- Created: 2026-04-27T18:11:08+09:00
- Points: 1

49B도 상당하네요