▲nextvine 12시간전 | parent | ★ favorite | on: Mixture of Experts(MoE)란 무엇인가 — DeepSeek이 왜 1.6조 파라미터인데 싸게 돌아가는지(app-place-tech.com)최신 모델의 경우 내부 구현 방식을 자세히 알려주지 않기 때문에 자료조사 단계에서 이전 모델들이 나온거같고 gpt 5 이후에 나온 모델들은 모두 MoE 구조를 이어받았을 가능성이 높습니다. 오픈소스 병렬모델들이 MoE 구조로 되어있기 때문입니다. 최근 closed 모델의 경우에는 아키텍쳐를 공개를 안해서 확정된 공식은 아닙니다.
최신 모델의 경우 내부 구현 방식을 자세히 알려주지 않기 때문에 자료조사 단계에서 이전 모델들이 나온거같고 gpt 5 이후에 나온 모델들은 모두 MoE 구조를 이어받았을 가능성이 높습니다. 오픈소스 병렬모델들이 MoE 구조로 되어있기 때문입니다. 최근 closed 모델의 경우에는 아키텍쳐를 공개를 안해서 확정된 공식은 아닙니다.