# Qwen2.5-Max: 대규모 MoE 모델의 지능 탐구

> Clean Markdown view of GeekNews topic #18964. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=18964](https://news.hada.io/topic?id=18964)
- GeekNews Markdown: [https://news.hada.io/topic/18964.md](https://news.hada.io/topic/18964.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-01-29T10:31:47+09:00
- Updated: 2025-01-29T10:31:47+09:00
- Original source: [qwenlm.github.io](https://qwenlm.github.io/blog/qwen2.5-max/)
- Points: 1
- Comments: 1

## Topic Body

- Qwen2.5-Max는 20조(20T) 개 이상의 토큰으로 사전 학습한 대규모 Mixture-of-Experts(MoE) 모델  
- Supervised Fine-Tuning(SFT) 및 인간 피드백을 활용한 강화학습(RLHF)을 통해 후속 학습 진행  
- DeepSeek V3, GPT-4o, Claude-3.5-Sonnet, Llama-3.1-405B 등과 비교한 대부분의 벤치마크에서 탁월한 성능을 보여주며 우위를 점함   
  - Arena-Hard, LiveBench, LiveCodeBench, GPQA-Diamond 등에서 DeepSeek V3를 능가하며, MMLU-Pro에서도 경쟁력 있는 결과를 보여줌.  
  
### 주요 벤치마크 결과  
- **Arena-Hard**: 인간 선호도 근사 평가  
  Qwen2.5-Max가 89.4점을 기록하며 가장 높은 성능을 보임. DeepSeek V3(85.5점), GPT-4o(85.2점), Claude-3.5-Sonnet(77.9점)보다 우수. Llama-3.1-405B는 69.3점으로 상대적으로 낮은 성능을 보임.  
- **MMLU-Pro**: 대학 수준의 지식 평가   
  Qwen2.5-Max는 76.1점으로 DeepSeek V3(75.9점)와 거의 동등한 성능을 보임. GPT-4o(78.0점)가 약간 더 높지만, Qwen2.5-Max는 Claude-3.5-Sonnet(77.0점), Llama-3.1-405B(73.3점)보다 우수.  
- **GPQA-Diamond**: 일반적인 질문 응답 능력 평가   
  Qwen2.5-Max는 60.1점으로 DeepSeek V3(59.1점)를 소폭 앞서며, GPT-4o(53.6점), Claude-3.5-Sonnet(51.1점), Llama-3.1-405B(65.0점)보다는 약간 낮음.  
- **LiveCodeBench**: 코딩 능력 평가   
  Qwen2.5-Max는 38.7점을 기록하며 DeepSeek V3(37.6점)보다 약간 높음. GPT-4o(35.1점), Claude-3.5-Sonnet(30.2점), Llama-3.1-405B(38.9점)와 비슷한 수준.  
- **LiveBench**: 전반적인 모델 성능 평가  
  Qwen2.5-Max는 62.2점으로 가장 높은 점수를 기록. DeepSeek V3(60.5점), GPT-4o(60.3점), Claude-3.5-Sonnet(56.0점), Llama-3.1-405B(53.2점)보다 우수한 성능.  
  
### 미래 방향  
- 데이터와 모델 크기의 확장은 모델 지능의 발전을 보여주며, 대규모 언어 모델의 사고 및 추론 능력을 향상시키기 위한 연구에 전념하고 있음  
- 강화 학습의 혁신적인 적용을 통해 인간 지능을 초월하는 모델을 개발하고, 새로운 지식과 이해의 영역을 탐구할 가능성을 열어줌

## Comments



### Comment 33948

- Author: xguru
- Created: 2025-01-29T10:43:48+09:00
- Points: 1

2023-08-03 [Alibaba, 오픈소스 AI 모델 QWEN 공개](https://news.hada.io/topic?id=10249)  
2024-04-25 [Qwen1.5-110B : 알리바바의 오픈소스 LLM Qwen1.5 시리즈의 첫번째 100B+ 모델](https://news.hada.io/topic?id=14530)  
2024-06-07 [Alibaba, Qwen 2 모델 공개](https://news.hada.io/topic?id=15235)  
2024-09-19 [Qwen2.5 - 여러 파운데이션 모델 공개](https://news.hada.io/topic?id=16852)  
2024-11-28 [QwQ - ChatGPT o1과 유사한 알리바바의 추론 LLM](https://news.hada.io/topic?id=18002)  
2024-12-24 [Qwen의 새로운 시각적 추론 모델 QvQ 사용 후기](https://news.hada.io/topic?id=18441)  
2025-01-27 [Qwen2.5-1M - 1백만 토큰까지 지원하는 Qwen을 자체 배포하기](https://news.hada.io/topic?id=18962)  
  
DeepSeek가 돌풍을 일으키고 있는 와중에 Qwen도 엄청난 결과를 하루에 하나씩 마구 쏟아내고 있네요.  
중국 기업들 무섭습니다.
