GN⁺: Qwen2.5-Max: 대규모 MoE 모델의 지능 탐구
(qwenlm.github.io)- Qwen2.5-Max는 20조(20T) 개 이상의 토큰으로 사전 학습한 대규모 Mixture-of-Experts(MoE) 모델
- Supervised Fine-Tuning(SFT) 및 인간 피드백을 활용한 강화학습(RLHF)을 통해 후속 학습 진행
- DeepSeek V3, GPT-4o, Claude-3.5-Sonnet, Llama-3.1-405B 등과 비교한 대부분의 벤치마크에서 탁월한 성능을 보여주며 우위를 점함
- Arena-Hard, LiveBench, LiveCodeBench, GPQA-Diamond 등에서 DeepSeek V3를 능가하며, MMLU-Pro에서도 경쟁력 있는 결과를 보여줌.
주요 벤치마크 결과
-
Arena-Hard: 인간 선호도 근사 평가
Qwen2.5-Max가 89.4점을 기록하며 가장 높은 성능을 보임. DeepSeek V3(85.5점), GPT-4o(85.2점), Claude-3.5-Sonnet(77.9점)보다 우수. Llama-3.1-405B는 69.3점으로 상대적으로 낮은 성능을 보임. -
MMLU-Pro: 대학 수준의 지식 평가
Qwen2.5-Max는 76.1점으로 DeepSeek V3(75.9점)와 거의 동등한 성능을 보임. GPT-4o(78.0점)가 약간 더 높지만, Qwen2.5-Max는 Claude-3.5-Sonnet(77.0점), Llama-3.1-405B(73.3점)보다 우수. -
GPQA-Diamond: 일반적인 질문 응답 능력 평가
Qwen2.5-Max는 60.1점으로 DeepSeek V3(59.1점)를 소폭 앞서며, GPT-4o(53.6점), Claude-3.5-Sonnet(51.1점), Llama-3.1-405B(65.0점)보다는 약간 낮음. -
LiveCodeBench: 코딩 능력 평가
Qwen2.5-Max는 38.7점을 기록하며 DeepSeek V3(37.6점)보다 약간 높음. GPT-4o(35.1점), Claude-3.5-Sonnet(30.2점), Llama-3.1-405B(38.9점)와 비슷한 수준. -
LiveBench: 전반적인 모델 성능 평가
Qwen2.5-Max는 62.2점으로 가장 높은 점수를 기록. DeepSeek V3(60.5점), GPT-4o(60.3점), Claude-3.5-Sonnet(56.0점), Llama-3.1-405B(53.2점)보다 우수한 성능.
미래 방향
- 데이터와 모델 크기의 확장은 모델 지능의 발전을 보여주며, 대규모 언어 모델의 사고 및 추론 능력을 향상시키기 위한 연구에 전념하고 있음
- 강화 학습의 혁신적인 적용을 통해 인간 지능을 초월하는 모델을 개발하고, 새로운 지식과 이해의 영역을 탐구할 가능성을 열어줌
2023-08-03 Alibaba, 오픈소스 AI 모델 QWEN 공개
2024-04-25 Qwen1.5-110B : 알리바바의 오픈소스 LLM Qwen1.5 시리즈의 첫번째 100B+ 모델
2024-06-07 Alibaba, Qwen 2 모델 공개
2024-09-19 Qwen2.5 - 여러 파운데이션 모델 공개
2024-11-28 QwQ - ChatGPT o1과 유사한 알리바바의 추론 LLM
2024-12-24 Qwen의 새로운 시각적 추론 모델 QvQ 사용 후기
2025-01-27 Qwen2.5-1M - 1백만 토큰까지 지원하는 Qwen을 자체 배포하기
DeepSeek가 돌풍을 일으키고 있는 와중에 Qwen도 엄청난 결과를 하루에 하나씩 마구 쏟아내고 있네요.
중국 기업들 무섭습니다.