1P by neo 31일전 | ★ favorite | 댓글 1개
  • Qwen2.5-Max는 20조(20T) 개 이상의 토큰으로 사전 학습한 대규모 Mixture-of-Experts(MoE) 모델
  • Supervised Fine-Tuning(SFT) 및 인간 피드백을 활용한 강화학습(RLHF)을 통해 후속 학습 진행
  • DeepSeek V3, GPT-4o, Claude-3.5-Sonnet, Llama-3.1-405B 등과 비교한 대부분의 벤치마크에서 탁월한 성능을 보여주며 우위를 점함
    • Arena-Hard, LiveBench, LiveCodeBench, GPQA-Diamond 등에서 DeepSeek V3를 능가하며, MMLU-Pro에서도 경쟁력 있는 결과를 보여줌.

주요 벤치마크 결과

  • Arena-Hard: 인간 선호도 근사 평가
    Qwen2.5-Max가 89.4점을 기록하며 가장 높은 성능을 보임. DeepSeek V3(85.5점), GPT-4o(85.2점), Claude-3.5-Sonnet(77.9점)보다 우수. Llama-3.1-405B는 69.3점으로 상대적으로 낮은 성능을 보임.
  • MMLU-Pro: 대학 수준의 지식 평가
    Qwen2.5-Max는 76.1점으로 DeepSeek V3(75.9점)와 거의 동등한 성능을 보임. GPT-4o(78.0점)가 약간 더 높지만, Qwen2.5-Max는 Claude-3.5-Sonnet(77.0점), Llama-3.1-405B(73.3점)보다 우수.
  • GPQA-Diamond: 일반적인 질문 응답 능력 평가
    Qwen2.5-Max는 60.1점으로 DeepSeek V3(59.1점)를 소폭 앞서며, GPT-4o(53.6점), Claude-3.5-Sonnet(51.1점), Llama-3.1-405B(65.0점)보다는 약간 낮음.
  • LiveCodeBench: 코딩 능력 평가
    Qwen2.5-Max는 38.7점을 기록하며 DeepSeek V3(37.6점)보다 약간 높음. GPT-4o(35.1점), Claude-3.5-Sonnet(30.2점), Llama-3.1-405B(38.9점)와 비슷한 수준.
  • LiveBench: 전반적인 모델 성능 평가
    Qwen2.5-Max는 62.2점으로 가장 높은 점수를 기록. DeepSeek V3(60.5점), GPT-4o(60.3점), Claude-3.5-Sonnet(56.0점), Llama-3.1-405B(53.2점)보다 우수한 성능.

미래 방향

  • 데이터와 모델 크기의 확장은 모델 지능의 발전을 보여주며, 대규모 언어 모델의 사고 및 추론 능력을 향상시키기 위한 연구에 전념하고 있음
  • 강화 학습의 혁신적인 적용을 통해 인간 지능을 초월하는 모델을 개발하고, 새로운 지식과 이해의 영역을 탐구할 가능성을 열어줌