7P by xguru 2달전 | favorite | 댓글 1개
  • Qwen2.5에는 LLM Qwen2.5, 코딩용 Qwen2.5-Coder, 수학용 Qwen2.5-Math 등 특화 모델이 포함됨
  • 모든 오픈 웨이트 모델은 dense decoder-only 언어 모델이며 0.5B에서 72B까지 다양한 크기로 제공됨
  • 3B와 72B 모델을 제외한 모든 오픈소스 모델은 Apache 2.0 라이선스로 제공됨
  • 플래그십 언어 모델인 Qwen-Plus와 Qwen-Turbo는 Model Studio를 통해 API로 제공됨
  • Qwen2-VL-72B도 오픈소스로 공개했으며 지난달 버전보다 성능이 향상되었음

Qwen2.5의 특징

  • 최대 18조 토큰의 대규모 데이터셋으로 사전학습되어 Qwen2에 비해 지식이 크게 늘어났음 (MMLU: 85+)
  • 코딩(HumanEval 85+)과 수학(MATH 80+) 능력도 크게 향상됨
  • 명령어 따르기, 긴 텍스트 생성(8K 토큰 이상), 구조화된 데이터 이해(예: 테이블), JSON 등 구조화된 출력 생성 능력이 크게 개선됨
  • 시스템 프롬프트 다양성에 더 강건해져 챗봇의 역할 수행과 조건 설정이 용이해짐
  • Qwen2와 마찬가지로 Qwen2.5 언어 모델은 최대 128K 토큰을 지원하고 최대 8K 토큰을 생성할 수 있음
  • 중국어, 영어, 프랑스어, 스페인어, 포르투갈어, 독일어, 이탈리아어, 러시아어, 일본어, 한국어, 베트남어, 태국어, 아랍어 등 29개 이상의 언어를 지원함

성능

Qwen2.5

  • 최대 오픈소스 모델인 Qwen2.5-72B(72B 파라미터 dense decoder-only 언어 모델)의 성능을 Llama-3.1-70B, Mistral-Large-V2 등 주요 오픈소스 모델과 비교함
  • 다양한 벤치마크에서 명령어 튜닝 버전들의 포괄적인 결과를 제시하며 모델 능력과 사람의 선호도를 모두 평가함
  • 명령어 튜닝된 언어 모델 외에도 Qwen2.5-72B의 base 언어 모델이 Llama-3-405B 같은 더 큰 모델과 비교해도 최고 수준의 성능을 보임
  • API 기반 모델인 Qwen-Plus의 최신 버전을 GPT4-o, Claude-3.5-Sonnet, Llama-3.1-405B, DeepSeek-V2.5 등 유명 독점 및 오픈소스 모델과 비교함
    • Qwen-Plus가 DeepSeek-V2.5를 크게 능가하고 Llama-3.1-405B와 대등한 성능을 보이지만 일부 측면에서는 GPT4-o와 Claude-3.5-Sonnet에 미치지 못함
  • Qwen2.5-14BQwen2.5-32B를 재도입함. 이 모델들은 Phi-3.5-MoE-Instruct, Gemma2-27B-IT 같은 비슷하거나 더 큰 크기의 기준 모델들을 능가함
  • API 기반 모델 Qwen-Turbo는 합리적인 가격으로 빠른 서비스를 제공하며 두 오픈소스 모델에 비해 매우 경쟁력 있는 성능을 보임
  • Qwen2.5-3B는 약 30억 개의 파라미터로 매우 인상적인 성능을 내며 이전 버전에 비해 효율성과 능력이 뛰어남
  • 벤치마크 평가 개선 외에도 사후 훈련 방법론을 개선했음. 4가지 주요 업데이트는 최대 8K 토큰까지 긴 텍스트 생성 지원, 구조화된 데이터 이해력 크게 향상, JSON 형식 등 구조화된 출력 생성이 더 신뢰할 수 있게 됨, 다양한 시스템 프롬프트에서 성능이 향상되어 역할 수행에 도움이 됨

Qwen2.5-Coder

  • CodeQwen1.5 출시 이후 디버깅, 코딩 관련 질문 답변, 코드 제안 등 다양한 코딩 작업에 이 모델을 의존하는 사용자가 많아짐
  • 최신 버전 Qwen2.5-Coder는 코딩 응용 프로그램을 위해 특별히 설계됨
  • 크기가 작음에도 불구하고 다양한 프로그래밍 언어와 작업에서 더 큰 언어 모델들을 능가하는 등 뛰어난 코딩 능력을 보여줌

Qwen2.5-Math

  • 지난달 처음 수학 전용 언어 모델인 Qwen2-Math를 출시했고, Qwen2-Math에 비해 Qwen2.5-Math는 Qwen2-Math가 생성한 합성 데이터를 포함해 더 대규모의 수학 관련 데이터로 사전학습되었음
  • 이번에는 중국어 지원을 확장했고 CoT, PoT, TIR 수행 능력을 부여하여 추론 능력도 강화
  • Qwen2.5-Math-72B-Instruct의 일반적인 성능은 Qwen2-Math-72B-Instruct와 GPT4-o를 능가하며, Qwen2.5-Math-1.5B-Instruct와 같은 매우 작은 전문가 모델조차도 대형 언어 모델과 비교해 매우 경쟁력 있는 성능을 낼 수 있음

Qwen2.5로 개발하기

  • Qwen2.5를 vLLM과 함께 사용하려면 다음 명령어로 OpenAI API 호환 서비스를 배포할 수 있음:
  • Qwen2.5는 vllm의 내장 tool calling을 지원함. 이 기능은 vllm>=0.6이 필요
  • Qwen2.5는 또한 Ollama의 tool calling을 지원
  • Hugging Face transformers의 tool calling 지원도 이용 가능
  • 이전에 Qwen-Agent가 Qwen2 자체 tool calling 템플릿을 사용해 tool calling을 지원했고, Qwen2.5는 Qwen2 템플릿 및 Qwen-Agent와도 호환성을 유지

앞으로 계획은?

  • 동시에 많은 고품질 모델을 출시하게 되어 기쁘지만 여전히 중대한 과제가 남아있음을 인지하고 있음
  • 최근 출시를 통해 언어, 시각-언어, 오디오-언어 영역에서 강력한 기반 모델을 개발하기 위해 노력하고 있음을 보여줌
  • 그러나 이러한 다양한 모달리티를 하나의 모델로 통합하여 모든 영역에서 정보를 원활하게 처리할 수 있도록 하는 것이 중요함
  • 데이터 스케일링을 통해 추론 능력을 향상시켰지만, 최근 강화학습 발전에 영감을 받아 inference compute를 스케일링하여 모델의 추론 능력을 더욱 향상시키는 데 전념하고 있음