# Qwen2.5 - 여러 파운데이션 모델 공개

> Clean Markdown view of GeekNews topic #16852. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=16852](https://news.hada.io/topic?id=16852)
- GeekNews Markdown: [https://news.hada.io/topic/16852.md](https://news.hada.io/topic/16852.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2024-09-20T11:22:54+09:00
- Updated: 2024-09-20T11:22:54+09:00
- Original source: [qwenlm.github.io](https://qwenlm.github.io/blog/qwen2.5/)
- Points: 7
- Comments: 1

## Summary

Alibaba의 Qwen2.5는 다양한 특화 모델(Qwen2.5-Coder, Qwen2.5-Math 등)을 포함하며, 0.5B에서 72B까지 다양한 크기로 제공되어 사용자의 필요에 맞게 선택할 수 있습니다. 이 모델은 최대 18조 토큰의 대규모 데이터셋으로 사전학습되어 지식과 성능이 크게 향상되었으며, 29개 이상의 언어를 지원합니다. 다양한 벤치마크에서 뛰어난 성능을 보이며, 특히 코딩과 수학 능력이 크게 향상되어 관련 작업에 유용합니다.

## Topic Body

- Qwen2.5에는 LLM Qwen2.5, 코딩용 Qwen2.5-Coder, 수학용 Qwen2.5-Math 등 특화 모델이 포함됨  
- 모든 오픈 웨이트 모델은 dense decoder-only 언어 모델이며 0.5B에서 72B까지 다양한 크기로 제공됨  
- 3B와 72B 모델을 제외한 모든 오픈소스 모델은 Apache 2.0 라이선스로 제공됨  
- 플래그십 언어 모델인 Qwen-Plus와 Qwen-Turbo는 Model Studio를 통해 API로 제공됨  
- Qwen2-VL-72B도 오픈소스로 공개했으며 지난달 버전보다 성능이 향상되었음  
  
### Qwen2.5의 특징  
- 최대 **18조** 토큰의 대규모 데이터셋으로 사전학습되어 Qwen2에 비해 지식이 크게 늘어났음 (MMLU: 85+)   
- 코딩(HumanEval 85+)과 수학(MATH 80+) 능력도 크게 향상됨  
- 명령어 따르기, 긴 텍스트 생성(8K 토큰 이상), 구조화된 데이터 이해(예: 테이블), JSON 등 구조화된 출력 생성 능력이 크게 개선됨  
- 시스템 프롬프트 다양성에 더 강건해져 챗봇의 역할 수행과 조건 설정이 용이해짐  
- Qwen2와 마찬가지로 Qwen2.5 언어 모델은 최대 **128K** 토큰을 지원하고 최대 **8K** 토큰을 생성할 수 있음  
- 중국어, 영어, 프랑스어, 스페인어, 포르투갈어, 독일어, 이탈리아어, 러시아어, 일본어, 한국어, 베트남어, 태국어, 아랍어 등 **29개** 이상의 언어를 지원함  
  
### 성능  
#### Qwen2.5  
- 최대 오픈소스 모델인 **Qwen2.5-72B**(72B 파라미터 dense decoder-only 언어 모델)의 성능을 Llama-3.1-70B, Mistral-Large-V2 등 주요 오픈소스 모델과 비교함  
- 다양한 벤치마크에서 명령어 튜닝 버전들의 포괄적인 결과를 제시하며 모델 능력과 사람의 선호도를 모두 평가함  
- 명령어 튜닝된 언어 모델 외에도 Qwen2.5-72B의 base 언어 모델이 Llama-3-405B 같은 더 큰 모델과 비교해도 최고 수준의 성능을 보임  
- API 기반 모델인 **Qwen-Plus**의 최신 버전을 GPT4-o, Claude-3.5-Sonnet, Llama-3.1-405B, DeepSeek-V2.5 등 유명 독점 및 오픈소스 모델과 비교함  
  - **Qwen-Plus**가 DeepSeek-V2.5를 크게 능가하고 Llama-3.1-405B와 대등한 성능을 보이지만 일부 측면에서는 GPT4-o와 Claude-3.5-Sonnet에 미치지 못함  
- **Qwen2.5-14B**와 **Qwen2.5-32B**를 재도입함. 이 모델들은 Phi-3.5-MoE-Instruct, Gemma2-27B-IT 같은 비슷하거나 더 큰 크기의 기준 모델들을 능가함  
- API 기반 모델 **Qwen-Turbo**는 합리적인 가격으로 빠른 서비스를 제공하며 두 오픈소스 모델에 비해 매우 경쟁력 있는 성능을 보임  
- **Qwen2.5-3B**는 약 30억 개의 파라미터로 매우 인상적인 성능을 내며 이전 버전에 비해 효율성과 능력이 뛰어남  
- 벤치마크 평가 개선 외에도 사후 훈련 방법론을 개선했음. 4가지 주요 업데이트는 최대 8K 토큰까지 긴 텍스트 생성 지원, 구조화된 데이터 이해력 크게 향상, JSON 형식 등 구조화된 출력 생성이 더 신뢰할 수 있게 됨, 다양한 시스템 프롬프트에서 성능이 향상되어 역할 수행에 도움이 됨  
  
#### Qwen2.5-Coder  
- CodeQwen1.5 출시 이후 디버깅, 코딩 관련 질문 답변, 코드 제안 등 다양한 코딩 작업에 이 모델을 의존하는 사용자가 많아짐  
- 최신 버전 Qwen2.5-Coder는 코딩 응용 프로그램을 위해 특별히 설계됨  
- 크기가 작음에도 불구하고 다양한 프로그래밍 언어와 작업에서 더 큰 언어 모델들을 능가하는 등 뛰어난 코딩 능력을 보여줌  
  
#### Qwen2.5-Math  
- 지난달 처음 수학 전용 언어 모델인 Qwen2-Math를 출시했고, Qwen2-Math에 비해 Qwen2.5-Math는 Qwen2-Math가 생성한 합성 데이터를 포함해 더 대규모의 수학 관련 데이터로 사전학습되었음   
- 이번에는 중국어 지원을 확장했고 CoT, PoT, TIR 수행 능력을 부여하여 추론 능력도 강화  
- Qwen2.5-Math-72B-Instruct의 일반적인 성능은 Qwen2-Math-72B-Instruct와 GPT4-o를 능가하며, Qwen2.5-Math-1.5B-Instruct와 같은 매우 작은 전문가 모델조차도 대형 언어 모델과 비교해 매우 경쟁력 있는 성능을 낼 수 있음  
  
### Qwen2.5로 개발하기  
- Qwen2.5를 vLLM과 함께 사용하려면 다음 명령어로 OpenAI API 호환 서비스를 배포할 수 있음:  
- Qwen2.5는 vllm의 내장 tool calling을 지원함. 이 기능은 `vllm>=0.6`이 필요  
- Qwen2.5는 또한 [Ollama의 tool calling](https://ollama.com/blog/tool-support)을 지원  
- Hugging Face [transformers의 tool calling 지원](https://huggingface.co/docs/transformers/main/en/chat_templating#advanced-tool-use--function-calling)도 이용 가능  
- 이전에 [Qwen-Agent](https://github.com/QwenLM/Qwen-Agent)가 Qwen2 자체 tool calling 템플릿을 사용해 tool calling을 지원했고, Qwen2.5는 Qwen2 템플릿 및 Qwen-Agent와도 호환성을 유지  
  
### 앞으로 계획은?   
- 동시에 많은 고품질 모델을 출시하게 되어 기쁘지만 여전히 중대한 과제가 남아있음을 인지하고 있음  
- 최근 출시를 통해 언어, 시각-언어, 오디오-언어 영역에서 강력한 기반 모델을 개발하기 위해 노력하고 있음을 보여줌  
- 그러나 이러한 다양한 모달리티를 하나의 모델로 통합하여 모든 영역에서 정보를 원활하게 처리할 수 있도록 하는 것이 중요함   
- 데이터 스케일링을 통해 추론 능력을 향상시켰지만, 최근 강화학습 발전에 영감을 받아 inference compute를 스케일링하여 모델의 추론 능력을 더욱 향상시키는 데 전념하고 있음

## Comments


### Comment 29052

- Author: xguru
- Created: 2024-09-20T11:23:01+09:00
- Points: 1

[Alibaba, 오픈소스 AI 모델 QWEN 공개](https://news.hada.io/topic?id=10249)  
[Alibaba, Qwen 2 모델 공개](https://news.hada.io/topic?id=15235)