# Alibaba, Qwen 2 모델 공개

> Clean Markdown view of GeekNews topic #15235. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=15235](https://news.hada.io/topic?id=15235)
- GeekNews Markdown: [https://news.hada.io/topic/15235.md](https://news.hada.io/topic/15235.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2024-06-08T10:02:01+09:00
- Updated: 2024-06-08T10:02:01+09:00
- Original source: [qwenlm.github.io](https://qwenlm.github.io/blog/qwen2/)
- Points: 5
- Comments: 1

## Topic Body

- Qwen2는 Qwen1.5에서 발전된 모델로, 5가지 크기의 사전 학습 및 명령어 튜닝 모델을 포함  
  - 모델 크기는 Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, Qwen2-72B   
- 영어와 중국어 외에 27개 언어로 데이터를 추가 학습  
- 다수의 벤치마크 평가에서 최첨단 성능을 보여주며, 코딩과 수학 분야에서 크게 성능이 개선  
- Qwen2-7B-Instruct와 Qwen2-72B-Instruct 모델은 YARN을 활용해 최대 128K 토큰의 확장된 컨텍스트 길이를 지원  
  
### Qwen2 모델 정보  
- 모든 모델 크기에 Group Query Attention(GQA)를 적용해 추론 속도 향상과 메모리 사용량 감소  
- 작은 모델의 경우 임베딩 타이잉 기법 적용을 선호  
- 명령어 튜닝 모델은 Needle in a Haystack 태스크 평가를 통해 컨텍스트 길이 처리 능력을 평가  
- YARN 기술을 통해 Qwen2-7B-Instruct와 Qwen2-72B-Instruct는 128K 토큰까지 처리 가능  
  
### 성능  
- 영어, 중국어 외 27개 언어 데이터셋으로 사전학습과 명령어 튜닝을 진행해 다국어 역량을 강화  
- 코드 스위칭 처리 능력이 크게 개선됨  
- 사전학습 데이터셋과 최적화된 학습 방법을 활용해 Qwen2-72B는 Llama-3-70B 등 최신 모델보다 우수한 성능을 보임  
- 사후 학습을 통해 코딩, 수학, 추론, 명령 수행, 다국어 이해 등의 역량을 더욱 향상시켰고, 인간 가치 정렬도 이뤄냈음  
- 16개 벤치마크에서 Qwen2-72B-Instruct는 Qwen1.5-72B-Chat을 크게 앞서고 Llama-3-70B-Instruct와 견줄만한 성능을 보임  
- 작은 크기의 Qwen2 모델들도 비슷하거나 더 큰 SOTA 모델을 능가함. 특히 코딩과 중국어 관련 지표에서 두각을 나타냄  
  
### 주요 사항  
- CodeQwen1.5의 코드 학습 경험과 데이터를 통합해 Qwen2-72B-Instruct의 다양한 프로그래밍 언어 성능을 크게 향상  
- 광범위하고 고품질의 데이터셋을 활용해 Qwen2-72B-Instruct의 수학 문제 해결 역량을 강화  
- 128K 길이의 정보 추출 태스크를 Qwen2-72B-Instruct가 완벽하게 처리할 수 있음  
- 100만 토큰 문서 처리를 위한 효율적인 에이전트 솔루션도 오픈소스화함  
- 4가지 유형의 다국어 유해 질의에 대한 유해 응답 비율을 평가한 결과, Qwen2-72B-Instruct는 GPT-4와 비슷한 수준의 안전성을 보이며 Mistral-8x22B보다 크게 우수  
  
### Qwen2의 활용  
- 모든 모델이 Hugging Face와 ModelScope에 공개되어 자유롭게 활용 가능  
- Qwen2-72B와 명령어 튜닝 모델은 Qianwen License를, 나머지 모델들은 Apache 2.0 라이선스를 채택  
- 다양한 써드파티 프레임워크와 함께 Qwen2를 활용하는 방법은 각 프레임워크 문서와 공식 문서 참고   
  
### Qwen2의 미래 계획  
- 더 큰 Qwen2 모델을 학습시켜 데이터 스케일링과 함께 모델 스케일링을 탐구할 예정  
- 시각과 청각 정보도 이해할 수 있는 멀티모달 언어 모델로 Qwen2를 확장할 계획  
- 앞으로도 새로운 모델을 오픈소스화하여 오픈소스 AI 발전을 가속화할 것

## Comments


### Comment 26024

- Author: xguru
- Created: 2024-06-08T10:03:02+09:00
- Points: 1

[Alibaba, 오픈소스 AI 모델 QWEN 공개 ](https://news.hada.io/topic?id=10249)  
[Qwen1.5-110B : 알리바바의 오픈소스 LLM Qwen1.5 시리즈의 첫번째 100B+ 모델](https://news.hada.io/topic?id=14530)