Alibaba, Qwen 2 모델 공개

(qwenlm.github.io)

5P by xguru 2024-06-08 | ★ favorite | 댓글 1개

Qwen2는 Qwen1.5에서 발전된 모델로, 5가지 크기의 사전 학습 및 명령어 튜닝 모델을 포함
- 모델 크기는 Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, Qwen2-72B
영어와 중국어 외에 27개 언어로 데이터를 추가 학습
다수의 벤치마크 평가에서 최첨단 성능을 보여주며, 코딩과 수학 분야에서 크게 성능이 개선
Qwen2-7B-Instruct와 Qwen2-72B-Instruct 모델은 YARN을 활용해 최대 128K 토큰의 확장된 컨텍스트 길이를 지원

Qwen2 모델 정보

모든 모델 크기에 Group Query Attention(GQA)를 적용해 추론 속도 향상과 메모리 사용량 감소
작은 모델의 경우 임베딩 타이잉 기법 적용을 선호
명령어 튜닝 모델은 Needle in a Haystack 태스크 평가를 통해 컨텍스트 길이 처리 능력을 평가
YARN 기술을 통해 Qwen2-7B-Instruct와 Qwen2-72B-Instruct는 128K 토큰까지 처리 가능

성능

영어, 중국어 외 27개 언어 데이터셋으로 사전학습과 명령어 튜닝을 진행해 다국어 역량을 강화
코드 스위칭 처리 능력이 크게 개선됨
사전학습 데이터셋과 최적화된 학습 방법을 활용해 Qwen2-72B는 Llama-3-70B 등 최신 모델보다 우수한 성능을 보임
사후 학습을 통해 코딩, 수학, 추론, 명령 수행, 다국어 이해 등의 역량을 더욱 향상시켰고, 인간 가치 정렬도 이뤄냈음
16개 벤치마크에서 Qwen2-72B-Instruct는 Qwen1.5-72B-Chat을 크게 앞서고 Llama-3-70B-Instruct와 견줄만한 성능을 보임
작은 크기의 Qwen2 모델들도 비슷하거나 더 큰 SOTA 모델을 능가함. 특히 코딩과 중국어 관련 지표에서 두각을 나타냄

주요 사항

CodeQwen1.5의 코드 학습 경험과 데이터를 통합해 Qwen2-72B-Instruct의 다양한 프로그래밍 언어 성능을 크게 향상
광범위하고 고품질의 데이터셋을 활용해 Qwen2-72B-Instruct의 수학 문제 해결 역량을 강화
128K 길이의 정보 추출 태스크를 Qwen2-72B-Instruct가 완벽하게 처리할 수 있음
100만 토큰 문서 처리를 위한 효율적인 에이전트 솔루션도 오픈소스화함
4가지 유형의 다국어 유해 질의에 대한 유해 응답 비율을 평가한 결과, Qwen2-72B-Instruct는 GPT-4와 비슷한 수준의 안전성을 보이며 Mistral-8x22B보다 크게 우수

Qwen2의 활용

모든 모델이 Hugging Face와 ModelScope에 공개되어 자유롭게 활용 가능
Qwen2-72B와 명령어 튜닝 모델은 Qianwen License를, 나머지 모델들은 Apache 2.0 라이선스를 채택
다양한 써드파티 프레임워크와 함께 Qwen2를 활용하는 방법은 각 프레임워크 문서와 공식 문서 참고

Qwen2의 미래 계획

더 큰 Qwen2 모델을 학습시켜 데이터 스케일링과 함께 모델 스케일링을 탐구할 예정
시각과 청각 정보도 이해할 수 있는 멀티모달 언어 모델로 Qwen2를 확장할 계획
앞으로도 새로운 모델을 오픈소스화하여 오픈소스 AI 발전을 가속화할 것

xguru 2024-06-08 [-]

Alibaba, 오픈소스 AI 모델 QWEN 공개
Qwen1.5-110B : 알리바바의 오픈소스 LLM Qwen1.5 시리즈의 첫번째 100B+ 모델