- 오픈소스 커뮤니티에서 최근 1000억 개 이상의 매개변수를 가진 대규모 모델들이 쏟아져 나오고 있으며, 벤치마크 평가와 챗봇 분야에서 놀라운 성능을 보여주고 있음
- 알리바바도 Qwen1.5 시리즈의 첫 번째 100B+ 모델인 Qwen1.5-110B를 공개
- 기본 모델 평가에서 Meta-Llama3-70B와 견줄 만한 성능을 달성하였고, MT-Bench와 AlpacaEval 2.0을 포함한 채팅 평가에서 뛰어난 성능을 보여줌
Qwen1.5-110B 모델의 특징
- Qwen1.5-110B는 다른 Qwen1.5 모델들과 유사하며 동일한 Transformer 디코더 아키텍처로 구축됨
- 그룹화된 쿼리 어텐션(GQA)으로 구성되어 모델 서빙에 효율적임
- 32K 토큰의 컨텍스트 길이를 지원하며, 영어, 중국어, 프랑스어, 스페인어, 독일어, 러시아어, 한국어, 일본어, 베트남어, 아랍어 등 다수의 언어를 지원하는 다국어 모델
기본 언어 모델 평가 결과
- 기본 언어 모델에 대한 일련의 평가와 최근 SOTA 언어 모델인 Meta-Llama3-70B 및 Mixtral-8x22B와 비교
- 결과에 따르면 새로운 110B 모델은 기본 능력 면에서 Llama-3-70B 모델과 적어도 경쟁력이 있음
- 이 모델의 경우 사전 학습 및 사후 학습 레시피를 급격히 변경하지 않았으므로, 72B 대비 성능 향상은 모델 크기 증가에서 비롯된 것으로 보임
채팅 모델 평가 결과
- MT-Bench와 AlpacaEval 2.0에서 채팅 모델을 테스트함
- 이전에 공개된 72B 모델에 비해 110B는 두 가지 벤치마크 평가에서 현저히 우수한 성능을 보임
- 평가에서의 일관된 개선은 사후 학습 레시피를 크게 변경하지 않더라도 더 강력하고 큰 기본 언어 모델이 더 나은 채팅 모델로 이어질 수 있음을 나타냄
Qwen1.5-110B로 개발하기
- Transformers, vLLM, llama.cpp, Ollama, LMStudio, SkyPilot, Axolotl, LLaMA-Factory 등과의 사용법을 파악하려면 Qwen1.5 블로그를 읽어볼 것을 권장
결론
- Qwen1.5-110B는 Qwen1.5 시리즈 중 가장 큰 모델이며, 시리즈 중 첫 번째로 1000억 개 이상의 매개변수를 가진 모델임
- 최근 공개된 SOTA 모델인 Llama-3-70B와 경쟁력 있는 성능을 보여주며, 72B 모델보다 크게 우수함
- 이는 더 나은 성능을 위해 모델 크기 확장에 여전히 많은 가능성이 있음을 나타냄
- Llama-3의 공개는 데이터를 극도로 큰 규모로 확장하는 것의 중요성을 보여주지만, 향후 공개에서 데이터와 모델 크기를 모두 확장하여 두 세계의 장점을 모두 얻을 수 있을 것이라 믿음