5P by xguru 5달전 | favorite | 댓글 1개
  • Qwen2는 Qwen1.5에서 발전된 모델로, 5가지 크기의 사전 학습 및 명령어 튜닝 모델을 포함
    • 모델 크기는 Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, Qwen2-72B
  • 영어와 중국어 외에 27개 언어로 데이터를 추가 학습
  • 다수의 벤치마크 평가에서 최첨단 성능을 보여주며, 코딩과 수학 분야에서 크게 성능이 개선
  • Qwen2-7B-Instruct와 Qwen2-72B-Instruct 모델은 YARN을 활용해 최대 128K 토큰의 확장된 컨텍스트 길이를 지원

Qwen2 모델 정보

  • 모든 모델 크기에 Group Query Attention(GQA)를 적용해 추론 속도 향상과 메모리 사용량 감소
  • 작은 모델의 경우 임베딩 타이잉 기법 적용을 선호
  • 명령어 튜닝 모델은 Needle in a Haystack 태스크 평가를 통해 컨텍스트 길이 처리 능력을 평가
  • YARN 기술을 통해 Qwen2-7B-Instruct와 Qwen2-72B-Instruct는 128K 토큰까지 처리 가능

성능

  • 영어, 중국어 외 27개 언어 데이터셋으로 사전학습과 명령어 튜닝을 진행해 다국어 역량을 강화
  • 코드 스위칭 처리 능력이 크게 개선됨
  • 사전학습 데이터셋과 최적화된 학습 방법을 활용해 Qwen2-72B는 Llama-3-70B 등 최신 모델보다 우수한 성능을 보임
  • 사후 학습을 통해 코딩, 수학, 추론, 명령 수행, 다국어 이해 등의 역량을 더욱 향상시켰고, 인간 가치 정렬도 이뤄냈음
  • 16개 벤치마크에서 Qwen2-72B-Instruct는 Qwen1.5-72B-Chat을 크게 앞서고 Llama-3-70B-Instruct와 견줄만한 성능을 보임
  • 작은 크기의 Qwen2 모델들도 비슷하거나 더 큰 SOTA 모델을 능가함. 특히 코딩과 중국어 관련 지표에서 두각을 나타냄

주요 사항

  • CodeQwen1.5의 코드 학습 경험과 데이터를 통합해 Qwen2-72B-Instruct의 다양한 프로그래밍 언어 성능을 크게 향상
  • 광범위하고 고품질의 데이터셋을 활용해 Qwen2-72B-Instruct의 수학 문제 해결 역량을 강화
  • 128K 길이의 정보 추출 태스크를 Qwen2-72B-Instruct가 완벽하게 처리할 수 있음
  • 100만 토큰 문서 처리를 위한 효율적인 에이전트 솔루션도 오픈소스화함
  • 4가지 유형의 다국어 유해 질의에 대한 유해 응답 비율을 평가한 결과, Qwen2-72B-Instruct는 GPT-4와 비슷한 수준의 안전성을 보이며 Mistral-8x22B보다 크게 우수

Qwen2의 활용

  • 모든 모델이 Hugging Face와 ModelScope에 공개되어 자유롭게 활용 가능
  • Qwen2-72B와 명령어 튜닝 모델은 Qianwen License를, 나머지 모델들은 Apache 2.0 라이선스를 채택
  • 다양한 써드파티 프레임워크와 함께 Qwen2를 활용하는 방법은 각 프레임워크 문서와 공식 문서 참고

Qwen2의 미래 계획

  • 더 큰 Qwen2 모델을 학습시켜 데이터 스케일링과 함께 모델 스케일링을 탐구할 예정
  • 시각과 청각 정보도 이해할 수 있는 멀티모달 언어 모델로 Qwen2를 확장할 계획
  • 앞으로도 새로운 모델을 오픈소스화하여 오픈소스 AI 발전을 가속화할 것