오픈소스 언어 모델의 현재

xguru · 2023-08-09T11:03:01+09:00

LLaMA 2 출시후 더 뜨거워짐 거의 모든 오픈소스 모델 그룹들이 새로운 베이스 모델로 자신의 모델을 업데이트 WizardLM, Airoboros, Hermes 등 현재 가장 강력한 모델은 StabilityAI의 Stable Beluga 2 Llama2 70B 모델을 Orca 스타일 데이터셋으로 파인 튜닝 ChatGPT 와 비교 가능 Long 모델들 LLaMA 7B 16K, LLaMA 13B 16K, LLaMA 7B 32K 작지만 강력한 모델들 7B 만큼 강력한 3B 파라미터 모델들 아직 한계에 도달하지 않았고, 더 나아가야 할 것이 많음 SlimPajama, SwiGLU, ALiBI, Variable Sequence Length, Maximal update parameterization (muP) 오픈모델이 MMLU 에서 ChatGPT를 이기다 : llama-2-70b-guanaco-qlora Multi-Turn 채팅 : llama2-13b-orca-8k-3319 중국 모델들이 싸우는중 : CodeGeex2 오픈 모델이 ChatGPT 수준에 도달했나? 아직, 하지만 곧 도달할 수도

(twitter.com/Yampeleg)

22P by xguru 2023-08-09 | ★ favorite | 댓글 3개

LLaMA 2 출시후 더 뜨거워짐
- 거의 모든 오픈소스 모델 그룹들이 새로운 베이스 모델로 자신의 모델을 업데이트
  - WizardLM, Airoboros, Hermes 등
- 현재 가장 강력한 모델은 StabilityAI의 Stable Beluga 2
  - Llama2 70B 모델을 Orca 스타일 데이터셋으로 파인 튜닝
  - ChatGPT 와 비교 가능
Long 모델들
- LLaMA 7B 16K, LLaMA 13B 16K, LLaMA 7B 32K
작지만 강력한 모델들
- 7B 만큼 강력한 3B 파라미터 모델들
- 아직 한계에 도달하지 않았고, 더 나아가야 할 것이 많음
- SlimPajama, SwiGLU, ALiBI, Variable Sequence Length, Maximal update parameterization (muP)
오픈모델이 MMLU 에서 ChatGPT를 이기다 : llama-2-70b-guanaco-qlora
Multi-Turn 채팅 : llama2-13b-orca-8k-3319
중국 모델들이 싸우는중 : CodeGeex2
오픈 모델이 ChatGPT 수준에 도달했나?
- 아직, 하지만 곧 도달할 수도