GN⁺: Mixtral 8x7B: 희소 전문가 혼합 언어 모델
(arxiv.org)Mixtral of Experts 소개
- Mixtral 8x7B는 Sparse Mixture of Experts (SMoE) 언어 모델임.
- Mixtral은 Mistral 7B와 동일한 구조를 가지고 있으나, 각 레이어가 8개의 피드포워드 블록(전문가)으로 구성됨.
- 각 토큰에 대해 라우터 네트워크가 현재 상태를 처리할 두 전문가를 선택하고 그들의 출력을 결합함.
성능 및 벤치마크
- 각 토큰은 47B 매개변수에 접근할 수 있지만, 추론 중에는 13B 활성 매개변수만 사용함.
- Mixtral은 32k 토큰의 컨텍스트 크기로 훈련되었으며, 모든 평가된 벤치마크에서 Llama 2 70B와 GPT-3.5를 능가하거나 일치함.
- 특히 수학, 코드 생성, 다국어 벤치마크에서 Llama 2 70B를 크게 능가함.
모델 Fine-tuning 및 라이선스
- 지시에 따르도록 Fine-tuning된 모델인 Mixtral 8x7B - Instruct는 GPT-3.5 Turbo, Claude-2.1, Gemini Pro, Llama 2 70B - chat 모델을 인간 벤치마크에서 능가함.
- 기본 모델과 instruct 모델 모두 Apache 2.0 라이선스 하에 공개됨.
GN⁺의 의견
- Mixtral 8x7B는 기존의 언어 모델들과 비교하여 뛰어난 성능을 보이는 것으로 평가됨. 이는 인공지능 언어 처리 분야의 발전을 나타내는 중요한 지표임.
- 특히 다양한 언어와 코드 생성에서의 성능 향상은 기계 번역, 자동 프로그래밍 등 다양한 응용 분야에 긍정적인 영향을 미칠 수 있음.
- Apache 2.0 라이선스로 공개된 것은 연구자와 개발자들이 이 모델을 자유롭게 사용하고 개선할 수 있는 기회를 제공함으로써, 오픈소스 AI 커뮤니티의 성장에 기여할 것임.
Hacker News 의견
-
Mixtral 8x7B 모델에 대한 논의
- Mixtral 8x7B 모델은 약 한 달 전부터 사용되고 있으며, 13B 크기로 매우 우수한 성능을 보임.
- 경쟁 모델 대비 높은 순위를 차지하고 있으며, 일상적인 Mac 사용에서 채팅, 코드 입력 등에 매우 유용함.
- Mistral 7B에서 시작된 8명의 전문가들이 각각 다른 방향으로 발전했을 가능성이 제기됨.
- Mistral의 경우 8x7B 네트워크를 훈련하는 것이 7B 네트워크 8개를 훈련하는 것만큼의 노력이 필요하지 않았던 것으로 보임.
- LLM 분야에서는 여전히 빠른 혁신이 진행 중이며, Calm과 같은 새로운 연구와 Goliath-120b와 같은 실험적인 모델이 등장하고 있음.
- 2024년 상반기에 소비자 하드웨어에서 성능이 좋은 모델이 등장할 것으로 예상됨.
-
모델의 성능과 사용 가능성
- 이 모델은 13b의 매개변수를 사용하여 3090에서 고품질로 원활하게 실행되며, humaneval에서 GPT-3.5를 능가하고 32k 컨텍스트를 지원함.
- 3090은 게이머들 사이에서 흔히 사용되는 소비자 등급 하드웨어임.
- 게임 개발자들이 게임 내에서 Mixtral을 활용하기 시작할 것을 기대함.
-
모델 사용 방법
- Mixtral 모델은 Mozilla/jart에 의해 Llamafile로 공개되었으며, 사용자는 해당 파일을 다운로드하여 실행할 수 있음.
-
Mac 실리콘에서의 사용
- Mac 실리콘 사용자는 ollama.ai를 통해 Mixtral을 다운로드하고, ollama-webui를 사용하여 웹 UI를 구축할 수 있음.
-
관련 뉴스 및 토론
- Mixtral 모델에 대한 최근 뉴스와 토론 링크 제공.
-
모델의 벤치마크 성능
- Mixtral은 수학, 코드 생성, 다국어 벤치마크에서 Llama 2 70B 모델을 크게 앞짐.
- 수학 분야에서의 성능에 대한 관심이 있으며, 이 분야는 아직 효과적으로 해결되지 않은 것으로 보임.
-
논문에 대한 비판적인 의견
- LLM에 대한 논문이 자세한 내용이 부족하다는 비판이 있음.
- 전문가들을 어떻게 훈련했는지, 어떤 데이터셋을 사용했는지에 대한 설명이 누락되었다는 지적이 있음.
-
Mistral 창립자의 인터뷰 내용
- Mistral 창립자는 A16Z 팟캐스트 인터뷰에서 chatGPT와 GPT4 수준 사이의 여러 내부 모델을 가지고 있다고 언급함.
- 지금까지의 고품질 릴리스를 바탕으로 오픈 소스 LLM에 대한 기대감을 표현함.
-
각 전문가 모델의 설명
- 8개의 모델 중 하나가 다국어 번역에 특화되어 있는지, 또 다른 하나가 코딩에 특화되어 있는지에 대한 설명이 논문에 없음.
-
멀티모달 모델의 공개에 대한 기대
- 텍스트만을 다루는 모델의 발전이 놀라웠지만, GPT-4의 '등장하는' 행동이 멀티모달 훈련 때문이 아닌지에 대한 궁금증이 있음.
- 멀티모달이 포함된 작은 모델들이 비슷한 도약을 보일지에 대한 관심이 있음.