# Mixtral 8x7B: 희소 전문가 혼합 언어 모델

> Clean Markdown view of GeekNews topic #12778. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=12778](https://news.hada.io/topic?id=12778)
- GeekNews Markdown: [https://news.hada.io/topic/12778.md](https://news.hada.io/topic/12778.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-01-10T10:06:39+09:00
- Updated: 2024-01-10T10:06:39+09:00
- Original source: [arxiv.org](https://arxiv.org/abs/2401.04088)
- Points: 1
- Comments: 1

## Topic Body

### Mixtral of Experts 소개

- Mixtral 8x7B는 Sparse Mixture of Experts (SMoE) 언어 모델임.
- Mixtral은 Mistral 7B와 동일한 구조를 가지고 있으나, 각 레이어가 8개의 피드포워드 블록(전문가)으로 구성됨.
- 각 토큰에 대해 라우터 네트워크가 현재 상태를 처리할 두 전문가를 선택하고 그들의 출력을 결합함.

### 성능 및 벤치마크

- 각 토큰은 47B 매개변수에 접근할 수 있지만, 추론 중에는 13B 활성 매개변수만 사용함.
- Mixtral은 32k 토큰의 컨텍스트 크기로 훈련되었으며, 모든 평가된 벤치마크에서 Llama 2 70B와 GPT-3.5를 능가하거나 일치함.
- 특히 수학, 코드 생성, 다국어 벤치마크에서 Llama 2 70B를 크게 능가함.

### 모델 Fine-tuning 및 라이선스

- 지시에 따르도록 Fine-tuning된 모델인 Mixtral 8x7B - Instruct는 GPT-3.5 Turbo, Claude-2.1, Gemini Pro, Llama 2 70B - chat 모델을 인간 벤치마크에서 능가함.
- 기본 모델과 instruct 모델 모두 Apache 2.0 라이선스 하에 공개됨.

### GN⁺의 의견

- Mixtral 8x7B는 기존의 언어 모델들과 비교하여 뛰어난 성능을 보이는 것으로 평가됨. 이는 인공지능 언어 처리 분야의 발전을 나타내는 중요한 지표임.
- 특히 다양한 언어와 코드 생성에서의 성능 향상은 기계 번역, 자동 프로그래밍 등 다양한 응용 분야에 긍정적인 영향을 미칠 수 있음.
- Apache 2.0 라이선스로 공개된 것은 연구자와 개발자들이 이 모델을 자유롭게 사용하고 개선할 수 있는 기회를 제공함으로써, 오픈소스 AI 커뮤니티의 성장에 기여할 것임.

## Comments


### Comment 22129

- Author: neo
- Created: 2024-01-10T10:06:39+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=38921668) 
- **Mixtral 8x7B 모델에 대한 논의**
  - Mixtral 8x7B 모델은 약 한 달 전부터 사용되고 있으며, 13B 크기로 매우 우수한 성능을 보임.
  - 경쟁 모델 대비 높은 순위를 차지하고 있으며, 일상적인 Mac 사용에서 채팅, 코드 입력 등에 매우 유용함.
  - Mistral 7B에서 시작된 8명의 전문가들이 각각 다른 방향으로 발전했을 가능성이 제기됨.
  - Mistral의 경우 8x7B 네트워크를 훈련하는 것이 7B 네트워크 8개를 훈련하는 것만큼의 노력이 필요하지 않았던 것으로 보임.
  - LLM 분야에서는 여전히 빠른 혁신이 진행 중이며, Calm과 같은 새로운 연구와 Goliath-120b와 같은 실험적인 모델이 등장하고 있음.
  - 2024년 상반기에 소비자 하드웨어에서 성능이 좋은 모델이 등장할 것으로 예상됨.

- **모델의 성능과 사용 가능성**
  - 이 모델은 13b의 매개변수를 사용하여 3090에서 고품질로 원활하게 실행되며, humaneval에서 GPT-3.5를 능가하고 32k 컨텍스트를 지원함.
  - 3090은 게이머들 사이에서 흔히 사용되는 소비자 등급 하드웨어임.
  - 게임 개발자들이 게임 내에서 Mixtral을 활용하기 시작할 것을 기대함.

- **모델 사용 방법**
  - Mixtral 모델은 Mozilla/jart에 의해 Llamafile로 공개되었으며, 사용자는 해당 파일을 다운로드하여 실행할 수 있음.

- **Mac 실리콘에서의 사용**
  - Mac 실리콘 사용자는 ollama.ai를 통해 Mixtral을 다운로드하고, ollama-webui를 사용하여 웹 UI를 구축할 수 있음.

- **관련 뉴스 및 토론**
  - Mixtral 모델에 대한 최근 뉴스와 토론 링크 제공.

- **모델의 벤치마크 성능**
  - Mixtral은 수학, 코드 생성, 다국어 벤치마크에서 Llama 2 70B 모델을 크게 앞짐.
  - 수학 분야에서의 성능에 대한 관심이 있으며, 이 분야는 아직 효과적으로 해결되지 않은 것으로 보임.

- **논문에 대한 비판적인 의견**
  - LLM에 대한 논문이 자세한 내용이 부족하다는 비판이 있음.
  - 전문가들을 어떻게 훈련했는지, 어떤 데이터셋을 사용했는지에 대한 설명이 누락되었다는 지적이 있음.

- **Mistral 창립자의 인터뷰 내용**
  - Mistral 창립자는 A16Z 팟캐스트 인터뷰에서 chatGPT와 GPT4 수준 사이의 여러 내부 모델을 가지고 있다고 언급함.
  - 지금까지의 고품질 릴리스를 바탕으로 오픈 소스 LLM에 대한 기대감을 표현함.

- **각 전문가 모델의 설명**
  - 8개의 모델 중 하나가 다국어 번역에 특화되어 있는지, 또 다른 하나가 코딩에 특화되어 있는지에 대한 설명이 논문에 없음.

- **멀티모달 모델의 공개에 대한 기대**
  - 텍스트만을 다루는 모델의 발전이 놀라웠지만, GPT-4의 '등장하는' 행동이 멀티모달 훈련 때문이 아닌지에 대한 궁금증이 있음.
  - 멀티모달이 포함된 작은 모델들이 비슷한 도약을 보일지에 대한 관심이 있음.