# Mistral AI, Llama 2 70B 모델보다 뛰어난 Mixtral 8x7B 모델 공개

> Clean Markdown view of GeekNews topic #12296. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=12296](https://news.hada.io/topic?id=12296)
- GeekNews Markdown: [https://news.hada.io/topic/12296.md](https://news.hada.io/topic/12296.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2023-12-12T09:57:45+09:00
- Updated: 2023-12-12T09:57:45+09:00
- Original source: [mistral.ai](https://mistral.ai/news/mixtral-of-experts/)
- Points: 12
- Comments: 2

## Topic Body

- "High-quality Sparse Mixture of Experts Model (SMoE, 고품질 희소 전문가 모델)"  
- Llama 2 70B를 대부분 벤치마크에서 능가하며, 6배 빠른 추론  
- 대부분의 표준 벤치마크에서 GPT 3.5와 비슷하거나 더 나은 성능을 보임   
- 허용 라이센스가 있는 가장 강력한 오픈 웨이트 모델이며, 비용/성능 면에서 가장 우수한 모델   
- 32k 토큰 컨텍스트 지원  
- 영어/프랑스어/이탈리아어/독일어/스페인어 처리   
- 코드 생성에서 강력한 성능을 보임   
- MT-Bench 에서 8.3점을 획득한 Instruction-Following 모델로 미세 조정 가능  
- MMLU 70.6% (Llama 2 70B 69.9%, GPT 3.5 70.0%)  
  
### 희소 아키텍처를 활용한 오픈 모델의 경계 확장  
  
- Mixtral은 희소 전문가 네트워크로, 디코더 전용 모델임  
- 피드포워드 블록이 8개의 서로 다른 파라미터 그룹 중에서 선택하여, 각 레이어마다 토큰마다 라우터 네트워크가 두 개의 전문가 그룹을 선택하고 그 출력을 결합함  
- 이 기술은 모델의 파라미터 수를 증가시키면서 비용과 지연 시간을 제어할 수 있게 해주며, Mixtral은 총 46.7B의 파라미터를 가지지만 토큰 당 12.9B의 파라미터만 사용함  
  
### 성능  
  
- Mixtral은 Llama 2 모델과 GPT3.5 기본 모델과 비교하여 대부분의 벤치마크에서 동등하거나 더 나은 성능을 보임.  
- Mixtral은 Llama 2 70B 모델과 비교하여 더 진실된 답변을 제공하고(TruthfulQA 벤치마크에서 73.9% 대 50.2%), BBQ 벤치마크에서 더 적은 편향을 보임.  
- Mixtral은 프랑스어, 독일어, 스페인어, 이탈리아어, 영어를 능숙하게 다룸.  
  
### 지시에 따른 모델  
  
- Mixtral 8x7B Instruct는 지시에 따른 성능을 최적화하기 위해 감독된 미세 조정과 직접적인 선호도 최적화(DPO)를 거침.  
- MT-Bench에서 8.30의 점수를 달성하여 GPT3.5와 비슷한 성능을 가진 최고의 오픈 소스 모델이 됨.  
  
### Mixtral의 오픈 소스 배포 스택으로 배포  
  
- 커뮤니티가 완전한 오픈 소스 스택으로 Mixtral을 실행할 수 있도록 vLLM 프로젝트에 변경 사항을 제출함.  
- 현재 Mistral AI는 Mixtral 8x7B를 _mistral-small_ 엔드포인트 뒤에서 사용하고 있으며, 베타 버전으로 이용 가능  
- 모든 생성 및 임베딩 엔드포인트에 대한 얼리억세스를 위해 등록 가능함

## Comments


### Comment 21363

- Author: cosine20
- Created: 2023-12-12T11:59:57+09:00
- Points: 1

아랫 댓글에서도 언급되어있지만, 처음에 8x7B를 보고 그럼 파라미터 총 갯수가 56B인가? 싶었네요.

### Comment 21354

- Author: neo
- Created: 2023-12-12T09:57:45+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=38598559) 
- Andrej Karpathy의 의견:
  - Mixtral 8x7B에 대한 공식 포스트와 vLLM의 추론 코드 공개
  - HuggingFace의 MoE(Mixture of Experts) 설명이 유익함
  - 70B 모델의 성능을 12.9B 밀도 모델의 추론 속도로 달성
  - "open weights"라는 용어 사용에 긍정적인 반응
  - "8x7B"라는 이름이 오해의 소지가 있음을 지적
  - 각 토큰과 레이어가 8개 중 2개의 전문가를 선택하는 방식에 대한 혼란 언급
  - Mistral-medium 모델에 대한 소개

- Huggingface에서의 모델 이용 가능성:
  - Mistralai와 TheBloke에서 Mixtral 모델 사용 가능

- 소프트웨어 엔지니어를 위한 설명 요청:
  - 전문가의 혼합이 어떻게 작동하는지에 대한 이해가 필요함

- Mixtral 8x7B의 크기에 대한 반응:
  - 45억 파라미터를 "small" 모델로 간주하는 것에 대한 흥미 표현

- AI의 미래에 대한 전망:
  - MoE가 AI의 미래가 될 것이라는 긍정적인 전망

- MoE의 작동 원리와 장단점에 대한 질문:
  - MoE가 기존 모델에 비해 어떤 이점이 있는지에 대한 설명 필요

- 모델 파라미터에 대한 혼란:
  - "8x7B"라는 이름과 실제 파라미터 수, 토큰 생성 시 사용되는 파라미터에 대한 혼란 표현

- Mistral의 접근 방식에 대한 설명:
  - Mistral이 모델을 검열하지 않고 자유로운 접근을 추구한다고 CEO가 언급

- Mixtral 8x7B의 언어 능력:
  - 프랑스어, 독일어, 스페인어, 이탈리아어, 영어를 능숙하게 다룸

- 모델과 가중치에 대한 정보 요청:
  - 모델과 가중치에 대한 링크 요청

- 시장 경쟁력에 대한 질문:
  - GPT 3.5를 앞서는 모델을 가지고 있지만, OpenAI/Google과의 경쟁에서 어떤 기회가 있는지에 대한 의문과 미래 전망에 대한 질문