Mistral AI, Llama 2 70B 모델보다 뛰어난 Mixtral 8x7B 모델 공개

(mistral.ai)

12P by GN⁺ 2023-12-12 | ★ favorite | 댓글 2개

"High-quality Sparse Mixture of Experts Model (SMoE, 고품질 희소 전문가 모델)"
Llama 2 70B를 대부분 벤치마크에서 능가하며, 6배 빠른 추론
대부분의 표준 벤치마크에서 GPT 3.5와 비슷하거나 더 나은 성능을 보임
허용 라이센스가 있는 가장 강력한 오픈 웨이트 모델이며, 비용/성능 면에서 가장 우수한 모델
32k 토큰 컨텍스트 지원
영어/프랑스어/이탈리아어/독일어/스페인어 처리
코드 생성에서 강력한 성능을 보임
MT-Bench 에서 8.3점을 획득한 Instruction-Following 모델로 미세 조정 가능
MMLU 70.6% (Llama 2 70B 69.9%, GPT 3.5 70.0%)

희소 아키텍처를 활용한 오픈 모델의 경계 확장

Mixtral은 희소 전문가 네트워크로, 디코더 전용 모델임
피드포워드 블록이 8개의 서로 다른 파라미터 그룹 중에서 선택하여, 각 레이어마다 토큰마다 라우터 네트워크가 두 개의 전문가 그룹을 선택하고 그 출력을 결합함
이 기술은 모델의 파라미터 수를 증가시키면서 비용과 지연 시간을 제어할 수 있게 해주며, Mixtral은 총 46.7B의 파라미터를 가지지만 토큰 당 12.9B의 파라미터만 사용함

성능

Mixtral은 Llama 2 모델과 GPT3.5 기본 모델과 비교하여 대부분의 벤치마크에서 동등하거나 더 나은 성능을 보임.
Mixtral은 Llama 2 70B 모델과 비교하여 더 진실된 답변을 제공하고(TruthfulQA 벤치마크에서 73.9% 대 50.2%), BBQ 벤치마크에서 더 적은 편향을 보임.
Mixtral은 프랑스어, 독일어, 스페인어, 이탈리아어, 영어를 능숙하게 다룸.

지시에 따른 모델

Mixtral 8x7B Instruct는 지시에 따른 성능을 최적화하기 위해 감독된 미세 조정과 직접적인 선호도 최적화(DPO)를 거침.
MT-Bench에서 8.30의 점수를 달성하여 GPT3.5와 비슷한 성능을 가진 최고의 오픈 소스 모델이 됨.

Mixtral의 오픈 소스 배포 스택으로 배포

커뮤니티가 완전한 오픈 소스 스택으로 Mixtral을 실행할 수 있도록 vLLM 프로젝트에 변경 사항을 제출함.
현재 Mistral AI는 Mixtral 8x7B를 mistral-small 엔드포인트 뒤에서 사용하고 있으며, 베타 버전으로 이용 가능
모든 생성 및 임베딩 엔드포인트에 대한 얼리억세스를 위해 등록 가능함

▲

cosine20 2023-12-12 [-]

아랫 댓글에서도 언급되어있지만, 처음에 8x7B를 보고 그럼 파라미터 총 갯수가 56B인가? 싶었네요.

답변달기

▲

GN⁺ 2023-12-12 [-]

Hacker News 의견

Andrej Karpathy의 의견:
- Mixtral 8x7B에 대한 공식 포스트와 vLLM의 추론 코드 공개
- HuggingFace의 MoE(Mixture of Experts) 설명이 유익함
- 70B 모델의 성능을 12.9B 밀도 모델의 추론 속도로 달성
- "open weights"라는 용어 사용에 긍정적인 반응
- "8x7B"라는 이름이 오해의 소지가 있음을 지적
- 각 토큰과 레이어가 8개 중 2개의 전문가를 선택하는 방식에 대한 혼란 언급
- Mistral-medium 모델에 대한 소개
Huggingface에서의 모델 이용 가능성:
- Mistralai와 TheBloke에서 Mixtral 모델 사용 가능
소프트웨어 엔지니어를 위한 설명 요청:
- 전문가의 혼합이 어떻게 작동하는지에 대한 이해가 필요함
Mixtral 8x7B의 크기에 대한 반응:
- 45억 파라미터를 "small" 모델로 간주하는 것에 대한 흥미 표현
AI의 미래에 대한 전망:
- MoE가 AI의 미래가 될 것이라는 긍정적인 전망
MoE의 작동 원리와 장단점에 대한 질문:
- MoE가 기존 모델에 비해 어떤 이점이 있는지에 대한 설명 필요
모델 파라미터에 대한 혼란:
- "8x7B"라는 이름과 실제 파라미터 수, 토큰 생성 시 사용되는 파라미터에 대한 혼란 표현
Mistral의 접근 방식에 대한 설명:
- Mistral이 모델을 검열하지 않고 자유로운 접근을 추구한다고 CEO가 언급
Mixtral 8x7B의 언어 능력:
- 프랑스어, 독일어, 스페인어, 이탈리아어, 영어를 능숙하게 다룸
모델과 가중치에 대한 정보 요청:
- 모델과 가중치에 대한 링크 요청
시장 경쟁력에 대한 질문:
- GPT 3.5를 앞서는 모델을 가지고 있지만, OpenAI/Google과의 경쟁에서 어떤 기회가 있는지에 대한 의문과 미래 전망에 대한 질문

답변달기