Mistral AI, 새로운 오픈 모델 Mixtral 8x22B 공개

(mistral.ai)

"더 저렴하고, 더 좋으며, 더 빠르고, 더 강력한"
총 141B 파라미터 중 39B의 활성 파라미터만 사용하는 Sparse Mixture-of-Experts(SMoE) 모델로, 모델 크기 대비 비용 효율성이 매우 뛰어남

Mixtral 8x22B의 주요 특징

영어, 프랑스어, 이탈리아어, 독일어, 스페인어에 유창함
수학과 코딩 능력이 우수함
함수 호출이 기본적으로 가능하며, la Plateforme에 구현된 제한된 출력 모드와 함께 대규모 애플리케이션 개발과 기술 스택 현대화가 가능함
64K 토큰 컨텍스트 윈도우를 통해 대량의 문서에서 정확한 정보 리콜이 가능함

Mistral AI는 각 모델 크기에 대해 비용 대비 최고의 성능을 제공하는 모델을 구축하여, 커뮤니티에서 제공하는 모델 중 최고의 성능 대비 비용 비율을 제공함
Mixtral 8x22B는 Mistral AI 오픈 모델 제품군의 자연스러운 연장선상에 있음. Sparse 활성화 패턴 덕분에 Dense 70B 모델보다 빠르면서도 허용적이거나 제한적인 라이선스로 배포되는 다른 오픈 웨이트 모델보다 더 많은 기능을 제공함. 기본 모델의 가용성으로 인해 파인튜닝 사용 사례에 매우 적합한 기반이 됨

Mixtral 8x22B는 추론에 최적화되어 있음
상식, 추론, 지식 벤치마크(MMLU, HellaSwag, Wino Grande, Arc Challenge, TriviaQA, NaturalQS)에서 최고 수준의 LLM 오픈 모델 중 최고 성능을 보임

Mixtral 8x22B는 기본적인 다국어 기능을 갖추고 있음
프랑스어, 독일어, 스페인어, 이탈리아어로 된 HellaSwag, Arc Challenge, MMLU 벤치마크에서 LLaMA 2 70B를 크게 능가함

Mixtral 8x22B는 다른 오픈 모델에 비해 코딩 및 수학 작업에서 가장 우수한 성능을 보임
코딩 및 수학 벤치마크(HumanEval pass@1, MBPP pass@1, GSM8K maj@1/8, Math maj@4)에서 선두적인 오픈 모델 중 최고 성능을 보임
오늘 발표된 Mixtral 8x22B의 Instructed 버전은 수학 성능이 더욱 우수하여 GSM8K maj@8에서 90.8%, Math maj@4에서 44.6%의 점수를 기록

Mixtral 8x22B는 Mistral의 오픈 모델 중 가장 큰 규모이면서도 Sparsity를 활용해 비용 대비 매우 효율적인 모델임. 이는 오픈 소스 LLM 모델의 발전 방향 중 하나로 주목할 만함
모델 크기 대비 뛰어난 다국어 성능, 수학/코딩 능력은 Mixtral 8x22B만의 차별화 포인트로 보임. 하지만 영어 외 언어의 경우 지원 언어의 폭이 좁은 편이며, GPT-4 등 최신 LLM과 비교하면 코딩이나 수학 능력도 뒤쳐지는 수준임
Apache 2.0 라이선스 적용으로 누구나 자유롭게 활용 가능한 점은 장점이나, 악용 가능성도 높아 보임. 오픈소스 AI 모델의 책임있는 개발과 활용을 위한 커뮤니티의 노력이 더욱 필요해 보임
Mixtral 모델을 활용한 애플리케이션 개발과 기술 스택 현대화가 가능하다는 점은 매력적이나, 대규모 서비스에 적용하기에는 아직 기술적/비용적 한계가 있어 보임. 다만 오픈소스 기반의 혁신 사례들이 늘어날 것으로 기대됨
국내에서는 KakaoBrain, NAVER, LG AI Research 등도 자체 LLM을 개발 중임. 한국어 처리 성능 등 한국 시장 특화 측면에서는 이들 모델이 경쟁력을 가질 것으로 보임

Azure AI Studio에 벌써 사용할 수 있게 등록돼있네요. (mistralai-Mixtral-8x7B-v01, mistral-community-Mixtral-8x22B-v0-1)

Polyglot는 카카오브레인이 아니라 튜닙 ai와 EleutherAI가 만들었습니다. 환각 증세가 있네요 ㅠ

아 그렇네요. 수정해 두었습니다. 감사합니다

Claude Opus 한테 의견을 내라고 하면, 가끔 이렇게 국내 얘기를 넣네요. 흥미롭습니다 ㅎ

요약:

세금 관련 질문을 ChatGPT에 넣어봤더니 에세이 작성 서비스 광고가 나옴
"Mixture-of-Experts" 개념에 대한 쉬운 설명 요청
- 하위 전문가가 있다는 개념은 이해하지만, 훈련 중 각 전문 분야를 어떻게 결정하는지 궁금함
64K 토큰 컨텍스트 윈도우 크기에 대한 아쉬움
- GPT-4 Turbo의 128K와 맞추지 못한 것이 향후 농담거리가 될 수도 있음
- 미래에는 1조 토큰 수준까지 늘어날 것으로 예상
MacBook Pro에서 LLM을 실행하는 최선의 방법 문의
- LMStudio는 인터페이스가 마음에 들지 않고, Ollama는 CLI 사용이 불편함
- OpenAI처럼 설정을 세밀하게 조정하고, 프롬프트 편집이 쉬운 솔루션 선호
개방형 모델의 한계
- 학습 데이터에 접근할 수 없으면 모델을 복제할 수 없음
Mistral 시리즈와 성능 비교 결과
AI 스타트업 운영의 장점
- 새로운 대규모 모델이 출시될 때마다 제품이 자동으로 개선됨
"non-instructed" 버전의 LLM이 "instructed" 버전의 가이드 없는 버전인지 질문
LLM으로 인해 RAM의 중요성이 다시 부각됨
- MacBook Pro에 추가로 32GB RAM을 장착하지 않은 것을 후회함
양자화된 모델에 대한 기대
- 64GB MacBook Pro에서 실행 가능한 3비트 모델 희망