GN⁺: Mistral AI, 새로운 오픈 모델 Mixtral 8x22B 공개
(mistral.ai)- "더 저렴하고, 더 좋으며, 더 빠르고, 더 강력한"
- 총 141B 파라미터 중 39B의 활성 파라미터만 사용하는 Sparse Mixture-of-Experts(SMoE) 모델로, 모델 크기 대비 비용 효율성이 매우 뛰어남
Mixtral 8x22B의 주요 특징
- 영어, 프랑스어, 이탈리아어, 독일어, 스페인어에 유창함
- 수학과 코딩 능력이 우수함
- 함수 호출이 기본적으로 가능하며, la Plateforme에 구현된 제한된 출력 모드와 함께 대규모 애플리케이션 개발과 기술 스택 현대화가 가능함
- 64K 토큰 컨텍스트 윈도우를 통해 대량의 문서에서 정확한 정보 리콜이 가능함
진정한 오픈 모델
- Mistral AI는 AI에서의 혁신과 협업을 촉진하기 위해 개방성과 광범위한 배포의 힘을 믿음
- Mixtral 8x22B는 가장 허용적인 오픈 소스 라이선스인 Apache 2.0으로 배포되어, 누구나 제한 없이 모델을 사용할 수 있음
최고의 효율성
- Mistral AI는 각 모델 크기에 대해 비용 대비 최고의 성능을 제공하는 모델을 구축하여, 커뮤니티에서 제공하는 모델 중 최고의 성능 대비 비용 비율을 제공함
- Mixtral 8x22B는 Mistral AI 오픈 모델 제품군의 자연스러운 연장선상에 있음. Sparse 활성화 패턴 덕분에 Dense 70B 모델보다 빠르면서도 허용적이거나 제한적인 라이선스로 배포되는 다른 오픈 웨이트 모델보다 더 많은 기능을 제공함. 기본 모델의 가용성으로 인해 파인튜닝 사용 사례에 매우 적합한 기반이 됨
견줄 데 없는 오픈 성능
추론 및 지식
- Mixtral 8x22B는 추론에 최적화되어 있음
- 상식, 추론, 지식 벤치마크(MMLU, HellaSwag, Wino Grande, Arc Challenge, TriviaQA, NaturalQS)에서 최고 수준의 LLM 오픈 모델 중 최고 성능을 보임
다국어 기능
- Mixtral 8x22B는 기본적인 다국어 기능을 갖추고 있음
- 프랑스어, 독일어, 스페인어, 이탈리아어로 된 HellaSwag, Arc Challenge, MMLU 벤치마크에서 LLaMA 2 70B를 크게 능가함
수학 및 코딩
- Mixtral 8x22B는 다른 오픈 모델에 비해 코딩 및 수학 작업에서 가장 우수한 성능을 보임
- 코딩 및 수학 벤치마크(HumanEval pass@1, MBPP pass@1, GSM8K maj@1/8, Math maj@4)에서 선두적인 오픈 모델 중 최고 성능을 보임
- 오늘 발표된 Mixtral 8x22B의 Instructed 버전은 수학 성능이 더욱 우수하여 GSM8K maj@8에서 90.8%, Math maj@4에서 44.6%의 점수를 기록
GN⁺의 의견
- Mixtral 8x22B는 Mistral의 오픈 모델 중 가장 큰 규모이면서도 Sparsity를 활용해 비용 대비 매우 효율적인 모델임. 이는 오픈 소스 LLM 모델의 발전 방향 중 하나로 주목할 만함
- 모델 크기 대비 뛰어난 다국어 성능, 수학/코딩 능력은 Mixtral 8x22B만의 차별화 포인트로 보임. 하지만 영어 외 언어의 경우 지원 언어의 폭이 좁은 편이며, GPT-4 등 최신 LLM과 비교하면 코딩이나 수학 능력도 뒤쳐지는 수준임
- Apache 2.0 라이선스 적용으로 누구나 자유롭게 활용 가능한 점은 장점이나, 악용 가능성도 높아 보임. 오픈소스 AI 모델의 책임있는 개발과 활용을 위한 커뮤니티의 노력이 더욱 필요해 보임
- Mixtral 모델을 활용한 애플리케이션 개발과 기술 스택 현대화가 가능하다는 점은 매력적이나, 대규모 서비스에 적용하기에는 아직 기술적/비용적 한계가 있어 보임. 다만 오픈소스 기반의 혁신 사례들이 늘어날 것으로 기대됨
- 국내에서는 KakaoBrain, NAVER, LG AI Research 등도 자체 LLM을 개발 중임. 한국어 처리 성능 등 한국 시장 특화 측면에서는 이들 모델이 경쟁력을 가질 것으로 보임
-
Mixtral 8x22B 기본 모델: https://huggingface.co/mistralai/Mixtral-8x22B-v0.1
-
Mixtral 8x22B Instruct 모델: https://huggingface.co/mistralai/Mixtral-8x22B-Instruct-v0.1
Azure AI Studio에 벌써 사용할 수 있게 등록돼있네요. (mistralai-Mixtral-8x7B-v01, mistral-community-Mixtral-8x22B-v0-1)
Hacker News 의견
요약:
- 세금 관련 질문을 ChatGPT에 넣어봤더니 에세이 작성 서비스 광고가 나옴
- "Mixture-of-Experts" 개념에 대한 쉬운 설명 요청
- 하위 전문가가 있다는 개념은 이해하지만, 훈련 중 각 전문 분야를 어떻게 결정하는지 궁금함
- 64K 토큰 컨텍스트 윈도우 크기에 대한 아쉬움
- GPT-4 Turbo의 128K와 맞추지 못한 것이 향후 농담거리가 될 수도 있음
- 미래에는 1조 토큰 수준까지 늘어날 것으로 예상
- MacBook Pro에서 LLM을 실행하는 최선의 방법 문의
-
LMStudio
는 인터페이스가 마음에 들지 않고,Ollama
는 CLI 사용이 불편함 - OpenAI처럼 설정을 세밀하게 조정하고, 프롬프트 편집이 쉬운 솔루션 선호
-
- 개방형 모델의 한계
- 학습 데이터에 접근할 수 없으면 모델을 복제할 수 없음
-
Mistral
시리즈와 성능 비교 결과 - AI 스타트업 운영의 장점
- 새로운 대규모 모델이 출시될 때마다 제품이 자동으로 개선됨
- "non-instructed" 버전의 LLM이 "instructed" 버전의 가이드 없는 버전인지 질문
- LLM으로 인해 RAM의 중요성이 다시 부각됨
- MacBook Pro에 추가로 32GB RAM을 장착하지 않은 것을 후회함
- 양자화된 모델에 대한 기대
- 64GB MacBook Pro에서 실행 가능한 3비트 모델 희망