Mistral 3 모델 제품군 공개
(mistral.ai)- Mistral 3 시리즈는 3B, 8B, 14B의 소형 모델과 41B 활성·675B 총 파라미터를 가진 Mistral Large 3로 구성된 차세대 오픈소스 AI 모델군
- 모든 모델이 Apache 2.0 라이선스로 공개되어, 개발자와 기업이 자유롭게 활용 및 커스터마이징 가능
- Mistral Large 3는 NVIDIA H200 GPU 3000개로 학습된 Mixture-of-Experts 구조를 채택해, 다국어 대화와 이미지 이해에서 최고 수준 성능 달성
- Ministral 3는 엣지 환경용으로 설계되어, 비용 대비 성능이 뛰어나며 추론(reasoning) 변형 모델은 AIME ‘25에서 85% 정확도 기록
- Mistral 3는 Mistral AI Studio, Hugging Face, AWS, Azure 등 주요 플랫폼에서 즉시 사용 가능하며, 오픈 AI 생태계 확장을 목표로 함
Mistral 3 개요
- Mistral 3는 Mistral AI의 차세대 모델군으로, 소형 밀집 모델(3B, 8B, 14B)과 대형 희소 모델 Mistral Large 3로 구성
- Mistral Large 3는 41B 활성 파라미터, 675B 총 파라미터를 가진 Mixture-of-Experts(MoE) 구조
- 모든 모델은 Apache 2.0 라이선스로 공개되어 오픈소스 커뮤니티 활용 가능
- 모델은 다양한 압축 포맷으로 제공되어, 분산 지능을 통한 접근성 향상
- Ministral 모델군은 비용 대비 성능비가 가장 우수한 OSS 모델로 평가됨
Mistral Large 3: 오픈 가중치 기반 최상위 모델
- Mistral Large 3는 NVIDIA H200 GPU 3000개로 처음부터 학습된 오픈 가중치 모델
- Mixtral 시리즈 이후 첫 Mixture-of-Experts 모델로, Mistral의 사전학습 기술 발전을 반영
- 학습 후, 일반 프롬프트 성능에서 최고 수준의 오픈 가중치 모델과 동등한 성능을 보이며,
이미지 이해와 비영어권 다국어 대화에서도 우수한 결과 달성 - LMArena 리더보드에서 OSS 비추론(non-reasoning) 모델 2위, 전체 OSS 모델 6위 기록
- 기본(base) 및 지시(instruct) 튜닝 버전이 공개되었으며, 추론(reasoning) 버전은 곧 출시 예정
NVIDIA·vLLM·Red Hat과의 협력
- Mistral Large 3는 vLLM 및 Red Hat과 협력해 오픈소스 커뮤니티에서 쉽게 접근 가능
- llm-compressor로 제작된 NVFP4 포맷 체크포인트 제공
- vLLM을 통해 Blackwell NVL72, 8×A100, 8×H100 시스템에서 효율적 실행 가능
- NVIDIA와의 협력으로 TensorRT-LLM, SGLang 등에서 저정밀 추론 지원
- Blackwell 어텐션 및 MoE 커널, prefill/decode 분리 서빙, 추측 디코딩(speculative decoding) 기능 통합
- DGX Spark, RTX PC, Jetson 디바이스 등 엣지 환경에서도 최적화된 배포 지원
Ministral 3: 엣지용 지능형 모델
-
엣지 및 로컬 환경을 위한 Ministral 3 시리즈는 3B, 8B, 14B 세 가지 크기로 제공
- 각 모델은 base, instruct, reasoning 세 가지 변형으로 공개
- 모든 변형이 이미지 이해 및 다국어 처리 기능 포함
-
비용 대비 성능비가 가장 높은 OSS 모델로,
instruct 모델은 경쟁 모델과 동등하거나 더 나은 성능을 보이면서 토큰 수를 10분의 1 수준으로 절감 -
reasoning 변형 모델은 정확도 중심 환경에서 강점을 보이며,
14B 모델이 AIME ‘25에서 85% 정확도 달성
배포 및 접근성
- Mistral 3는 다음 플랫폼에서 즉시 사용 가능
- Mistral AI Studio, Amazon Bedrock, Azure Foundry, Hugging Face, Modal, IBM WatsonX, OpenRouter, Fireworks, Unsloth AI, Together AI
- 곧 NVIDIA NIM 및 AWS SageMaker에서도 제공 예정
- 기업을 위한 맞춤형 모델 학습 서비스 제공
- 도메인 특화 작업, 독자 데이터셋 성능 향상, 특수 환경 배포 등 지원
Mistral 3의 핵심 가치
- 프런티어 성능과 오픈 접근성: 폐쇄형 모델 수준의 성능을 오픈소스로 제공
- 멀티모달·다국어 지원: 40개 이상 언어에서 텍스트, 이미지, 논리 이해 가능
- 확장 가능한 효율성: 3B~675B 파라미터 범위로, 엣지부터 엔터프라이즈까지 대응
- 적응형 활용성: 코딩, 문서 분석, 도구 활용 등 다양한 워크플로우에 적용 가능
향후 단계
- 모델 문서와 기술 자료는 Mistral Docs 및 AI Governance Hub에서 제공
- Hugging Face 및 Mistral AI 플랫폼을 통해 즉시 API 사용 가능
- 기업 맞춤형 학습 및 파인튜닝 문의 채널 운영
- 커뮤니티 참여는 Twitter/X, Discord, GitHub에서 가능
결론
- Mistral 3는 투명성, 접근성, 공동 발전을 기반으로 한 오픈 AI 생태계 확장을 목표로 함
-
추론, 효율성, 실사용 응용에서 새로운 가능성을 열며,
“이해를 행동으로 전환” 하는 차세대 오픈 모델로 자리매김
Hacker News 의견
-
나는 phrasing.app 에서 대형 언어 모델(LLM) 을 이용해 데이터를 일관된 형식으로 정리함
최근 몇 달 전 mistral-3-medium-0525로 전환했는데, gpt-5가 이상한 출력을 자주 내서 고생했음
Mistral은 빠르고 저렴하며, 포맷 지시를 정확히 따름. 벤치마크보다 실제 사용에서 훨씬 뛰어남
아주 가끔(0.1%) 이상한 결과를 내지만 gpt-5의 15% 실패율에 비하면 훨씬 안정적임
새 모델들도 곧 테스트해보고 결과를 공유할 예정임- 예전엔 여러 챗봇 구독을 했지만, 지금은 Grok, ChatGPT, Gemini, Deepseek, Mistral을 번갈아 사용함
API에서는 모델이 예상대로 동작하는 것이 가장 큰 장점이라 느낌
이제는 Openrouter를 통해 필요한 모델을 골라 쓰고 있음
최근 광고 기반 챗봇이 늘어난 건, 벤치마크와 달리 실제 사용자들이 차이를 못 느껴 유료 구독을 취소하기 때문이라 생각함
오늘도 OpenAI가 무료 체험 한 달을 제안했는데, 두 달 전에도 썼던 걸 잊은 줄 아는 듯함 - 나도 비슷한 경험을 함. Mistral 모델은 벤치마크 상 최고는 아니지만, 분류나 요약 같은 단순 작업에서는 가장 효율적임
특히 mistral-small을 batch API로 쓰면 비용 대비 성능이 매우 좋음 - LLM을 벤치마크로 평가하는 방식에 한계가 있다고 느낌
과적합이 실제 사용성을 떨어뜨릴 수도 있고, Chatbot Arena가 생긴 이유도 이런 실사용 평가 때문이었음
하지만 그마저도 형식 맞추기나 아첨 같은 요소에 치우친다는 지적이 있음
결국 작업별 특화 모델이 더 많이 필요하다고 생각함 - Mistral 모델 사용 사례를 공유해줘서 고마움
다만 phrasing.app의 “Hand-crafted by humans”라는 문구는, 실제로는 고급 LLM을 쓰고 있다는 점에서 약간 아이러니하게 느껴졌음 - gpt-5가 15% 확률로 이상한 출력을 낸다는 말인가 궁금함
혹시 Mistral의 오류율을 gpt-5.1의 복잡한 작업 실패율과 비교한 건지?
그리고 Mistral에 Tool Use 모델이 있는지도 궁금함. 새로운 코딩용 모델이 생기면 반가울 것 같음
- 예전엔 여러 챗봇 구독을 했지만, 지금은 Grok, ChatGPT, Gemini, Deepseek, Mistral을 번갈아 사용함
-
새 대형 모델이 DeepseekV2 아키텍처를 사용한다는 점이 흥미로움
공식 페이지에는 언급이 없지만, 오픈소스 모델들이 최신 구조를 채택하는 건 좋은 일이라 생각함
K2도 비슷한 접근을 했고, 실제 코드(mistral_large_3.py)를 보면 DeepseekV3 기반임
“과학은 항상 개방과 공유 위에서 발전한다”는 말처럼, 이런 투명성이 반가움
이제 집에서 14B 모델을 테스트해볼 예정이며, Vision 기능이 추가된 점도 기대됨- 결국 R&D를 Deepseek 복제에 쏟고, 유일한 추가 기능인 Vision에는 힘을 덜 쓴 것 같음
Hugging Face 페이지에서도 Mistral Large 3가 멀티모달 작업에서는 Vision 특화 모델보다 뒤처진다고 명시되어 있음 - 사실 요즘은 아키텍처 차이보다 데이터, 튜닝, 파이프라인이 모델 성능을 좌우한다고 생각함
- 모든 걸 공개하라고 요구하면서, 막상 공개된 걸 사용하면 비난하는 건 이중잣대라고 느낌
- 결국 R&D를 Deepseek 복제에 쏟고, 유일한 추가 기능인 Vision에는 힘을 덜 쓴 것 같음
-
3B Vision 모델이 브라우저에서 직접 실행된다는 게 놀라움
3GB 모델을 다운로드하면 바로 실행 가능하고, Hugging Face 데모가 있음
Simon Willison의 글도 참고할 만함- 이런 기술로 시각장애인을 위한 실시간 영상 묘사 도구 같은 접근성 툴을 만들 수 있을 것 같음
단순히 음성뿐 아니라 영상 속 행동까지 설명해주는 기능을 상상해봄
- 이런 기술로 시각장애인을 위한 실시간 영상 묘사 도구 같은 접근성 툴을 만들 수 있을 것 같음
-
유럽의 Mistral이 오랜만에 돌아와 반가움
Apache 2.0 라이선스로 오픈소스로 복귀한 것도 긍정적임
한동안 소비자 GPU용 소형 모델에서는 최고였는데, 이번 Ministral 14B도 벤치마크만큼 잘 나오길 기대함- 사실 이런 성과는 미국 VC 자금 덕분이라 생각함
유럽 내에서였다면 이런 규모의 AI 훈련 자금은 받기 어려웠을 것임
- 사실 이런 성과는 미국 VC 자금 덕분이라 생각함
-
새 모델이 멋지지만, OpenAI·Google·Anthropic 같은 SOTA 모델과의 비교가 없어서 아쉬움
전체적인 위치를 파악하기 어렵기 때문임- LMArena 결과를 보면 Mistral Large 3는 28위로, 상위 모델들과 점수 차이는 크지 않음
최고 모델이 1491점, Mistral이 1418점이라 성능 격차가 작음 - 하지만 이런 비교는 광고 규제에 걸릴 수 있어 기업들이 피하는 듯함
- 어차피 Mistral은 폐쇄형 모델들과 경쟁이 어렵다는 걸 알고 있을 것임
GPT-OSS와도 비교하지 않는 건 다소 보수적인 행보로 보임 - 비교 결과를 공개하지 않았다는 사실 자체가 이미 많은 걸 말해준다고 생각함
- LMArena 결과를 보면 Mistral Large 3는 28위로, 상위 모델들과 점수 차이는 크지 않음
-
유럽의 노력을 응원함
- 하지만 유럽 내에서도 런던의 DeepMind처럼 활발한 AI 연구가 많다는 점을 잊지 말아야 함
- “Windows 11이 미국의 최고 역작”이라는 농담으로 균형을 맞추고 싶음
-
솔직히 Deepseek 3.2가 어제 모든 관심을 가져간 느낌임
이번 비교는 Deepseek 3.1 기준이라 아쉬움
공식 뉴스에 따르면 3.2는 큰 폭의 개선이 있었음 -
좋은 모델 가중치를 공개하는 인센티브가 여전히 이해되지 않음
OpenAI가 gpt-oss처럼 벤치마크용 모델을 내놓는 건 PR 목적일 수도 있고,
중국 기업들이 미국 빅테크의 입지를 흔들기 위해 비슷한 전략을 쓰는 것 같음
앞으로도 괜찮은 오픈 가중치 모델이 계속 나올 수 있을지 의문임- 닫힌 모델로는 돈을 벌기 어렵기 때문임
오픈 가중치는 기업용 파인튜닝 서비스 같은 2차 수익 채널을 열어줌
투명성과 제어, 프라이버시, 비용 절감이 기업에게 중요하므로
이런 오픈 생태계가 장기적으로 폐쇄형 모델을 잠식할 가능성이 있음
관련 서비스는 Mistral Custom Model Training 참고 - gpt-oss는 벤치마크용이 아니라 실제로 수학 문제 해결력이 매우 뛰어남
Kaggle의 AIME3 대회에서도 상위권을 유지 중임 - 지금은 수익 모델이 불확실하므로, AI 기업들은 최고의 모델을 만드는 것보다 VC 자금 확보에 집중함
오픈 모델을 공개하면 기업 가치가 급등해 GPU 확보에 유리함
다만, 지속 가능한 비즈니스 모델이 끝내 나오지 않는다면 큰 문제임 - gpt-oss는 도구 호출 성능이 탁월하고 전반적으로 안정적임
- Google은 벤치마크를 조작한다는 인상이 강함
Gemini가 벤치마크에서는 앞서지만 실제 사용성은 떨어짐
- 닫힌 모델로는 돈을 벌기 어렵기 때문임
-
여러 모델의 종합 벤치마크 점수를 비교해봄
Gemini 3.0 Pro가 84.8로 1위, DeepSeek 3.2가 83.6, GPT-5.1은 69.2
Mistral Large 3는 41.9로 낮지만, 14B·8B·3B 모델은 SOTA 수준이며
Qwen3처럼 검열 문제가 없음- Gemini 3와 GPT-5.1/Opus 4.5 간의 큰 격차가 궁금함
어떤 영역에서 Gemini가 그렇게 강한지 알고 싶음
- Gemini 3와 GPT-5.1/Opus 4.5 간의 큰 격차가 궁금함
-
벤치마크에서는 Gemini가 최고지만, 실제로는 ChatGPT나 Claude보다 못한 느낌임
헛소리를 더 자주 하고, Google이 벤치마크 점수만 올리는 듯함
Mistral 같은 오픈소스가 이런 시장을 잠식하길 바람- 오픈 가중치 LLM은 폐쇄형 모델을 이기려는 게 목적이 아님
생태계의 균형추 역할을 하며, 독점 방지에 의미가 있음 - 나는 on-prem k8s 클러스터 구축을 배우며 Gemini를 써봤는데, 관련 주제에서는 매우 정확했음
학습 데이터에 잘 포함된 분야라 그런 듯함 - 내 질문 기준으로는 Gemini 3가 GPT-5.1보다 환각이 적었음
- 개인적으로 Gemini는 가장 실망스러웠고, 과도한 홍보가 자연스럽지 않다고 느낌
- 코딩 외 작업에서는 Gemini가 Google Search 연동으로 더 쉽게 근거를 제시할 수 있음
- 오픈 가중치 LLM은 폐쇄형 모델을 이기려는 게 목적이 아님