# Magistral — Mistral AI의 첫 번째 추론 모델 발표

> Clean Markdown view of GeekNews topic #21390. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=21390](https://news.hada.io/topic?id=21390)
- GeekNews Markdown: [https://news.hada.io/topic/21390.md](https://news.hada.io/topic/21390.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-06-11T09:43:12+09:00
- Updated: 2025-06-11T09:43:12+09:00
- Original source: [mistral.ai](https://mistral.ai/news/magistral)
- Points: 3
- Comments: 1

## Topic Body

- **Magistral**은 Mistral AI가 공개한 **도메인 특화, 투명성, 다국어 추론**에 특화된 첫번째 추론(reasoning) 모델  
- 오픈소스인 **Magistral Small(24B 파라미터)** 와 기업용 엔터프라이즈 버전인 **Magistral Medium** 두 가지로 출시  
- **사고사슬(Chain of Thought)** 기반의 다국어 추론, 단계별 논리 과정을 사용자의 언어로 투명하게 제공함  
- AIME2024에서 **Magistral Medium 73.6%** (최고 90%), Small 70.7%(최고 83.3%)의 성능을 보임  
- **법률, 금융, 헬스케어 등 규제 산업**, 데이터 엔지니어링, 소프트웨어 개발, 크리에이티브 콘텐츠 등 다양한 언어와 산업군에 맞는 **정확한 단계별 논리 전개** 및 **10배 빠른 응답 속도** 지원  
  
---  
  
### Magistral — Mistral AI의 첫 번째 추론 모델 발표  
  
- Magistral은 **실제 문제 해결 능력**과 **피드백 기반 개선**에 초점을 맞춘 reasoning 모델임  
- **Magistral Small**은 24B 파라미터 오픈 소스 버전, **Magistral Medium**은 더 강력한 엔터프라이즈 버전으로 이중 출시됨  
- 성능 지표:  
  - Magistral Medium: AIME2024 73.6%, 다수결 기준 90% 달성  
  - Magistral Small: 각각 70.7%, 83.3%  
- **글로벌 언어 및 문자 기반 Chain of Thought** 논증 적용, 모국어 수준의 사고 전개 가능  
- **구조적 계산, 프로그래밍 로직, 의사 결정 트리, 규칙 기반 시스템** 등 다양한 업무에 적합  
- Le Chat의 **Think mode 및 Flash Answers** 기능으로 응답 속도를 경쟁사 대비 10배 향상  
- 공식 논문에 **알고리듬, 학습 인프라, 강화학습 기법, 훈련 인사이트** 전반에 대한 평가 수록  
  
### 모델 및 기술 세부 사항  
  
- **투명한 추론 과정**:   
  - Magistral은 **다단계 논리**에 최적화되어 사용자가 **추론 과정을 자신의 언어로 확인·추적** 가능함  
  - 일반적 모델과 달리 **해석 가능성** 및 검증 기능 강화  
  - 지속적인 모델 업데이트 및 빠른 개선 목표  
- **다국어 추론**: 영어, 프랑스어, 스페인어, 독일어, 이탈리아어, 아랍어, 러시아어, 중국어 등에서 높은 정확도와 논리 유지  
- **응답 속도**:   
  - Magistral Medium은 **Le Chat의 Flash Answers** 기능을 통해 **경쟁사 대비 10배 높은 토큰 처리속도**로 **실시간 추론 및 피드백** 지원  
  - ChatGPT 등 주요 경쟁 모델 대비 **속도 측면에서 탁월함**을 시연  
  
### 오픈소스 및 커뮤니티 참여  
  
- Magistral Small은 **Apache 2.0 라이선스**로 공개됨  
- 사용자는 구조 및 추론 방식에 대해 **직접 분석, 수정, 재구성** 가능  
- 이전 오픈소스 모델은 ether0, DeepHermes 3와 같은 **혁신적 연구 프로젝트**에 활용됨  
  
### 광범위한 적용 사례  
  
- Magistral은 **법률, 금융, 소프트웨어 개발, 스토리텔링** 등 **정밀한 단계별 추론** 및 **투명성**이 중요한 영역에 최적화됨  
- # 비즈니스 전략 및 운영  
  - 전략 기획, **위험 평가, 데이터 기반 의사결정**, 복합적 제약조건 하의 **최적해 계산** 등 수행 가능  
- # 규제 산업 및 공공 부문  
  - 법률, 금융, 헬스케어, 정부 전문가들이 **논리적 추론 경로 추적** 및 **감사성 확보 가능**  
  - 결과의 **감사성 및 규정 준수 충족** 지원  
- # 시스템, 소프트웨어, 데이터 엔지니어링 분야  
  - **비추론 LLM** 대비 **프로그래밍, 프로젝트 설계, 백엔드 아키텍처, 데이터 엔지니어링** 지원 품질 개선  
  - 외부 도구, API 연계 등 **복수 단계 작업**에 효과적임  
- # 콘텐츠 생성 및 커뮤니케이션  
  - Magistral은 **창의적 글쓰기, 스토리텔링**에도 뛰어난 결과를 보임  
  - 일관된 텍스트뿐 아니라 **독특하고 기발한 아이디어 생성도 가능**함  
  
### 이용 방법 및 배포 경로  
  
- Small 버전은 **다운로드 후 자체 배포 가능**  
- Medium 버전은 **Le Chat(웹), API, Amazon SageMaker**에서 즉시 활용 가능  
- 곧 IBM WatsonX, Azure AI, Google Cloud Marketplace에서 추가 지원 예정  
- **기업 맞춤형, 온프레미스 도입**은 별도 문의

## Comments


### Comment 39935

- Author: neo
- Created: 2025-06-11T09:43:13+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=44236997) 
* 나는 Magistral Small 모델의 GGUF 버전을 [HuggingFace](https://huggingface.co/unsloth/Magistral-Small-2506-GGUF)에서 직접 만들어 업로드한 경험 공유. ollama에서 `ollama run hf.co/unsloth/Magistral-Small-2506-GGUF:UD-Q4_K_XL` 명령어로 실행 가능하고, llama.cpp에서는 `--jinja`, `--temp 0.7`, `--top-p 0.95` 등 옵션을 꼭 써주길 당부. Ollama의 문맥 길이도 8192 이상으로 늘리는 것이 추천이며 추가 가이드도 [공식문서](https://docs.unsloth.ai/basics/magistral)에서 확인 가능
  * DeepSeek 관련 벤치마크 비교가 흥미로운 부분. 기존 Magistral 논문은 DeepSeek-V3(2023년 12월) 및 DeepSeek-R1(2024년 1월) 버전과 비교하는데, 실제로는 최신 DeepSeek-R1-0528 버전이 더 공정한 비교 대상이라는 생각. 예시로, R1이 AIME 2024에서 79.8점이고 R1-0528은 91.4점 성능, AIME 2025에서도 각각 70점/87.5점으로 크게 차이나는 수치 언급. 최신 DeepSeek 벤치마크는 [여기](https://huggingface.co/deepseek-ai/DeepSeek-R1-0528)에서 확인 가능
  * Magistral 논문([PDF](https://mistral.ai/static/research/magistral.pdf))이 정말 인상적이라는 평가. 논문에서는 GRPO를 다루면서 1) KL Divergence 제거 2) 전체 길이로 정규화 3) advantage minibatch 정규화 4) trust region 완화 등 다양한 개선사항 소개
  * 나이 인증의 위험이 있지만, Unsloth 모델이 정말 "대박"이라는 극찬. 모델이 항상 잘 동작해 만족감 표현하며, llama.cpp에서 "jinja"가 없으면 기본적으로 무엇을 쓰는지 궁금점 제기
  * 너무 많은 생각을 하지 말라는 뉘앙스와 함께 참고 자료로 [gist 링크](https://gist.github.com/gavi/b9985f730f5deefe49b6a28e5569d467) 제공
* 벤치마크 결과만 보면 Magistral Small이나 Medium 모델이 DeepSeek-R1 최신 버전과 비교해 모든 one-shot 테스트에서 뒤처지는 모습을 확인. 기사에서도 최신 DeepSeek-R1 언급조차 없고, 비용도 2배 이상 비싸 유럽 최고 AI 회사로 알려진 곳도 현재 기술 트렌드 따라잡기에 힘겨워 보이는 현실 인식
  * 초기 DeepSeek R1이 대단히 적은 컴퓨트로도 엄청난 퍼포먼스를 냈기 때문에, 새로운 R1이 모든 벤치마크에서 o3, 2.5 Pro 등을 압도하지 못하는 점이 신기함. Magistral Small(24B)이 AIME 2024에서 70.7% 점수를 얻고, R1 디스틸(32B)이 72.6%. Majority voting@64로 Magistral Small이 83.3%까지 올라가면서 전체 풀 R1보다 높은 성능 달성. 일반 게이밍 GPU에서도 24B 모델을 돌릴 수 있어 접근성이 훨씬 뛰어난 장점 설명. 관련 [Distill 모델](https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B)링크 추가
  * AI 모델 경쟁이 치열한 현재 상황에서, 최신 모델보다 6~12개월 늦게 나오더라도 천문학적 비용을 들이지 않는 선택도 엔지니어링적으로 큰 의미라는 생각. 물론 시장 점유율 관점에서 "최고"만 사용하는 고객 논리 이해하지만, 영원히 돈만 잃는 사업의 점유율이 얼마나 중요한지에 대한 의문 제기
  * Mistral의 투자자 구조를 보면 실질적으로는 유럽 기업이 아니며, 미국 자본이 주요 소유주라는 점을 강조. 자세한 내용은 [투자자 정보 링크](https://tracxn.com/d/companies/mistral-ai/__SLZq7rzxLYqqA97jtPwO09jLDeb76RVJVb306OhciWU/funding-and-investors)에서 확인 가능
  * 경쟁력이 다소 떨어질지라도, 각 지역마다 학습 제어 가능한 자체 모델을 갖추는 것이 전략적으로 필수적이라는 의견. 하지만 기술 격차가 너무 커지면 사용자 입장에서 쓸모 없는 것으로 취급받을 리스크 존재
  * Mistral이 완전한 “독립형” 트레이닝 파이프라인을 구축한 점을 주목. Deepseek 같은 경쟁사들은 아마도 GPT-4, o1 등의 데이터로 학습한 것으로 추정
* Ollama 및 API, 그리고 llm-mistral 플러그인을 통해 Magistral 모델을 직접 적용한 노트 내용을 [기록 링크](https://simonwillison.net/2025/Jun/10/magistral/)에 정리
  * Simon에게, "자전거 타는 두 펠리컨"의 실질적인 차이점이 무엇인지 물음. 소형 버전은 로컬에서, 더 성능 좋은 대형 버전은 API를 통해 돌렸다는 추측
* Mistral OCR 모델이 크게 홍보되던 시기 600페이지 PDF를 OCR 처리해야 했던 실사용 경험담. 전부 모노스페이스 텍스트였으나, OCR 결과의 80%가 이미지로 인식되고 거의 공백만 출력되는 등 tesseract보다 훨씬 못한 수준. 한 달 뒤 형편없는 결과에도 청구서 떠안고 계정 삭제 경험. 이번 신제품이 이전보다 나을 수는 있겠지만, Mistral의 과도한 마케팅에는 기대감이 식은 상태
* 벤치마크 표본 선정이 너무 산발적이고 제한적인 점에 대한 혼란. Magistral Medium만 Deepseek V3, R1, 그리고 Mistral Medium 3와만 비교하고, Magistral Small이나 Alibaba Qwen, o3/o4 미니 버전은 왜 누락됐는지 이해 불가
* 논리적 추론과 위키피디아 수준 상식 테스트를 위해 Mistral AI에게 "상파울루에서 파리로 가는 브라질 시민이 리스본을 경유할 때 출입국 심사 위치" 질의. Mistral AI는 "파리에서만 심사"라고 답했으며, 위키피디아 글을 참고하도록 하자 "리스본에서"로 수정. Meta AI(Llama 4)는 아예 둘 다 필요 없다고 답해 정확성 부족. 다른 LLM의 답변도 궁금
  * 질문 자체가 사실상 트릭 질문이라는 의견. 실제로는 슈겐 입국지인 리스본뿐 아니라 브라질/메르코수르 출국지인 상파울루에서도 심사가 필요할 거라는 지적
  * Gemini(2.5 Flash)가 제공한 답변이 인상적. 주요 흐름: 브라질 국적자는 90일까지 슈겐 비자 면제. 리스본에서 입국 심사 후 파리행은 슈겐 내 국내선 취급이므로 파리에서 추가 심사 없음. 2026년 ETIAS 전자여행허가제 도입 예정이지만, 이는 사전 인허가에 해당하고 심사 위치에는 영향 없음
  * 질문한 본인도 답이 헷갈리는 상태라는 지적과, 이런 식의 테스트에서는 LLM이 얼마나 설득력 있게 답하는지 비교하기 쉽다는 재미있는 시각
  * 브라질-포르투갈 간 특별한 비자 면제 협정이 있어 Llama 4의 답이 오히려 맞을 가능성도 상정하며 잠정적인 여지 남김
* 나는 Qwen3를 벤치마크 차트에 넣어줬으면 하는 바람. Qwen3-4B만 해도 Magistral-22B와 거의 맞먹는 성능, Qwen3-30B-A3B는 월등히 더 뛰어난 결과 확인
  * 30-A3B 모델이 정말 대단하다는 평가. 로컬에서 API 비용 없이 돌려보면, 1~2년 전 폐쇄형 모델들과 비교해서도 더 뛰어난 성능. 특히 프로그래밍 업무에선 gpt-4o보다 더 높게 평가
  * 다양한 모델 벤치마크 자동화된 사이트가 있는지 궁금. 본인은 직접 테스트해봤는데, Qwen3-30B-A3B가 비슷한 파라미터/메모리 조건에서 여전히 최고 성능
  * Qwen3가 지금까지 평가해본 가장 인상적인 추론 모델이라는 생각
  * Mistral은 항상 다른 모델들이 더 나아서 실효성이 없었다는 평가. 단 유럽산이라는 포인트 때문에 의미부여. 성능 여부와 무관하게 Mistral 이름은 계속 회자될 것으로 예상
* 어원에 관한 재미있는 이야기. "mistral"과 "magistral" 모두 "masterly"(명인의, 숙련된)이란 뜻에서 유래. mistral은 원래 오크시탄어에서 왔고, 지금은 영어에서 주로 지중해 바람을 가리킬 때 사용. magistral은 "magister"의 형용사형. 관련 단어 더 찾아 도메인 확보하면 수익 기회도 가능
* 오픈웨이트 reasoning 모델이 얼마나 더 존재하는지 궁금. 여러 모델을 한 문제에 동시에 돌릴 수 있을지 상상. 또, Small 모델을 릴리즈하고 Medium은 유료 서비스로 남긴 점도 흥미. Medium을 마치 체인처럼 Small 여러 번과 연결해 사용하는 방식도 가능할지 궁금증 제기
  * Qwen 3, DeepSeek R1, Phi-4 Reasoning이 현재로선 가장 뛰어난 오픈웨이트 reasoning 모델이라는 생각
  * 실제로는 DeepSeek 계열만 있고, distill 모델을 활용하면 일반 소비자 하드웨어에서도 구동 가능
* 마케팅 카피 문구에 en-dash가 지나치게 많은 것이 모델 생성 결과물 스타일까지 반영된 것인지 궁금. 그렇다면 개선 필요하다는 제안
  * 실제 문구 중, Magistral이 창의적 작업에 훌륭한 동반자임을 강조하며, 필요하면 “기묘할 정도로 독특한” 텍스트도 생성할 수 있다고 주장
  * en-dash 49개, 콤마 59개로 비율이 눈에 띄게 높은 점을 수치로 언급
  * 이는 Mistral의 마케팅 스타일일 뿐, 실제 모델 생성 결과물에서 같은 비율의 en-dash 사용은 관찰되지 않는다는 분석
  * LibreOffice에서 "-" 입력 후 스페이스바를 누르면 종종 en-dash로 바뀌기 때문에 오해받기 싫어 일부러 수정한다는 식의 경험 공유
  * 법조계에서는 en-dash를 오히려 애정하는 문화라는 익살스런 언급