2P by GN⁺ 2일전 | ★ favorite | 댓글 1개
  • Magistral은 Mistral AI가 공개한 도메인 특화, 투명성, 다국어 추론에 특화된 첫번째 추론(reasoning) 모델
  • 오픈소스인 Magistral Small(24B 파라미터) 와 기업용 엔터프라이즈 버전인 Magistral Medium 두 가지로 출시
  • 사고사슬(Chain of Thought) 기반의 다국어 추론, 단계별 논리 과정을 사용자의 언어로 투명하게 제공함
  • AIME2024에서 Magistral Medium 73.6% (최고 90%), Small 70.7%(최고 83.3%)의 성능을 보임
  • 법률, 금융, 헬스케어 등 규제 산업, 데이터 엔지니어링, 소프트웨어 개발, 크리에이티브 콘텐츠 등 다양한 언어와 산업군에 맞는 정확한 단계별 논리 전개10배 빠른 응답 속도 지원

Magistral — Mistral AI의 첫 번째 추론 모델 발표

  • Magistral은 실제 문제 해결 능력피드백 기반 개선에 초점을 맞춘 reasoning 모델임
  • Magistral Small은 24B 파라미터 오픈 소스 버전, Magistral Medium은 더 강력한 엔터프라이즈 버전으로 이중 출시됨
  • 성능 지표:
    • Magistral Medium: AIME2024 73.6%, 다수결 기준 90% 달성
    • Magistral Small: 각각 70.7%, 83.3%
  • 글로벌 언어 및 문자 기반 Chain of Thought 논증 적용, 모국어 수준의 사고 전개 가능
  • 구조적 계산, 프로그래밍 로직, 의사 결정 트리, 규칙 기반 시스템 등 다양한 업무에 적합
  • Le Chat의 Think mode 및 Flash Answers 기능으로 응답 속도를 경쟁사 대비 10배 향상
  • 공식 논문에 알고리듬, 학습 인프라, 강화학습 기법, 훈련 인사이트 전반에 대한 평가 수록

모델 및 기술 세부 사항

  • 투명한 추론 과정:
    • Magistral은 다단계 논리에 최적화되어 사용자가 추론 과정을 자신의 언어로 확인·추적 가능함
    • 일반적 모델과 달리 해석 가능성 및 검증 기능 강화
    • 지속적인 모델 업데이트 및 빠른 개선 목표
  • 다국어 추론: 영어, 프랑스어, 스페인어, 독일어, 이탈리아어, 아랍어, 러시아어, 중국어 등에서 높은 정확도와 논리 유지
  • 응답 속도:
    • Magistral Medium은 Le Chat의 Flash Answers 기능을 통해 경쟁사 대비 10배 높은 토큰 처리속도실시간 추론 및 피드백 지원
    • ChatGPT 등 주요 경쟁 모델 대비 속도 측면에서 탁월함을 시연

오픈소스 및 커뮤니티 참여

  • Magistral Small은 Apache 2.0 라이선스로 공개됨
  • 사용자는 구조 및 추론 방식에 대해 직접 분석, 수정, 재구성 가능
  • 이전 오픈소스 모델은 ether0, DeepHermes 3와 같은 혁신적 연구 프로젝트에 활용됨

광범위한 적용 사례

  • Magistral은 법률, 금융, 소프트웨어 개발, 스토리텔링정밀한 단계별 추론투명성이 중요한 영역에 최적화됨
  • 비즈니스 전략 및 운영

    • 전략 기획, 위험 평가, 데이터 기반 의사결정, 복합적 제약조건 하의 최적해 계산 등 수행 가능
  • 규제 산업 및 공공 부문

    • 법률, 금융, 헬스케어, 정부 전문가들이 논리적 추론 경로 추적감사성 확보 가능
    • 결과의 감사성 및 규정 준수 충족 지원
  • 시스템, 소프트웨어, 데이터 엔지니어링 분야

    • 비추론 LLM 대비 프로그래밍, 프로젝트 설계, 백엔드 아키텍처, 데이터 엔지니어링 지원 품질 개선
    • 외부 도구, API 연계 등 복수 단계 작업에 효과적임
  • 콘텐츠 생성 및 커뮤니케이션

    • Magistral은 창의적 글쓰기, 스토리텔링에도 뛰어난 결과를 보임
    • 일관된 텍스트뿐 아니라 독특하고 기발한 아이디어 생성도 가능

이용 방법 및 배포 경로

  • Small 버전은 다운로드 후 자체 배포 가능
  • Medium 버전은 Le Chat(웹), API, Amazon SageMaker에서 즉시 활용 가능
  • 곧 IBM WatsonX, Azure AI, Google Cloud Marketplace에서 추가 지원 예정
  • 기업 맞춤형, 온프레미스 도입은 별도 문의
Hacker News 의견
  • 나는 Magistral Small 모델의 GGUF 버전을 HuggingFace에서 직접 만들어 업로드한 경험 공유. ollama에서 ollama run hf.co/unsloth/Magistral-Small-2506-GGUF:UD-Q4_K_XL 명령어로 실행 가능하고, llama.cpp에서는 --jinja, --temp 0.7, --top-p 0.95 등 옵션을 꼭 써주길 당부. Ollama의 문맥 길이도 8192 이상으로 늘리는 것이 추천이며 추가 가이드도 공식문서에서 확인 가능
    • DeepSeek 관련 벤치마크 비교가 흥미로운 부분. 기존 Magistral 논문은 DeepSeek-V3(2023년 12월) 및 DeepSeek-R1(2024년 1월) 버전과 비교하는데, 실제로는 최신 DeepSeek-R1-0528 버전이 더 공정한 비교 대상이라는 생각. 예시로, R1이 AIME 2024에서 79.8점이고 R1-0528은 91.4점 성능, AIME 2025에서도 각각 70점/87.5점으로 크게 차이나는 수치 언급. 최신 DeepSeek 벤치마크는 여기에서 확인 가능
    • Magistral 논문(PDF)이 정말 인상적이라는 평가. 논문에서는 GRPO를 다루면서 1) KL Divergence 제거 2) 전체 길이로 정규화 3) advantage minibatch 정규화 4) trust region 완화 등 다양한 개선사항 소개
    • 나이 인증의 위험이 있지만, Unsloth 모델이 정말 "대박"이라는 극찬. 모델이 항상 잘 동작해 만족감 표현하며, llama.cpp에서 "jinja"가 없으면 기본적으로 무엇을 쓰는지 궁금점 제기
    • 너무 많은 생각을 하지 말라는 뉘앙스와 함께 참고 자료로 gist 링크 제공
  • 벤치마크 결과만 보면 Magistral Small이나 Medium 모델이 DeepSeek-R1 최신 버전과 비교해 모든 one-shot 테스트에서 뒤처지는 모습을 확인. 기사에서도 최신 DeepSeek-R1 언급조차 없고, 비용도 2배 이상 비싸 유럽 최고 AI 회사로 알려진 곳도 현재 기술 트렌드 따라잡기에 힘겨워 보이는 현실 인식
    • 초기 DeepSeek R1이 대단히 적은 컴퓨트로도 엄청난 퍼포먼스를 냈기 때문에, 새로운 R1이 모든 벤치마크에서 o3, 2.5 Pro 등을 압도하지 못하는 점이 신기함. Magistral Small(24B)이 AIME 2024에서 70.7% 점수를 얻고, R1 디스틸(32B)이 72.6%. Majority voting@64로 Magistral Small이 83.3%까지 올라가면서 전체 풀 R1보다 높은 성능 달성. 일반 게이밍 GPU에서도 24B 모델을 돌릴 수 있어 접근성이 훨씬 뛰어난 장점 설명. 관련 Distill 모델링크 추가
    • AI 모델 경쟁이 치열한 현재 상황에서, 최신 모델보다 6~12개월 늦게 나오더라도 천문학적 비용을 들이지 않는 선택도 엔지니어링적으로 큰 의미라는 생각. 물론 시장 점유율 관점에서 "최고"만 사용하는 고객 논리 이해하지만, 영원히 돈만 잃는 사업의 점유율이 얼마나 중요한지에 대한 의문 제기
    • Mistral의 투자자 구조를 보면 실질적으로는 유럽 기업이 아니며, 미국 자본이 주요 소유주라는 점을 강조. 자세한 내용은 투자자 정보 링크에서 확인 가능
    • 경쟁력이 다소 떨어질지라도, 각 지역마다 학습 제어 가능한 자체 모델을 갖추는 것이 전략적으로 필수적이라는 의견. 하지만 기술 격차가 너무 커지면 사용자 입장에서 쓸모 없는 것으로 취급받을 리스크 존재
    • Mistral이 완전한 “독립형” 트레이닝 파이프라인을 구축한 점을 주목. Deepseek 같은 경쟁사들은 아마도 GPT-4, o1 등의 데이터로 학습한 것으로 추정
  • Ollama 및 API, 그리고 llm-mistral 플러그인을 통해 Magistral 모델을 직접 적용한 노트 내용을 기록 링크에 정리
    • Simon에게, "자전거 타는 두 펠리컨"의 실질적인 차이점이 무엇인지 물음. 소형 버전은 로컬에서, 더 성능 좋은 대형 버전은 API를 통해 돌렸다는 추측
  • Mistral OCR 모델이 크게 홍보되던 시기 600페이지 PDF를 OCR 처리해야 했던 실사용 경험담. 전부 모노스페이스 텍스트였으나, OCR 결과의 80%가 이미지로 인식되고 거의 공백만 출력되는 등 tesseract보다 훨씬 못한 수준. 한 달 뒤 형편없는 결과에도 청구서 떠안고 계정 삭제 경험. 이번 신제품이 이전보다 나을 수는 있겠지만, Mistral의 과도한 마케팅에는 기대감이 식은 상태
  • 벤치마크 표본 선정이 너무 산발적이고 제한적인 점에 대한 혼란. Magistral Medium만 Deepseek V3, R1, 그리고 Mistral Medium 3와만 비교하고, Magistral Small이나 Alibaba Qwen, o3/o4 미니 버전은 왜 누락됐는지 이해 불가
  • 논리적 추론과 위키피디아 수준 상식 테스트를 위해 Mistral AI에게 "상파울루에서 파리로 가는 브라질 시민이 리스본을 경유할 때 출입국 심사 위치" 질의. Mistral AI는 "파리에서만 심사"라고 답했으며, 위키피디아 글을 참고하도록 하자 "리스본에서"로 수정. Meta AI(Llama 4)는 아예 둘 다 필요 없다고 답해 정확성 부족. 다른 LLM의 답변도 궁금
    • 질문 자체가 사실상 트릭 질문이라는 의견. 실제로는 슈겐 입국지인 리스본뿐 아니라 브라질/메르코수르 출국지인 상파울루에서도 심사가 필요할 거라는 지적
    • Gemini(2.5 Flash)가 제공한 답변이 인상적. 주요 흐름: 브라질 국적자는 90일까지 슈겐 비자 면제. 리스본에서 입국 심사 후 파리행은 슈겐 내 국내선 취급이므로 파리에서 추가 심사 없음. 2026년 ETIAS 전자여행허가제 도입 예정이지만, 이는 사전 인허가에 해당하고 심사 위치에는 영향 없음
    • 질문한 본인도 답이 헷갈리는 상태라는 지적과, 이런 식의 테스트에서는 LLM이 얼마나 설득력 있게 답하는지 비교하기 쉽다는 재미있는 시각
    • 브라질-포르투갈 간 특별한 비자 면제 협정이 있어 Llama 4의 답이 오히려 맞을 가능성도 상정하며 잠정적인 여지 남김
  • 나는 Qwen3를 벤치마크 차트에 넣어줬으면 하는 바람. Qwen3-4B만 해도 Magistral-22B와 거의 맞먹는 성능, Qwen3-30B-A3B는 월등히 더 뛰어난 결과 확인
    • 30-A3B 모델이 정말 대단하다는 평가. 로컬에서 API 비용 없이 돌려보면, 1~2년 전 폐쇄형 모델들과 비교해서도 더 뛰어난 성능. 특히 프로그래밍 업무에선 gpt-4o보다 더 높게 평가
    • 다양한 모델 벤치마크 자동화된 사이트가 있는지 궁금. 본인은 직접 테스트해봤는데, Qwen3-30B-A3B가 비슷한 파라미터/메모리 조건에서 여전히 최고 성능
    • Qwen3가 지금까지 평가해본 가장 인상적인 추론 모델이라는 생각
    • Mistral은 항상 다른 모델들이 더 나아서 실효성이 없었다는 평가. 단 유럽산이라는 포인트 때문에 의미부여. 성능 여부와 무관하게 Mistral 이름은 계속 회자될 것으로 예상
  • 어원에 관한 재미있는 이야기. "mistral"과 "magistral" 모두 "masterly"(명인의, 숙련된)이란 뜻에서 유래. mistral은 원래 오크시탄어에서 왔고, 지금은 영어에서 주로 지중해 바람을 가리킬 때 사용. magistral은 "magister"의 형용사형. 관련 단어 더 찾아 도메인 확보하면 수익 기회도 가능
  • 오픈웨이트 reasoning 모델이 얼마나 더 존재하는지 궁금. 여러 모델을 한 문제에 동시에 돌릴 수 있을지 상상. 또, Small 모델을 릴리즈하고 Medium은 유료 서비스로 남긴 점도 흥미. Medium을 마치 체인처럼 Small 여러 번과 연결해 사용하는 방식도 가능할지 궁금증 제기
    • Qwen 3, DeepSeek R1, Phi-4 Reasoning이 현재로선 가장 뛰어난 오픈웨이트 reasoning 모델이라는 생각
    • 실제로는 DeepSeek 계열만 있고, distill 모델을 활용하면 일반 소비자 하드웨어에서도 구동 가능
  • 마케팅 카피 문구에 en-dash가 지나치게 많은 것이 모델 생성 결과물 스타일까지 반영된 것인지 궁금. 그렇다면 개선 필요하다는 제안
    • 실제 문구 중, Magistral이 창의적 작업에 훌륭한 동반자임을 강조하며, 필요하면 “기묘할 정도로 독특한” 텍스트도 생성할 수 있다고 주장
    • en-dash 49개, 콤마 59개로 비율이 눈에 띄게 높은 점을 수치로 언급
    • 이는 Mistral의 마케팅 스타일일 뿐, 실제 모델 생성 결과물에서 같은 비율의 en-dash 사용은 관찰되지 않는다는 분석
    • LibreOffice에서 "-" 입력 후 스페이스바를 누르면 종종 en-dash로 바뀌기 때문에 오해받기 싫어 일부러 수정한다는 식의 경험 공유
    • 법조계에서는 en-dash를 오히려 애정하는 문화라는 익살스런 언급