Mistral Medium 3.5
(mistral.ai)- 128B dense 모델은 instruction-following, reasoning, coding을 단일 가중치로 처리하며 public preview로 제공됨
- 256k context window와 요청별 reasoning effort 설정을 지원해 짧은 채팅 응답과 복잡한 agentic 실행을 같은 모델로 처리 가능함
- Vibe 코딩 세션은 클라우드에서 비동기 실행되고 여러 세션을 병렬로 돌릴 수 있으며, 로컬 CLI 세션은 history, task state, approval과 함께 클라우드로 teleport 가능함
- Le Chat의 Work mode는 Mistral Medium 3.5 기반 agentic mode로, connected tools와 documents, mailboxes, calendars의 context를 활용하고 민감한 작업에는 명시적 승인을 요청함
- 모델은 Le Chat 기본 모델이 되고 Vibe CLI에서 Devstral 2를 대체하며, API 가격은 input 100만 token당 $1.5, output 100만 token당 $7.5임
Mistral Medium 3.5 공개
- 비전 인코더는 다양한 이미지 크기와 aspect ratio를 처리하도록 scratch부터 학습됨
- SWE-Bench Verified에서 77.6% 를 기록해 Devstral 2와 Qwen3.5 397B A17B 같은 모델보다 앞섬
- τ³-Telecom에서는 91.4를 기록했고, 여러 도구 호출과 downstream code가 소비할 수 있는 structured output 생성에 초점을 맞춤
Vibe 원격 코딩 에이전트
- 코딩 세션이 이제 클라우드에서 비동기 실행되며, 긴 작업을 사용자가 자리를 비운 동안 계속 처리할 수 있음
- 여러 세션을 병렬 실행할 수 있어 agent가 진행하는 각 단계에서 개발자가 병목이 되지 않게 만듦
- 클라우드 에이전트는 Mistral Vibe CLI 또는 Le Chat에서 시작 가능함
- 실행 중에는 file diff, tool call, progress state, agent의 질문을 확인할 수 있음
- 로컬 CLI 세션은 클라우드로 teleport할 수 있으며, session history, task state, approval이 함께 이동함
개발 워크플로와 통합되는 구조
- Vibe는 개발팀이 이미 쓰는 시스템 사이에 위치하며, 필요한 지점마다 human-in-the-loop를 유지함
- GitHub에는 code와 pull request로 연결되고, Linear와 Jira에는 issue로 연결됨
- Sentry는 incident 처리에, Slack과 Teams 같은 앱은 reporting에 연결됨
- 각 코딩 세션은 isolated sandbox에서 실행되며, 광범위한 편집과 설치를 포함할 수 있음
- 작업이 끝나면 agent가 GitHub pull request를 열고 알림을 보낼 수 있어, 개발자는 모든 keystroke 대신 결과를 검토하게 됨
적합한 코딩 작업과 Le Chat 실행
- Vibe 원격 에이전트는 개발자의 판단은 필요하지만 시간을 많이 쓰는 well-defined work에 맞춰짐
- 대상 작업에는 module refactor, test generation, dependency upgrade, CI investigation, bug fix가 포함됨
- Workflows를 Mistral Studio에서 orchestrate해 Mistral Vibe를 Le Chat에서 사용할 수 있게 됨
- 이 기능은 내부 코딩 환경용으로 먼저 만들어졌고, 이후 enterprise customers를 위해 사용됨
- 이제 웹에서 코딩 작업을 시작할 수 있으며, 로컬 터미널에 묶이지 않고 여러 작업을 병렬 실행 가능함
- Le Chat에서 작성한 작업은 CLI와 웹이 쓰는 동일한 remote runtime에서 실행되고, 나중에 finished branch 또는 draft PR로 돌아옴
Le Chat의 Work mode
- Work mode는 Le Chat에서 복잡한 작업을 처리하는 agentic mode이며, 새로운 harness와 Mistral Medium 3.5로 구동됨
- agent가 assistant 자체의 execution backend가 되어 Le Chat이 읽기와 쓰기, 여러 도구의 동시 사용, multi-step project 처리를 수행함
-
도구 간 워크플로
- email, message, calendar를 한 번의 실행에서 따라잡을 수 있음
- 참석자 context, 최신 뉴스, source에서 가져온 talking point로 회의 준비 가능함
-
조사와 종합
- web, internal docs, connected tools 전반에서 주제를 조사할 수 있음
- 편집 후 export 또는 sending 가능한 structured brief나 report를 만들 수 있음
-
받은편지함과 팀 작업
- inbox triage와 reply draft 작성 가능함
- 팀과 고객 논의에서 Jira issue를 만들고, Slack으로 팀에 summary를 보낼 수 있음
- 세션은 일반적인 채팅 응답보다 오래 유지되며, 여러 turn과 trial-and-error를 거쳐 완료까지 계속 진행 가능함
- Work mode에서는 connector가 수동 선택이 아니라 기본으로 켜져 있어, documents, mailboxes, calendars, other systems의 context에 접근 가능함
- agent의 모든 동작은 보이며, 각 tool call과 thinking rationale을 확인할 수 있음
- 메시지 전송, 문서 작성, 데이터 수정 같은 민감한 작업은 권한에 따라 Le Chat이 명시적 승인을 요청함
제공 여부와 가격
- Mistral Medium 3.5는 Mistral Vibe와 Le Chat에서 제공됨
- Le Chat의 remote coding agents와 Work mode는 Pro, Team, Enterprise 요금제에서 Mistral Medium 3.5로 구동됨
- API 가격은 input token 100만 개당 $1.5, output token 100만 개당 $7.5임
- open weights는 Hugging Face에서 modified MIT license로 제공됨
- 프로토타이핑용으로 build.nvidia.com의 NVIDIA GPU-accelerated endpoint에서 호스팅됨
- scalable containerized inference microservice인 NVIDIA NIM으로도 제공됨
Hacker News 의견들
-
댓글에서 다들 뭘 보고 있는지 모르겠음. 이 모델이 다른 모델들을 이기지는 못하지만, 크기 대비 경쟁력은 확실히 있음
GLM 5.1은 훌륭하지만 Q4에서도 약 400GB가 필요하고, Kimi K2.5도 좋지만 Q4 양자화 기준 거의 600GB가 필요함
이 모델은 Q4로 70GB VRAM에서 돌릴 수 있어 소비자 영역에 가까워지고 있음. 128GB RAM Mac Studio를 약 3500달러에 살 수 있는 수준임
Claude에 빠진 사람들은 Opus만 쓰는지 모르겠지만, Pro 플랜에서 Sonnet도 이미 매우 유능했음. 이 모델은 로컬에서 돌면서 최신 Sonnet을 이기고, repo에 HERMES.md가 있다고 추가 과금하거나 계정을 임의로 잠그지도 않음
Mistral은 frontier에서 경쟁력 있었던 적은 없지만, 어쩌면 그게 우리가 Mistral에 기대해야 할 역할은 아닐 수 있음. 비용/크기의 20%로 frontier의 80%를 주는 Pareto 모델이면 충분히 좋아 보임- 로컬 LLM에 관심 있는 사람이라면, 모델을 “돌릴 수 있음”과 “빠르게 돌릴 수 있음”은 완전히 다른 기준이라는 걸 알아야 함
128GB Mac에서 이런 모델을 실행할 수는 있지만, 먼저 Q4가 품질을 충분히 유지하는지 봐야 함. 모델마다 양자화 민감도가 다르고, 실제 속도도 중요함
비동기 작업이나 백그라운드 작업에서는 프롬프트 처리와 토큰 생성 속도가 덜 중요하지만, 많은 Mac Studio 구매자가 클라우드의 제대로 된 하드웨어에서 호스팅되는 모델만큼 반응성이 좋지 않다는 걸 어렵게 깨달았음
온프레미스 처리 요구가 강하지 않은 대부분에게는 이 모델을 OpenRouter의 호스팅 제공자 중 하나로 쓰고 토큰 단위로 지불하는 게 최선의 사용처일 수 있음
올해 나온 거의 모든 오픈 웨이트 모델이 Sonnet과 같거나 뛰어넘는다고 했지만, 벤치마크상 명확히 앞서도 실제로는 아직 그렇게 느껴본 적이 없음 - HERMES.md를 몰랐는데, 궁금한 사람은 여기서 정보를 찾을 수 있음 https://github.com/anthropics/claude-code/issues/53262
- 2월 전에는 Max 플랜에서 Opus High를 문제없이 계속 쓸 수 있었는데, 지금은 Sonnet High만 쓰고 있고 꽤 유능함
Claude Pilled라는 표현 마음에 듦 - “로컬에서 돌면서 최신 Sonnet을 이긴다”는 건 사실이 아님
벤치마크는 F8_E4M3 기준이고, 그걸 어떤 Mac에서도 돌리지는 못함
Sonnet은 1M 토큰 컨텍스트가 있지만 이 모델은 256k이고, 로컬에서는 그마저도 제대로 못 쓸 가능성이 큼
Sonnet은 네트워크越로도 빠르지만, 이 모델은 훨씬 느릴 것임 - Qwen 35B A3B MoE도 잊으면 안 됨. 이 모델보다 모든 지표에서 더 좋은 성능을 내면서 메모리/연산 비용은 훨씬 작음
중국 외 오픈소스 모델들이 최소 한 세대 뒤처져 보이는 건 아쉬움
- 로컬 LLM에 관심 있는 사람이라면, 모델을 “돌릴 수 있음”과 “빠르게 돌릴 수 있음”은 완전히 다른 기준이라는 걸 알아야 함
-
언제나 Mistral을 응원함. 모델과 국가 다양성은 중요함
이번 모델은 위에 쌓기 좋은 탄탄한 기반처럼 보이고, 3.6/3.7에서 더 많은 개선이 잡히길 바람. computer use 벤치마크를 보면 vision pipeline은 개선 여지가 있어 보이지만 추측일 뿐임
일부 벤치마크 결과가 다르게 나오는 걸 보면, frontier 로그를 빼온 게 아니라 진짜 독립적으로 학습한 모델 같은 느낌이 듦. 이것도 매우 중요함
특정 모델 안에 다른 weight architecture가 존재하는 건 글로벌 시스템 아키텍처 관점에서 그 자체로 이점처럼 보임 -
Mistral이 계속 신뢰할 만한 모델을 내는 건 시장에 좋음
구매자들이 가격과 배포 협상력을 가지려면 두 회사 중 하나만 고르는 구조를 넘어서야 함 -
테스트해 본 다른 호스팅 LLM들과 비교하면, Mistral만 꽤 엄격한 CSP 헤더를 쓰는 듯함
JavaScript 라이브러리가 들어간 웹사이트를 만들어 달라고 하면 Le Chat에 canvas mode가 있어도 preview가 안 됨
새 릴리스가 나올 때 가끔 웹에서 조금 테스트해 보고 싶을 뿐인데, 돈을 내거나 agent harness를 쓰지 않으면 어려움
SVG 그리기는 정말 못함 https://chat.mistral.ai/chat/23214adb-5530-4af9-bb47-90f5219...- SVG가 최고의 벤치마크는 아닐 수 있지만, 예전 Mistral 모델을 Mistral Vibe에서 써 본 경험과 맞아떨어짐
Vibe에서 MCP 서버 설정을 도와달라고 했더니, MCP가 MineCraft Protocol이라고 자신 있게 설명하고는 컴퓨터에서 Minecraft 바이너리를 찾기 시작했음 - LLM으로 SVG를 그리게 하고 싶거나 필요하거나 기대한 적이 없음
모든 모델이 이걸 못하고, 일부가 그냥 더 재미있게 실패할 뿐임
- SVG가 최고의 벤치마크는 아닐 수 있지만, 예전 Mistral 모델을 Mistral Vibe에서 써 본 경험과 맞아떨어짐
-
mistral-medium-2508을 텍스트 변환 작업에 쓰고 있는데, 내 용도에서는 mistral-large보다 더 좋은 결과를 줌
새 모델도 테스트해 보고 싶지만, 훨씬 비싸고 coding/agentic 모델로 제시되어서 이전 medium 모델을 대체하려는 건지는 잘 모르겠음
mistral-medium-2508은 1M 토큰당 $0.4/$2였고, mistral-medium-3.5는 $1.5/$7.5임- 프로덕션에서 큰 텍스트 덩어리를 처리하는 데 Mistral Large를 쓰고 있음
Sonnet과 거의 같은 수준의 결과를 내면서 90% 저렴함. 코딩에는 절대 쓰지 않겠지만, 이 텍스트 분석 작업에는 아주 좋았음. 최신 중국 모델들보다도 훨씬 나았음
그래서 이번 릴리스를 기다렸는데, 최신 Mistral Large보다 5배 비쌈. 이제 저렴한 Large를 릴리스 전환하면서 종료할까 봐 걱정됨
- 프로덕션에서 큰 텍스트 덩어리를 처리하는 데 Mistral Large를 쓰고 있음
-
이 모델의 문제는 DeepSeek v4 Flash가 2비트 양자화로 꽤 잘 돈다는 점임 https://github.com/antirez/llama.cpp-deepseek-v4-flash
M3 Ultra에서 생성 30 t/s, prefill 400 t/s가 나오고, 128GB MacBook Pro M3 Max에서도 크게 느리지 않음
opencode/pi와 함께 쓰면 좋은 coding agent로 작동하고 tool calling도 매우 안정적임. 이 속도는 120B dense 모델이 절대 달성할 수 없음
그래서 같은 크기의 4비트 양자화 모델뿐 아니라, 86GB GGUF 파일인 DeepSeek v4 Flash와도 경쟁해야 하고, 로컬 추론의 실전 관점에서는 이기기가 쉽지 않음
아직 커밋하지 않은 속도 개선도 더 있어서 곧 push할 예정임. 현재 tree도 조금 느릴 수는 있지만 여전히 매우 쓸 만함
유럽에 있어 Mistral 팬인데도 이해가 안 되는 점이 있음. Mistral은 Mixtral로 오픈 웨이트 MoE 흐름을 열었는데, 왜 이제 상당히 큰 dense 모델을 내는지 모르겠음
이런 방식으로는 로컬 추론에서도, 원격 추론에서도 신뢰할 만하게 경쟁하기 어려움. 모델은 SOTA와 거리가 있고 서빙 비용도 싸지 않기 때문임
dense 모델은 Qwen 3.6 27B처럼 수십B 파라미터 영역에서는 자리가 있지만, 그 5배로 가면 같은 VRAM을 요구하는 다른 모델들을 능력으로 압도하지 않는 한 맞지 않음- GitHub 링크에는 “이 방식으로 양자화한 모델은 채팅에서 아주 잘 동작하고 frontier-model vibes가 있지만, 광범위하게 테스트되지는 않았다”고만 되어 있음
이건 agentic workflow에서 어떻게 동작하는지와는 거의 관련이 없음. Q2 양자화에서 품질이 심하게 저하되는 경우가 많다는 걸 이미 알고 있음
이 양자화된 Flash가 더 큰 컨텍스트 길이에서도 적절한 품질과 성능을 유지한다면, V4 시리즈의 핵심 기능처럼 보이는 부분까지 살리면서 Qwen 3 Coder-Next 80B 같은 같은 weight class 모델의 꽤 합리적인 경쟁자가 될 수 있음
- GitHub 링크에는 “이 방식으로 양자화한 모델은 채팅에서 아주 잘 동작하고 frontier-model vibes가 있지만, 광범위하게 테스트되지는 않았다”고만 되어 있음
-
이번 Mistral 릴리스는 frontier lab과 그 외 플레이어 사이의 격차를 다시 느끼게 함
agent 이전에는 모델 간 차이가 항상 명확하지 않았고, 여러 모델마다 나름의 매력이 있었음
이제는 frontier 모델보다 못한 건 쓰고 싶지 않음. 능력 차이가 엄청나고, 덜한 모델을 고르면 생산성에 실제 비용이 생김
Mistral이나 특히 Cohere 같은 작은 lab을 좋아해 왔지만, 두 회사 릴리스에서 흥분한 지는 꽤 됨
그래도 mistral voxtral realtime은 매일 쓰고 있고 훌륭함- 전혀 동의할 수 없음. 불과 1년 전에는 frontier 모델과 non-frontier 모델의 생산성 격차가 훨씬 컸음
2년 전은 말할 것도 없음 - non-agentic 작업에서는 Gemini, ChatGPT, Claude 사이에 전반적으로 명확한 승자가 없음. 단순한 chatbot 인터페이스 기준으로는 apples to oranges임
하지만 Claude Code는 Codex보다 상당히 낫고, Codex는 Gemini-cli보다 분명히 좋음
이런 맥락에서 Claude Code가 agentic coding에서 non-frontier 모델보다 훨씬 나은 건 놀랄 일이 아님. 특화된 agentic 작업에서는 다른 frontier 모델들보다도 상당히 좋음 - frontier 모델보다 못한 건 쓰고 싶지 않다는 건 꽤 순진하고 잘못된 판단임
복잡한 코딩 작업을 포함한 대부분의 작업에서는 frontier 모델과 GPT-4.1 같은 모델의 차이를 거의 구분하기 어려움
차이를 보려면 context window, tool calling, reasoning step의 특정 측면 같은 영역에 정말 집중해야 함
게다가 frontier 모델들은 결과를 내기 위해 brute force 접근을 취하면서 실행 비용이 훨씬 비싸짐. 청구서에 보이는 비용뿐 아니라, 어떤 출력이든 나오기까지 기다려야 하는 시간도 늘어남
로컬 모델 이야기는 꺼내지도 않겠음
- 전혀 동의할 수 없음. 불과 1년 전에는 frontier 모델과 non-frontier 모델의 생산성 격차가 훨씬 컸음
-
Mistral은 여기서 장기전을 하는 듯함. 더 작은 모델, 더 낮은 비용, 전반적으로 충분히 좋은 성능임
-
괜찮긴 하지만 특별하진 않음. 그래도 미국도 중국도 아닌 모델 소식은 여전히 좋은 소식임
- 이게 유럽의 기준선인가 봄
-
이제 128B가 Medium으로 여겨진다는 게 웃김
예전에는 GPT-2에서 355M 파라미터가 medium으로 여겨지던 시절이 있었음- GPT-2 1.5B는 공개하기에 너무 위험하다고 여겨졌음
어쩌면 그 판단이 맞았을지도 모름
- GPT-2 1.5B는 공개하기에 너무 위험하다고 여겨졌음