Mistral Medium 3.5

▲

GN⁺ 3시간전 | parent | ★ favorite | on: Mistral Medium 3.5(mistral.ai)

Hacker News 의견들

댓글에서 다들 뭘 보고 있는지 모르겠음. 이 모델이 다른 모델들을 이기지는 못하지만, 크기 대비 경쟁력은 확실히 있음
GLM 5.1은 훌륭하지만 Q4에서도 약 400GB가 필요하고, Kimi K2.5도 좋지만 Q4 양자화 기준 거의 600GB가 필요함
이 모델은 Q4로 70GB VRAM에서 돌릴 수 있어 소비자 영역에 가까워지고 있음. 128GB RAM Mac Studio를 약 3500달러에 살 수 있는 수준임
Claude에 빠진 사람들은 Opus만 쓰는지 모르겠지만, Pro 플랜에서 Sonnet도 이미 매우 유능했음. 이 모델은 로컬에서 돌면서 최신 Sonnet을 이기고, repo에 HERMES.md가 있다고 추가 과금하거나 계정을 임의로 잠그지도 않음
Mistral은 frontier에서 경쟁력 있었던 적은 없지만, 어쩌면 그게 우리가 Mistral에 기대해야 할 역할은 아닐 수 있음. 비용/크기의 20%로 frontier의 80%를 주는 Pareto 모델이면 충분히 좋아 보임
- 로컬 LLM에 관심 있는 사람이라면, 모델을 “돌릴 수 있음”과 “빠르게 돌릴 수 있음”은 완전히 다른 기준이라는 걸 알아야 함
  128GB Mac에서 이런 모델을 실행할 수는 있지만, 먼저 Q4가 품질을 충분히 유지하는지 봐야 함. 모델마다 양자화 민감도가 다르고, 실제 속도도 중요함
  비동기 작업이나 백그라운드 작업에서는 프롬프트 처리와 토큰 생성 속도가 덜 중요하지만, 많은 Mac Studio 구매자가 클라우드의 제대로 된 하드웨어에서 호스팅되는 모델만큼 반응성이 좋지 않다는 걸 어렵게 깨달았음
  온프레미스 처리 요구가 강하지 않은 대부분에게는 이 모델을 OpenRouter의 호스팅 제공자 중 하나로 쓰고 토큰 단위로 지불하는 게 최선의 사용처일 수 있음
  올해 나온 거의 모든 오픈 웨이트 모델이 Sonnet과 같거나 뛰어넘는다고 했지만, 벤치마크상 명확히 앞서도 실제로는 아직 그렇게 느껴본 적이 없음
- HERMES.md를 몰랐는데, 궁금한 사람은 여기서 정보를 찾을 수 있음 https://github.com/anthropics/claude-code/issues/53262
- 2월 전에는 Max 플랜에서 Opus High를 문제없이 계속 쓸 수 있었는데, 지금은 Sonnet High만 쓰고 있고 꽤 유능함
  Claude Pilled라는 표현 마음에 듦
- “로컬에서 돌면서 최신 Sonnet을 이긴다”는 건 사실이 아님
  벤치마크는 F8_E4M3 기준이고, 그걸 어떤 Mac에서도 돌리지는 못함
  Sonnet은 1M 토큰 컨텍스트가 있지만 이 모델은 256k이고, 로컬에서는 그마저도 제대로 못 쓸 가능성이 큼
  Sonnet은 네트워크越로도 빠르지만, 이 모델은 훨씬 느릴 것임
- Qwen 35B A3B MoE도 잊으면 안 됨. 이 모델보다 모든 지표에서 더 좋은 성능을 내면서 메모리/연산 비용은 훨씬 작음
  중국 외 오픈소스 모델들이 최소 한 세대 뒤처져 보이는 건 아쉬움
언제나 Mistral을 응원함. 모델과 국가 다양성은 중요함
이번 모델은 위에 쌓기 좋은 탄탄한 기반처럼 보이고, 3.6/3.7에서 더 많은 개선이 잡히길 바람. computer use 벤치마크를 보면 vision pipeline은 개선 여지가 있어 보이지만 추측일 뿐임
일부 벤치마크 결과가 다르게 나오는 걸 보면, frontier 로그를 빼온 게 아니라 진짜 독립적으로 학습한 모델 같은 느낌이 듦. 이것도 매우 중요함
특정 모델 안에 다른 weight architecture가 존재하는 건 글로벌 시스템 아키텍처 관점에서 그 자체로 이점처럼 보임
Mistral이 계속 신뢰할 만한 모델을 내는 건 시장에 좋음
구매자들이 가격과 배포 협상력을 가지려면 두 회사 중 하나만 고르는 구조를 넘어서야 함
테스트해 본 다른 호스팅 LLM들과 비교하면, Mistral만 꽤 엄격한 CSP 헤더를 쓰는 듯함
JavaScript 라이브러리가 들어간 웹사이트를 만들어 달라고 하면 Le Chat에 canvas mode가 있어도 preview가 안 됨
새 릴리스가 나올 때 가끔 웹에서 조금 테스트해 보고 싶을 뿐인데, 돈을 내거나 agent harness를 쓰지 않으면 어려움
SVG 그리기는 정말 못함 https://chat.mistral.ai/chat/23214adb-5530-4af9-bb47-90f5219...
- SVG가 최고의 벤치마크는 아닐 수 있지만, 예전 Mistral 모델을 Mistral Vibe에서 써 본 경험과 맞아떨어짐
  Vibe에서 MCP 서버 설정을 도와달라고 했더니, MCP가 MineCraft Protocol이라고 자신 있게 설명하고는 컴퓨터에서 Minecraft 바이너리를 찾기 시작했음
- LLM으로 SVG를 그리게 하고 싶거나 필요하거나 기대한 적이 없음
  모든 모델이 이걸 못하고, 일부가 그냥 더 재미있게 실패할 뿐임
mistral-medium-2508을 텍스트 변환 작업에 쓰고 있는데, 내 용도에서는 mistral-large보다 더 좋은 결과를 줌
새 모델도 테스트해 보고 싶지만, 훨씬 비싸고 coding/agentic 모델로 제시되어서 이전 medium 모델을 대체하려는 건지는 잘 모르겠음
mistral-medium-2508은 1M 토큰당 $0.4/$2였고, mistral-medium-3.5는 $1.5/$7.5임
- 프로덕션에서 큰 텍스트 덩어리를 처리하는 데 Mistral Large를 쓰고 있음
  Sonnet과 거의 같은 수준의 결과를 내면서 90% 저렴함. 코딩에는 절대 쓰지 않겠지만, 이 텍스트 분석 작업에는 아주 좋았음. 최신 중국 모델들보다도 훨씬 나았음
  그래서 이번 릴리스를 기다렸는데, 최신 Mistral Large보다 5배 비쌈. 이제 저렴한 Large를 릴리스 전환하면서 종료할까 봐 걱정됨
이 모델의 문제는 DeepSeek v4 Flash가 2비트 양자화로 꽤 잘 돈다는 점임 https://github.com/antirez/llama.cpp-deepseek-v4-flash
M3 Ultra에서 생성 30 t/s, prefill 400 t/s가 나오고, 128GB MacBook Pro M3 Max에서도 크게 느리지 않음
opencode/pi와 함께 쓰면 좋은 coding agent로 작동하고 tool calling도 매우 안정적임. 이 속도는 120B dense 모델이 절대 달성할 수 없음
그래서 같은 크기의 4비트 양자화 모델뿐 아니라, 86GB GGUF 파일인 DeepSeek v4 Flash와도 경쟁해야 하고, 로컬 추론의 실전 관점에서는 이기기가 쉽지 않음
아직 커밋하지 않은 속도 개선도 더 있어서 곧 push할 예정임. 현재 tree도 조금 느릴 수는 있지만 여전히 매우 쓸 만함
유럽에 있어 Mistral 팬인데도 이해가 안 되는 점이 있음. Mistral은 Mixtral로 오픈 웨이트 MoE 흐름을 열었는데, 왜 이제 상당히 큰 dense 모델을 내는지 모르겠음
이런 방식으로는 로컬 추론에서도, 원격 추론에서도 신뢰할 만하게 경쟁하기 어려움. 모델은 SOTA와 거리가 있고 서빙 비용도 싸지 않기 때문임
dense 모델은 Qwen 3.6 27B처럼 수십B 파라미터 영역에서는 자리가 있지만, 그 5배로 가면 같은 VRAM을 요구하는 다른 모델들을 능력으로 압도하지 않는 한 맞지 않음
- GitHub 링크에는 “이 방식으로 양자화한 모델은 채팅에서 아주 잘 동작하고 frontier-model vibes가 있지만, 광범위하게 테스트되지는 않았다”고만 되어 있음
  이건 agentic workflow에서 어떻게 동작하는지와는 거의 관련이 없음. Q2 양자화에서 품질이 심하게 저하되는 경우가 많다는 걸 이미 알고 있음
  이 양자화된 Flash가 더 큰 컨텍스트 길이에서도 적절한 품질과 성능을 유지한다면, V4 시리즈의 핵심 기능처럼 보이는 부분까지 살리면서 Qwen 3 Coder-Next 80B 같은 같은 weight class 모델의 꽤 합리적인 경쟁자가 될 수 있음
이번 Mistral 릴리스는 frontier lab과 그 외 플레이어 사이의 격차를 다시 느끼게 함
agent 이전에는 모델 간 차이가 항상 명확하지 않았고, 여러 모델마다 나름의 매력이 있었음
이제는 frontier 모델보다 못한 건 쓰고 싶지 않음. 능력 차이가 엄청나고, 덜한 모델을 고르면 생산성에 실제 비용이 생김
Mistral이나 특히 Cohere 같은 작은 lab을 좋아해 왔지만, 두 회사 릴리스에서 흥분한 지는 꽤 됨
그래도 mistral voxtral realtime은 매일 쓰고 있고 훌륭함
- 전혀 동의할 수 없음. 불과 1년 전에는 frontier 모델과 non-frontier 모델의 생산성 격차가 훨씬 컸음
  2년 전은 말할 것도 없음
- non-agentic 작업에서는 Gemini, ChatGPT, Claude 사이에 전반적으로 명확한 승자가 없음. 단순한 chatbot 인터페이스 기준으로는 apples to oranges임
  하지만 Claude Code는 Codex보다 상당히 낫고, Codex는 Gemini-cli보다 분명히 좋음
  이런 맥락에서 Claude Code가 agentic coding에서 non-frontier 모델보다 훨씬 나은 건 놀랄 일이 아님. 특화된 agentic 작업에서는 다른 frontier 모델들보다도 상당히 좋음
- frontier 모델보다 못한 건 쓰고 싶지 않다는 건 꽤 순진하고 잘못된 판단임
  복잡한 코딩 작업을 포함한 대부분의 작업에서는 frontier 모델과 GPT-4.1 같은 모델의 차이를 거의 구분하기 어려움
  차이를 보려면 context window, tool calling, reasoning step의 특정 측면 같은 영역에 정말 집중해야 함
  게다가 frontier 모델들은 결과를 내기 위해 brute force 접근을 취하면서 실행 비용이 훨씬 비싸짐. 청구서에 보이는 비용뿐 아니라, 어떤 출력이든 나오기까지 기다려야 하는 시간도 늘어남
  로컬 모델 이야기는 꺼내지도 않겠음
Mistral은 여기서 장기전을 하는 듯함. 더 작은 모델, 더 낮은 비용, 전반적으로 충분히 좋은 성능임
괜찮긴 하지만 특별하진 않음. 그래도 미국도 중국도 아닌 모델 소식은 여전히 좋은 소식임
- 이게 유럽의 기준선인가 봄
이제 128B가 Medium으로 여겨진다는 게 웃김
예전에는 GPT-2에서 355M 파라미터가 medium으로 여겨지던 시절이 있었음
- GPT-2 1.5B는 공개하기에 너무 위험하다고 여겨졌음
  어쩌면 그 판단이 맞았을지도 모름