Devstral - Mistral의 에이전틱 LLM

▲

GN⁺ 11달전 | parent | ★ favorite | on: Devstral - Mistral의 에이전틱 LLM(mistral.ai)

Hacker News 의견

요즘 Ollama로 파일 크기부터 확인하는데, 이 모델은 14GB 수준임을 알게 됨 https://ollama.com/library/devstral/tags 참고. M2 Mac에서는 보통 모델 파일 크기에 추가로 10% 정도 더 메모리를 필요로 해서, 어떤 앱들을 병행 실행할 수 있을지 RAM 여유 확인에 도움을 받는 중. 20GB 이하 모델은 다른 프로그램들 사용에도 큰 영향이 없는 편. 이 모델, 꽤 기대되는 상황
- 현지 모델에 잘 동작하는 agentic 개발 소프트웨어 추천이 필요. Cursor는 사용해 봤지만 생각보다 만족도가 낮았고, 오히려 에디터와 ChatGPT를 번갈아 쓰는 게 더 낫다는 체감. Localforge와 aider도 시도했지만, 현지 모델에서는 약간 느린 편
- 나도 공감. 직접 이 모델을 로컬에 띄워봤는데 인상 좋았음. 루비나 rspec 관련 tricky한 코드도 잘 처리함을 확인. 컨텍스트가 큰 상황에서도 aider로 테스트해 볼 계획
SWE-Bench 점수가 오픈 소스 모델 크기 대비 매우 높은 수준. 46.8%는 o3-mini (Agentless-lite 탑재)나 Claude 3.6 (AutoCodeRover와 함께)보다 높고, Anthropic 독점 scaffold가 붙은 Claude 3.6보다는 약간 낮은 수치. 거의 무료로 돌릴 수 있다는 것까지 고려하면 상당히 놀라운 모델
- “놀랍다” 혹은 벤치마크가 제 역할을 못 하고 있다는 의심이 드는 부분
- 혹시 Claude 3.7을 의미하는 이야기인지 확인 필요
24GB RAM 비디오카드가 없는 사용자라면 참고 정보 남김. 난 8GB RAM 환경에서 Ollama로 간단한 작업에 이 모델을 사용 중. 컨텍스트 윈도우가 크고 시간이 민감한 작업은 API 유료 사용을 권장.
- 총 수행시간, 로딩, 토큰 평가율 등 상세 수치 공유:
  - 예시1: 35초 소요, 초 당 6.27토큰 처리
  - 예시2: 4분 44초 소요, 초 당 5.79토큰 처리
- API 호출 대비 약 20% 수준으로 느린 체감. 권장 그래픽카드가 없는 조건이라 그렇다고 봄.
- 벤치마크 성능이 크기에 비해 특이하게 잘 맞춰진 듯한데, 개발과정에서 벤치마크 최적화를 반복 테스트해서일 가능성이 높다고 생각. IT 분야 마케팅되는 대부분의 LLM 역시 마찬가지 전략이라 보는 관점. 결국 ‘테스트 시간 소모 없이 쓸 만함을 검증’하는 것은 나쁘지 않은 절충점
제시된 벤치마크를 믿지 못하겠는 입장. 직접 써보진 않았지만, Mistral 계열 모델들 벤치마크가 내 결과에서는 Llama와 비슷하게 하위권임. 실제 성능이 이만큼 나올 것이라는 기대는 없음
- All Hands 모델을 최근 다뤘고, 이들도 Mistral 기반으로 추정. 내 인상은 Claude 3.7 Sonnet에 비할 바는 아니지만, 꽤 안정적인 느낌. "AI 페어코딩 어시스턴트" 용도로 충분히 쓸만하며, 큰 구조 작업도 작업 단계를 세분화해서 시키면 가능
- 나 역시 잘 안 믿는 입장. 이런 건 직접 테스트해야 한다고 봄. 예를 들어, Qwen3는 내 기준에선 오히려 퇴보였고, GLM4가 현재 표준임. 70b cogito 모델도 정말 좋지만 잘 언급되지 않음. 프로젝트/언어나 용도마다 편차가 크다고 생각. 이 모델은 그래도 꼭 써볼 계획
Apache 2.0 라이선스라서 좋은 느낌. 복잡한 "오픈 웨이트" 조건 붙은 라이선스가 아닌 명확한 사용 조건. 이런 점이 장점
- 이 부분이 Mistral의 전략적 강점이라고 봄. 도의적으로 수용되는 작업이라면 Gemma 3 사용을 추천. 그렇지 않은 사용에는 Apache 라이선스 LLM 선택 가능성이 생김
EU가 이 에이전트/모델을 만들 비용을 부담하면 좋겠다는 아이디어. 만약 진짜 기대만큼의 성과가 있다면, Mistral이 계속 자기 일에 집중할 수 있고, 우리 유럽 입장에선 현명한 예산 사용 의미
- 내 세금이 apache/mit 라이선스 모델 개발로 간다면 찬성. 최소한 대체 모델 유지 및 대기업 독점 견제라는 긍정적 목적. 결국 소수의 대형 기업 독주를 막는 데 중요
- 실제로 EU가 AI 스타트업들이 쓸 수 있는 슈퍼컴퓨터 구축에 비용을 들였고, Mistral도 이 프로그램의 파트너로 참여 중임
LLamaIndex 도구 지원 시험하다 우연히 이 모델 확인. 자체 에이전틱 코딩 솔루션에 다양한 모델을 붙여 실험 중인데, 막 ReAct 방식을 적용하려던 차에 이 모델이 등장해서 놀람.
- 그런데 내 에이전트 시스템이 이 모델에선 "도구 없음"만 반환. 여러 에이전트 프롬프트에 "foo 툴로 bar 작업" 식 명시적 지시도 해봤지만 여전히 해결 못 함. ToolSpec은 어노테이션 등 표준 Pydantic 객체로, 다른 모델들은 알아서 툴 사용을 잘 찾았던 경험
- 아웃풋을 제한하는 방식으로 툴 스키마 강제 가능. 약간의 도움만 있으면 어느 모델이든 적용 가능
Mistral이 다시 진짜 오픈 소스 모델을 내놓게 되어 반가움. 유럽에 경쟁력 있는 AI 기업 필요성 계속 느끼는 중.
- 최근 Mistral 신모델들이 인상적. Le Chat Pro 유료 결제해 쓰고 있음. 이외에도 Mistral Small도 정말 쓸만함. Mistral 통합으로 스타트업도 개발 중
저사양(예: MacBook Air)에서 동작하는 최신 현지 실행 모델이나 관련 정보 추천 희망. 어떤 모델이 각 기기 사양에서 '실제로 쓸만한지' 테스트 없이 미리 알고 싶음. Ollama로 각 작업마다 2~3개의 모델을 계속 보관해 둘 필요가 있는지도 판단이 필요. Apple Intelligence는 아직 답이 아님
- 현지 실행에 최적화된 범용 모델로는 Gemma 3나 최신 Mistral Small 추천. Windows에선 VRAM이 속도 병목이지만, M 시리즈 Mac은 온칩 메모리라 빠르게 사용 가능. 실행 가능한 모델 용량은 실제 RAM에서 MacOS 점유 및 기타 어플리케이션에 쓸 공간을 뺀 값에서 결정.
  - 모델별 메모리 산정은 HuggingFace 등에서 제공하는 양자화(저정밀) 모델 크기를 참고. Q4_K_M 정도를 기본값으로 보면 적당.
  - Devstral 기준 14.3GB, 여기서 1~8GB를 추가 컨텍스트 저장용으로 더 필요.
  - 예시:
    - 32GB MacBook Air → Devstral(14.3GB)+4GB, 약 14GB는 시스템/다른 앱 용
    - 16GB MacBook Air → Gemma 3 12B(7.3GB)+2GB, 약 7GB 여유
    - 8GB MacBook → Gemma 3 4B(2.5GB)+1GB, 사실상 실사용은 비추천
- 직접 시도해서 확인하는 것이 제일 효과적. 각 모델 용량만 확보 가능하면 llama.cpp(https://github.com/ggml-org/llama.cpp) 쉽게 설치 및 빌드 가능, M 시리즈 MacBook Air 지원도 우수. 개인적으로는 LMStudio(https://lmstudio.ai/)를 주로 사용. ChatGPT나 Claude 느낌의 쉬운 인터페이스, 프로그램 내에서 바로 모델 검색/다운로드 가능. LMStudio만으로도 초입자에게 충분, 나는 M2 MacBook Air에서 자주 활용 중
이 모델 성능이 hosted LLM(예: Claude 3.7)과 실제로 어떻게 비교 되는지 궁금한 상황
- 사실 용도가 완전히 달라 직접 비교는 의미 없음