# Devstral - Mistral의 에이전틱 LLM

> Clean Markdown view of GeekNews topic #21040. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=21040](https://news.hada.io/topic?id=21040)
- GeekNews Markdown: [https://news.hada.io/topic/21040.md](https://news.hada.io/topic/21040.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-05-22T10:51:14+09:00
- Updated: 2025-05-22T10:51:14+09:00
- Original source: [mistral.ai](https://mistral.ai/news/devstral)
- Points: 4
- Comments: 1

## Topic Body

- **Devstral**은 소프트웨어 엔지니어링 작업을 위한 **에이전틱 LLM**으로, Mistral AI와 All Hands AI의 협업으로 개발됨
- SWE-Bench Verified 벤치마크에서 **기존 오픈소스 모델 대비 6% 이상 높은 46.8% 성능**을 달성함
- **경쟁 모델(Deepseek-V3, Qwen3 등) 및 일부 클로즈드소스 모델(GPT-4.1-mini 등)보다 우수한 성능**을 보임
- RTX 4090 또는 32GB RAM의 Mac에서도 **로컬 사용 가능**, 엔터프라이즈 환경이나 코파일럿에도 적합함
- **Apache 2.0 라이선스 하에 무료 배포**되며, 다양한 플랫폼에서 즉시 사용 및 커스터마이즈 가능함

---

### Devstral 소개

- Devstral은 **코드 작성, 수정, 이슈 해결 등 소프트웨어 엔지니어링 작업**을 위한 **에이전틱 LLM(Agentic Large Language Model)** 임
- Mistral AI와 All Hands AI의 파트너십으로 개발됨
- Devstral은 현실 세계의 GitHub 이슈를 실제로 해결하는 방식으로 훈련되었으며, OpenHands나 SWE-Agent와 같은 코드 에이전트 스캐폴드를 기반으로 동작함

### SWE-Bench Verified 벤치마크에서의 Devstral 성능

- Devstral은 SWE-Bench Verified에서 **46.8%의 점수**를 기록하며, 오픈소스 최고 성능 모델을 **6%포인트 이상 초과**함
- 같은 테스트 스캐폴드(OpenHands) 기준에서 Deepseek-V3-0324(671B), Qwen3 232B-A22B 같은 **더 큰 모델도 능가하는 결과**를 보여줌
- 커스텀 테스트 환경에서도 Devstral은 여러 **클로즈드소스 대체 모델**보다 뛰어난 성능을 기록함
  - 예를 들어, 최신 GPT-4.1-mini보다 **20% 이상 높은 정확성**을 보임

### 다양성 및 적용성

- Devstral은 **RTX 4090 또는 32GB RAM의 Mac**에서도 원활하게 작동 가능하여, 로컬 배포 및 온-디바이스 활용에 유리함
- OpenHands 같은 플랫폼에서는 **로컬 코드베이스와 연동**하여 이슈를 빠르게 해결할 수 있음
- **엔터프라이즈 환경의 프라이버시 보호가 필요한 코드 저장소**에도 적합함
- **코파일럿, 에이전트 IDE 플러그인 등 다양한 개발환경**에 적용 가능함

### 배포 및 사용

- Devstral은 **Apache 2.0 라이선스**를 적용받아, 누구나 무료로 활용, 커스터마이즈, 재배포 가능함
- 모델 사용 방법 안내 및 튜토리얼이 제공되며, HuggingFace, Ollama, Kaggle, Unsloth, LM Studio 등 다양한 플랫폼에서 다운로드 가능함
- Mistral의 공식 API에서도 devstral-small-2505 명칭으로 제공되며, Mistral Small 3.1과 동일한 사용 요금 정책을 채택함
- 엔터프라이즈 환경에서 **프라이빗 코드베이스에 특화된 파인튜닝** 등 고급 커스터마이즈가 필요할 경우 문의 가능함

### 앞으로의 계획

- Devstral은 현재 **리서치 프리뷰** 단계임
- 향후 **더 큰 규모의 에이전틱 코딩 모델**도 출시 예정임
- Devstral 활용 또는 Mistral의 다양한 모델 및 솔루션에 대해 문의를 원하면 공식 연락처를 통해 상담 가능함

## Comments


### Comment 39052

- Author: neo
- Created: 2025-05-22T10:51:14+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=44051733) 
- 요즘 Ollama로 파일 크기부터 확인하는데, 이 모델은 14GB 수준임을 알게 됨 https://ollama.com/library/devstral/tags 참고. M2 Mac에서는 보통 모델 파일 크기에 추가로 10% 정도 더 메모리를 필요로 해서, 어떤 앱들을 병행 실행할 수 있을지 RAM 여유 확인에 도움을 받는 중. 20GB 이하 모델은 다른 프로그램들 사용에도 큰 영향이 없는 편. 이 모델, 꽤 기대되는 상황

  - 현지 모델에 잘 동작하는 agentic 개발 소프트웨어 추천이 필요. Cursor는 사용해 봤지만 생각보다 만족도가 낮았고, 오히려 에디터와 ChatGPT를 번갈아 쓰는 게 더 낫다는 체감. Localforge와 aider도 시도했지만, 현지 모델에서는 약간 느린 편

  - 나도 공감. 직접 이 모델을 로컬에 띄워봤는데 인상 좋았음. 루비나 rspec 관련 tricky한 코드도 잘 처리함을 확인. 컨텍스트가 큰 상황에서도 aider로 테스트해 볼 계획

- SWE-Bench 점수가 오픈 소스 모델 크기 대비 매우 높은 수준. 46.8%는 o3-mini (Agentless-lite 탑재)나 Claude 3.6 (AutoCodeRover와 함께)보다 높고, Anthropic 독점 scaffold가 붙은 Claude 3.6보다는 약간 낮은 수치. 거의 무료로 돌릴 수 있다는 것까지 고려하면 상당히 놀라운 모델

  - “놀랍다” 혹은 벤치마크가 제 역할을 못 하고 있다는 의심이 드는 부분

  - 혹시 Claude 3.7을 의미하는 이야기인지 확인 필요

- 24GB RAM 비디오카드가 없는 사용자라면 참고 정보 남김. 난 8GB RAM 환경에서 Ollama로 간단한 작업에 이 모델을 사용 중. 컨텍스트 윈도우가 크고 시간이 민감한 작업은 API 유료 사용을 권장.  
  - 총 수행시간, 로딩, 토큰 평가율 등 상세 수치 공유:  
    - 예시1: 35초 소요, 초 당 6.27토큰 처리  
    - 예시2: 4분 44초 소요, 초 당 5.79토큰 처리  
  - API 호출 대비 약 20% 수준으로 느린 체감. 권장 그래픽카드가 없는 조건이라 그렇다고 봄.  
  - 벤치마크 성능이 크기에 비해 특이하게 잘 맞춰진 듯한데, 개발과정에서 벤치마크 최적화를 반복 테스트해서일 가능성이 높다고 생각. IT 분야 마케팅되는 대부분의 LLM 역시 마찬가지 전략이라 보는 관점. 결국 ‘테스트 시간 소모 없이 쓸 만함을 검증’하는 것은 나쁘지 않은 절충점

- 제시된 벤치마크를 믿지 못하겠는 입장. 직접 써보진 않았지만, Mistral 계열 모델들 벤치마크가 내 결과에서는 Llama와 비슷하게 하위권임. 실제 성능이 이만큼 나올 것이라는 기대는 없음

  - All Hands 모델을 최근 다뤘고, 이들도 Mistral 기반으로 추정. 내 인상은 Claude 3.7 Sonnet에 비할 바는 아니지만, 꽤 안정적인 느낌. "AI 페어코딩 어시스턴트" 용도로 충분히 쓸만하며, 큰 구조 작업도 작업 단계를 세분화해서 시키면 가능

  - 나 역시 잘 안 믿는 입장. 이런 건 직접 테스트해야 한다고 봄. 예를 들어, Qwen3는 내 기준에선 오히려 퇴보였고, GLM4가 현재 표준임. 70b cogito 모델도 정말 좋지만 잘 언급되지 않음. 프로젝트/언어나 용도마다 편차가 크다고 생각. 이 모델은 그래도 꼭 써볼 계획

- Apache 2.0 라이선스라서 좋은 느낌. 복잡한 "오픈 웨이트" 조건 붙은 라이선스가 아닌 명확한 사용 조건. 이런 점이 장점

  - 이 부분이 Mistral의 전략적 강점이라고 봄. 도의적으로 수용되는 작업이라면 Gemma 3 사용을 추천. 그렇지 않은 사용에는 Apache 라이선스 LLM 선택 가능성이 생김

- EU가 이 에이전트/모델을 만들 비용을 부담하면 좋겠다는 아이디어. 만약 진짜 기대만큼의 성과가 있다면, Mistral이 계속 자기 일에 집중할 수 있고, 우리 유럽 입장에선 현명한 예산 사용 의미

  - 내 세금이 apache/mit 라이선스 모델 개발로 간다면 찬성. 최소한 대체 모델 유지 및 대기업 독점 견제라는 긍정적 목적. 결국 소수의 대형 기업 독주를 막는 데 중요

  - 실제로 EU가 AI 스타트업들이 쓸 수 있는 슈퍼컴퓨터 구축에 비용을 들였고, Mistral도 이 프로그램의 파트너로 참여 중임

- LLamaIndex 도구 지원 시험하다 우연히 이 모델 확인. 자체 에이전틱 코딩 솔루션에 다양한 모델을 붙여 실험 중인데, 막 ReAct 방식을 적용하려던 차에 이 모델이 등장해서 놀람.  
  - 그런데 내 에이전트 시스템이 이 모델에선 "도구 없음"만 반환. 여러 에이전트 프롬프트에 "foo 툴로 bar 작업" 식 명시적 지시도 해봤지만 여전히 해결 못 함. ToolSpec은 어노테이션 등 표준 Pydantic 객체로, 다른 모델들은 알아서 툴 사용을 잘 찾았던 경험

  - 아웃풋을 제한하는 방식으로 툴 스키마 강제 가능. 약간의 도움만 있으면 어느 모델이든 적용 가능

- Mistral이 다시 진짜 오픈 소스 모델을 내놓게 되어 반가움. 유럽에 경쟁력 있는 AI 기업 필요성 계속 느끼는 중.  
  - 최근 Mistral 신모델들이 인상적. Le Chat Pro 유료 결제해 쓰고 있음. 이외에도 Mistral Small도 정말 쓸만함. Mistral 통합으로 스타트업도 개발 중

- 저사양(예: MacBook Air)에서 동작하는 최신 현지 실행 모델이나 관련 정보 추천 희망. 어떤 모델이 각 기기 사양에서 '실제로 쓸만한지' 테스트 없이 미리 알고 싶음. Ollama로 각 작업마다 2~3개의 모델을 계속 보관해 둘 필요가 있는지도 판단이 필요. Apple Intelligence는 아직 답이 아님

  - 현지 실행에 최적화된 범용 모델로는 Gemma 3나 최신 Mistral Small 추천. Windows에선 VRAM이 속도 병목이지만, M 시리즈 Mac은 온칩 메모리라 빠르게 사용 가능. 실행 가능한 모델 용량은 실제 RAM에서 MacOS 점유 및 기타 어플리케이션에 쓸 공간을 뺀 값에서 결정.  
    - 모델별 메모리 산정은 HuggingFace 등에서 제공하는 양자화(저정밀) 모델 크기를 참고. Q4_K_M 정도를 기본값으로 보면 적당.  
    - Devstral 기준 14.3GB, 여기서 1~8GB를 추가 컨텍스트 저장용으로 더 필요.  
    - 예시:  
      - 32GB MacBook Air → Devstral(14.3GB)+4GB, 약 14GB는 시스템/다른 앱 용  
      - 16GB MacBook Air → Gemma 3 12B(7.3GB)+2GB, 약 7GB 여유  
      - 8GB MacBook → Gemma 3 4B(2.5GB)+1GB, 사실상 실사용은 비추천

  - 직접 시도해서 확인하는 것이 제일 효과적. 각 모델 용량만 확보 가능하면 llama.cpp(https://github.com/ggml-org/llama.cpp) 쉽게 설치 및 빌드 가능, M 시리즈 MacBook Air 지원도 우수. 개인적으로는 LMStudio(https://lmstudio.ai/)를 주로 사용. ChatGPT나 Claude 느낌의 쉬운 인터페이스, 프로그램 내에서 바로 모델 검색/다운로드 가능. LMStudio만으로도 초입자에게 충분, 나는 M2 MacBook Air에서 자주 활용 중

- 이 모델 성능이 hosted LLM(예: Claude 3.7)과 실제로 어떻게 비교 되는지 궁금한 상황

  - 사실 용도가 완전히 달라 직접 비교는 의미 없음