# Mistral, 오픈소스 코딩 모델 Devstral 2 및 Vibe CLI 공개

> Clean Markdown view of GeekNews topic #24959. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=24959](https://news.hada.io/topic?id=24959)
- GeekNews Markdown: [https://news.hada.io/topic/24959.md](https://news.hada.io/topic/24959.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-12-10T09:49:50+09:00
- Updated: 2025-12-10T09:49:50+09:00
- Original source: [mistral.ai](https://mistral.ai/news/devstral-2-vibe-cli)
- Points: 9
- Comments: 1

## Summary

**Mistral**이 123B 파라미터의 차세대 오픈소스 코딩 모델 **Devstral 2**와 터미널 에이전트 **Vibe CLI**를 공개했습니다. Devstral 2는 SWE‑bench Verified에서 72.2% 성능을 기록하며, Claude Sonnet 대비 최대 7배의 비용 효율을 보입니다. 함께 공개된 **Devstral Small 2**는 24B 모델로 소비자용 하드웨어에서도 실행 가능하며, Vibe CLI는 자연어로 코드 탐색·수정·실행을 지원해 오픈소스 개발 워크플로우의 자동화를 한층 가속합니다.

## Topic Body

- **Devstral 2**는 123B 파라미터의 차세대 오픈소스 코딩 모델로, SWE-bench Verified에서 **72.2% 성능**을 기록하며 경쟁 모델 대비 높은 효율을 달성  
- **Devstral Small 2**는 24B 파라미터로 소비자용 하드웨어에서도 실행 가능하며, **Apache 2.0 라이선스**로 배포  
- **Mistral Vibe CLI**는 Devstral 기반의 **오픈소스 터미널 에이전트**로, 코드 탐색·수정·실행을 자연어로 수행  
- Devstral 2는 **Claude Sonnet 대비 최대 7배 비용 효율**, DeepSeek V3.2보다 5배 작으면서도 높은 성능 유지  
- 오픈소스 생태계에서 **대규모 코드 자동화와 분산 지능 가속**을 위한 핵심 도구로 평가  

---

### Devstral 2 개요
- Devstral 2는 **123B 파라미터의 밀집 트랜스포머 모델**로, **256K 컨텍스트 윈도우**를 지원  
  - SWE-bench Verified에서 **72.2% 성능**을 달성하며, 오픈 가중치 모델 중 상위권 성능을 보유  
  - **수정된 MIT 라이선스**로 공개되어 오픈소스 코드 에이전트의 새로운 기준 제시  
- Devstral Small 2는 **68.0% SWE-bench Verified 성능**을 기록하며, 최대 5배 큰 모델들과 유사한 수준 유지  
  - **소비자용 하드웨어에서 로컬 실행 가능**, 빠른 추론과 개인화된 피드백 루프 제공  
  - 이미지 입력을 지원하며 **멀티모달 에이전트 구동 가능**  
- Devstral 2(123B)와 Small 2(24B)는 각각 DeepSeek V3.2보다 5배, 28배 작고 Kimi K2보다 8배, 41배 작음  
  - **소형화된 모델 구조**로 제한된 하드웨어에서도 배포 용이  

### 프로덕션급 워크플로우 지원
- Devstral 2는 **코드베이스 탐색과 다중 파일 변경 관리**를 지원하며, 아키텍처 수준의 문맥을 유지  
  - 프레임워크 종속성 추적, 실패 감지 및 자동 재시도 기능 포함  
  - **버그 수정 및 레거시 시스템 현대화** 작업 수행 가능  
- 특정 언어나 대규모 엔터프라이즈 코드베이스에 맞춘 **파인튜닝 지원**  
- DeepSeek V3.2 및 Claude Sonnet 4.5와의 **인간 평가 비교**에서 DeepSeek 대비 우위(42.8% 승률) 확보  
  - 단, Claude Sonnet 4.5에는 여전히 성능 격차 존재  
- Cline은 Devstral 2를 “**최고 수준의 오픈소스 코딩 모델**”이라 평가하며, **도구 호출 성공률이 폐쇄형 모델과 유사**하다고 언급  
- Kilo Code는 출시 첫 24시간 동안 **17B 토큰 사용량**을 기록했다고 발표  

### Mistral Vibe CLI
- **Devstral 기반 오픈소스 CLI 코딩 어시스턴트**로, 자연어 명령을 통해 코드 탐색·수정·실행 가능  
  - **Apache 2.0 라이선스**로 공개  
  - 터미널 또는 IDE(Agent Communication Protocol 연동)에서 사용 가능  
- 주요 기능  
  - **프로젝트 인식 컨텍스트**: 파일 구조와 Git 상태를 자동 스캔  
  - **스마트 참조**: `@` 자동완성, `!` 명령 실행, 슬래시 명령으로 설정 변경  
  - **다중 파일 오케스트레이션**: 전체 코드베이스 이해를 통한 아키텍처 수준 추론  
  - **지속적 히스토리, 자동완성, 테마 커스터마이징** 지원  
- **스크립트 실행, 자동 승인 토글, 로컬 모델 설정, 권한 제어** 등 워크플로우 맞춤 구성 가능  

### 배포 및 사용
- Devstral 2는 현재 **무료 API**로 제공되며, 이후 **입력/출력당 $0.40/$2.00** 요금 예정  
  - Devstral Small 2는 **$0.10/$0.30** 요금  
- **Kilo Code**, **Cline** 등 오픈 에이전트 도구와 통합되어 사용 가능  
- **Zed IDE 확장**으로 Vibe CLI 직접 사용 가능  
- Devstral 2는 **데이터센터급 GPU(최소 4×H100)** 필요, **build.nvidia.com**에서 체험 가능  
  - Devstral Small 2는 **단일 GPU 또는 CPU 환경에서도 실행 가능**  
  - **NVIDIA NIM 지원 예정**  
- 최적 성능을 위해 **온도 0.2 설정** 및 Vibe CLI의 베스트 프랙티스 권장  

### 커뮤니티 및 채용
- Mistral은 Devstral 2, Small 2, Vibe CLI를 활용한 **프로젝트 공유 및 피드백 참여**를 독려  
  - **X/Twitter, Discord, GitHub** 채널을 통해 소통 가능  
- **오픈소스 연구 및 인터페이스 개발 인력 채용 중**, 지원은 Mistral 공식 채용 페이지에서 가능

## Comments


### Comment 47488

- Author: neo
- Created: 2025-12-10T09:49:50+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=46205437) 
- `llm install llm-mistral` 명령으로 **Mistral 모델**을 설치하고, `llm mistral refresh` 후 `llm -m mistral/devstral-2512 "Generate an SVG of a pelican riding a bicycle"`로 SVG 이미지를 생성했음  
  결과물은 [이 링크](https://tools.simonwillison.net/svg-render#%3Csvg%20xmlns%3D...)에서 볼 수 있음. 123B 모델치고 꽤 괜찮은 결과임  
  모델 ID는 정확하지 않을 수도 있어 Mistral에 직접 [문의함](https://x.com/simonw/status/1998435424847675429)
  - 이제 “펠리컨이 자전거 타는 SVG를 생성하라” 같은 프롬프트가 **훈련 데이터**에 포함되어 있을 가능성도 있음. 벤치마크로는 좋지만, **benchmaxxing**을 피하려면 무작위 테스트도 필요하다고 생각함
  - 혹시 이 모델이 [Space Jam 1996 웹사이트](https://www.spacejam.com/1996/jam.html)를 재현할 수도 있을까 하는 궁금증이 생김
  - SVG는 코드이긴 하지만 **실행 가능한 코드**는 아니므로, 코딩 모델 평가에는 다소 오해의 소지가 있을 수 있음. 그래도 결과는 인상적임
  - `llm` 툴은 어디서 구했는지 궁금함
  - 자전거를 건너뛰고 멋진 **오토바이**로 업그레이드한 듯함

- Mistral이 SOTA보다 1년 정도 뒤처졌지만 **속도와 가격 경쟁력**이 좋아지고 있음. 아직 내가 쓰기엔 부족하지만 빠르게 따라잡는 중임. 경쟁 모델로는 Haiku 4.5, Gemini 3 Pro Fast, 그리고 OpenAI의 새 경량 모델(GPT 5.1 Codex Max Extra High Fast?) 정도로 봄
  - OpenAI의 새 모델 이름이 **Garlic**이라는데, 진짜 그렇게 출시하진 않겠지?
  - Deepseek-v3.2와 비교하면 **일반 능력**은 훨씬 떨어지고, 가격은 5배 비쌈

- Devstral 2를 CLI에서 실행해 500KB짜리 개인 프로젝트를 리뷰시켰음  
  프로그램의 기능을 정확히 이해하고, **버그 2개를 수정**, 코드 개선과 소규모 기능 2개를 추가했음.  
  새 버그 하나를 만들었지만 지적하자마자 바로 고쳤음.  
  코드 변경은 최소화되어 있었고, 불필요한 재작성도 없었음.  
  아직 결론 내리긴 이르지만 꽤 **유능한 모델**로 보임
  - 어떤 하드웨어에서 실행했는지 궁금함

- Devstral을 직접 써볼 생각임. 예전 모델도 **로컬 에이전트 코딩**에 괜찮았음.  
  하지만 “Vibe CLI”라는 이름은 너무 **가벼운 느낌**을 줌.  
  ‘Vibe-coding’은 모델의 한계를 실험하기엔 재밌지만, **품질 관리가 필요한 프로 작업**에는 맞지 않음.  
  요즘은 다들 vibe-coding에 열중하지만, 인간의 지성을 보조하는 **전문용 LLM 도구**는 어디 있는지 의문임
  - 새 CLI 에이전트 [mistral-vibe](https://github.com/mistralai/mistral-vibe)는 Python으로 작성되었고, [Zed의 ACP 프로토콜](https://zed.dev/acp)을 지원함
  - 많은 앱이 단기 비즈니스 목적의 **임시 서비스**로 만들어지기 때문에, agentic coding은 그런 “** cardboard 서비스**”에는 충분히 유용함. 하지만 산업용 데이터 인프라에는 부적합함
  - 우리가 만드는 [Brokk](https://brokk.ai/)이 바로 그런 **전문용 도구**임. 소개는 [이 블로그 글](https://blog.brokk.ai/introducing-lutz-mode/) 참고
  - “그럼 **Claude Code**는 부족하다는 뜻인가?”라는 반응도 있음
  - 이제는 코드 품질보다 **명세와 테스트 품질**이 더 중요하다는 의견도 있음

- Devstral Small 2를 돌리기 위한 **$5,000 하드웨어 구성**을 고민 중임.  
  Mac 32GB, RTX 4090, DGX Spark, RTX 5090, 외장 GPU(Oculink) 등에서의 **토큰 처리 속도**가 궁금함
  - $5,000은 애매한 예산이라 클라우드 GPU 임대를 추천함.  
    고성능을 원하면 RTX 5090, CUDA 호환성은 DGX Spark, 대용량 모델은 **Strix Halo 128GB**나 **M3 Ultra**가 적합함.  
    실제 벤치마크는 [r/LocalLLaMA](https://www.reddit.com/r/LocalLLaMA/)에서 찾는 게 좋음
  - **듀얼 3090 (24GB×2)** 구성이 현재 가성비 최고임.  
    더 나아가려면 8×V100 서버(32GB×8, 512GB RAM, NVLink)도 있음. 단, 240V 전원이 필요함
  - 나는 **7900XTX + 128GB DDR4** 조합을 씀. 그리고 **NVIDIA는 싫음**

- “Vibe CLI”라는 이름이 너무 **가벼워 보이는 툴** 같음.  
  나는 Claude Code를 자주 쓰지만, 그걸 vibe-coding이라 부르진 않음
  - 이런 이름은 **홍보용 밈**일 가능성이 큼. “프랑스 회사가 ‘vibe로 코딩하는’ 툴을 냈다!” 같은 기사로 주목받으려는 듯함
  - LLM으로 코드를 짜는 건 본질적으로 **가벼운 작업**에 더 적합하다고 생각함
  - Claude에게 코드를 맡긴다면 그건 이미 vibe-coding임
  - 아마 단순히 **유머러스한 네이밍**일 수도 있음

- React를 쓰지 않은 CLI라서 반가움.  
  **Vibe-cli**는 [Textual 프레임워크](https://github.com/textualize/textual/)로 만들어졌음
  - 다만 Python 기반이라 **출력 속도**가 느릴까 걱정됨. 예전에 Aider에서도 비슷한 문제를 겪었음

- Mistral이 Claude보다 **토큰당 10배 저렴**하다면 꽤 매력적임.  
  성능이 10배 나쁘지만 않다면 좋은 포인트임
  - GPT 5-mini도 Haiku보다 훨씬 싸지만, 실제 써보면 **시간 낭비 수준**이었음.  
    회사에서는 Haiku, Sonnet, Opus를 쓰지만 개인 예산에선 minimax m2를 씀
  - 10배 싸고 2배 느리면 결국 **토큰 낭비**로 더 비싸질 수도 있음
  - 현재 SOTA 모델들도 코딩 성능은 완벽하지 않으니, 굳이 **가격 최적화**에 집중할 이유는 없다고 봄

- Mistral-vibe를 위한 **AUR 패키지**를 만들었음  
  [패키지 링크](https://aur.archlinux.org/packages/mistral-vibe)

- Nix 사용자라면 아래 명령으로 바로 실행 가능함  
  ```bash
  nix run github:numtide/llm-agents.nix#mistral-vibe
  ```  
  리포지토리는 매일 업데이트됨
  - 정말 멋진 프로젝트라 생각함. 공유해줘서 고마움