Mistral, 오픈소스 코딩 모델 Devstral 2 및 Vibe CLI 공개
(mistral.ai)- Devstral 2는 123B 파라미터의 차세대 오픈소스 코딩 모델로, SWE-bench Verified에서 72.2% 성능을 기록하며 경쟁 모델 대비 높은 효율을 달성
- Devstral Small 2는 24B 파라미터로 소비자용 하드웨어에서도 실행 가능하며, Apache 2.0 라이선스로 배포
- Mistral Vibe CLI는 Devstral 기반의 오픈소스 터미널 에이전트로, 코드 탐색·수정·실행을 자연어로 수행
- Devstral 2는 Claude Sonnet 대비 최대 7배 비용 효율, DeepSeek V3.2보다 5배 작으면서도 높은 성능 유지
- 오픈소스 생태계에서 대규모 코드 자동화와 분산 지능 가속을 위한 핵심 도구로 평가
Devstral 2 개요
- Devstral 2는 123B 파라미터의 밀집 트랜스포머 모델로, 256K 컨텍스트 윈도우를 지원
- SWE-bench Verified에서 72.2% 성능을 달성하며, 오픈 가중치 모델 중 상위권 성능을 보유
- 수정된 MIT 라이선스로 공개되어 오픈소스 코드 에이전트의 새로운 기준 제시
- Devstral Small 2는 68.0% SWE-bench Verified 성능을 기록하며, 최대 5배 큰 모델들과 유사한 수준 유지
- 소비자용 하드웨어에서 로컬 실행 가능, 빠른 추론과 개인화된 피드백 루프 제공
- 이미지 입력을 지원하며 멀티모달 에이전트 구동 가능
- Devstral 2(123B)와 Small 2(24B)는 각각 DeepSeek V3.2보다 5배, 28배 작고 Kimi K2보다 8배, 41배 작음
- 소형화된 모델 구조로 제한된 하드웨어에서도 배포 용이
프로덕션급 워크플로우 지원
- Devstral 2는 코드베이스 탐색과 다중 파일 변경 관리를 지원하며, 아키텍처 수준의 문맥을 유지
- 프레임워크 종속성 추적, 실패 감지 및 자동 재시도 기능 포함
- 버그 수정 및 레거시 시스템 현대화 작업 수행 가능
- 특정 언어나 대규모 엔터프라이즈 코드베이스에 맞춘 파인튜닝 지원
- DeepSeek V3.2 및 Claude Sonnet 4.5와의 인간 평가 비교에서 DeepSeek 대비 우위(42.8% 승률) 확보
- 단, Claude Sonnet 4.5에는 여전히 성능 격차 존재
- Cline은 Devstral 2를 “최고 수준의 오픈소스 코딩 모델”이라 평가하며, 도구 호출 성공률이 폐쇄형 모델과 유사하다고 언급
- Kilo Code는 출시 첫 24시간 동안 17B 토큰 사용량을 기록했다고 발표
Mistral Vibe CLI
-
Devstral 기반 오픈소스 CLI 코딩 어시스턴트로, 자연어 명령을 통해 코드 탐색·수정·실행 가능
- Apache 2.0 라이선스로 공개
- 터미널 또는 IDE(Agent Communication Protocol 연동)에서 사용 가능
- 주요 기능
- 프로젝트 인식 컨텍스트: 파일 구조와 Git 상태를 자동 스캔
-
스마트 참조:
@자동완성,!명령 실행, 슬래시 명령으로 설정 변경 - 다중 파일 오케스트레이션: 전체 코드베이스 이해를 통한 아키텍처 수준 추론
- 지속적 히스토리, 자동완성, 테마 커스터마이징 지원
- 스크립트 실행, 자동 승인 토글, 로컬 모델 설정, 권한 제어 등 워크플로우 맞춤 구성 가능
배포 및 사용
- Devstral 2는 현재 무료 API로 제공되며, 이후 입력/출력당 $0.40/$2.00 요금 예정
- Devstral Small 2는 $0.10/$0.30 요금
- Kilo Code, Cline 등 오픈 에이전트 도구와 통합되어 사용 가능
- Zed IDE 확장으로 Vibe CLI 직접 사용 가능
- Devstral 2는 데이터센터급 GPU(최소 4×H100) 필요, build.nvidia.com에서 체험 가능
- Devstral Small 2는 단일 GPU 또는 CPU 환경에서도 실행 가능
- NVIDIA NIM 지원 예정
- 최적 성능을 위해 온도 0.2 설정 및 Vibe CLI의 베스트 프랙티스 권장
커뮤니티 및 채용
- Mistral은 Devstral 2, Small 2, Vibe CLI를 활용한 프로젝트 공유 및 피드백 참여를 독려
- X/Twitter, Discord, GitHub 채널을 통해 소통 가능
- 오픈소스 연구 및 인터페이스 개발 인력 채용 중, 지원은 Mistral 공식 채용 페이지에서 가능
Hacker News 의견
-
llm install llm-mistral명령으로 Mistral 모델을 설치하고,llm mistral refresh후llm -m mistral/devstral-2512 "Generate an SVG of a pelican riding a bicycle"로 SVG 이미지를 생성했음
결과물은 이 링크에서 볼 수 있음. 123B 모델치고 꽤 괜찮은 결과임
모델 ID는 정확하지 않을 수도 있어 Mistral에 직접 문의함- 이제 “펠리컨이 자전거 타는 SVG를 생성하라” 같은 프롬프트가 훈련 데이터에 포함되어 있을 가능성도 있음. 벤치마크로는 좋지만, benchmaxxing을 피하려면 무작위 테스트도 필요하다고 생각함
- 혹시 이 모델이 Space Jam 1996 웹사이트를 재현할 수도 있을까 하는 궁금증이 생김
- SVG는 코드이긴 하지만 실행 가능한 코드는 아니므로, 코딩 모델 평가에는 다소 오해의 소지가 있을 수 있음. 그래도 결과는 인상적임
-
llm툴은 어디서 구했는지 궁금함 - 자전거를 건너뛰고 멋진 오토바이로 업그레이드한 듯함
-
Mistral이 SOTA보다 1년 정도 뒤처졌지만 속도와 가격 경쟁력이 좋아지고 있음. 아직 내가 쓰기엔 부족하지만 빠르게 따라잡는 중임. 경쟁 모델로는 Haiku 4.5, Gemini 3 Pro Fast, 그리고 OpenAI의 새 경량 모델(GPT 5.1 Codex Max Extra High Fast?) 정도로 봄
- OpenAI의 새 모델 이름이 Garlic이라는데, 진짜 그렇게 출시하진 않겠지?
- Deepseek-v3.2와 비교하면 일반 능력은 훨씬 떨어지고, 가격은 5배 비쌈
-
Devstral 2를 CLI에서 실행해 500KB짜리 개인 프로젝트를 리뷰시켰음
프로그램의 기능을 정확히 이해하고, 버그 2개를 수정, 코드 개선과 소규모 기능 2개를 추가했음.
새 버그 하나를 만들었지만 지적하자마자 바로 고쳤음.
코드 변경은 최소화되어 있었고, 불필요한 재작성도 없었음.
아직 결론 내리긴 이르지만 꽤 유능한 모델로 보임- 어떤 하드웨어에서 실행했는지 궁금함
-
Devstral을 직접 써볼 생각임. 예전 모델도 로컬 에이전트 코딩에 괜찮았음.
하지만 “Vibe CLI”라는 이름은 너무 가벼운 느낌을 줌.
‘Vibe-coding’은 모델의 한계를 실험하기엔 재밌지만, 품질 관리가 필요한 프로 작업에는 맞지 않음.
요즘은 다들 vibe-coding에 열중하지만, 인간의 지성을 보조하는 전문용 LLM 도구는 어디 있는지 의문임- 새 CLI 에이전트 mistral-vibe는 Python으로 작성되었고, Zed의 ACP 프로토콜을 지원함
- 많은 앱이 단기 비즈니스 목적의 임시 서비스로 만들어지기 때문에, agentic coding은 그런 “** cardboard 서비스**”에는 충분히 유용함. 하지만 산업용 데이터 인프라에는 부적합함
- 우리가 만드는 Brokk이 바로 그런 전문용 도구임. 소개는 이 블로그 글 참고
- “그럼 Claude Code는 부족하다는 뜻인가?”라는 반응도 있음
- 이제는 코드 품질보다 명세와 테스트 품질이 더 중요하다는 의견도 있음
-
Devstral Small 2를 돌리기 위한 $5,000 하드웨어 구성을 고민 중임.
Mac 32GB, RTX 4090, DGX Spark, RTX 5090, 외장 GPU(Oculink) 등에서의 토큰 처리 속도가 궁금함- $5,000은 애매한 예산이라 클라우드 GPU 임대를 추천함.
고성능을 원하면 RTX 5090, CUDA 호환성은 DGX Spark, 대용량 모델은 Strix Halo 128GB나 M3 Ultra가 적합함.
실제 벤치마크는 r/LocalLLaMA에서 찾는 게 좋음 -
듀얼 3090 (24GB×2) 구성이 현재 가성비 최고임.
더 나아가려면 8×V100 서버(32GB×8, 512GB RAM, NVLink)도 있음. 단, 240V 전원이 필요함 - 나는 7900XTX + 128GB DDR4 조합을 씀. 그리고 NVIDIA는 싫음
- $5,000은 애매한 예산이라 클라우드 GPU 임대를 추천함.
-
“Vibe CLI”라는 이름이 너무 가벼워 보이는 툴 같음.
나는 Claude Code를 자주 쓰지만, 그걸 vibe-coding이라 부르진 않음- 이런 이름은 홍보용 밈일 가능성이 큼. “프랑스 회사가 ‘vibe로 코딩하는’ 툴을 냈다!” 같은 기사로 주목받으려는 듯함
- LLM으로 코드를 짜는 건 본질적으로 가벼운 작업에 더 적합하다고 생각함
- Claude에게 코드를 맡긴다면 그건 이미 vibe-coding임
- 아마 단순히 유머러스한 네이밍일 수도 있음
-
React를 쓰지 않은 CLI라서 반가움.
Vibe-cli는 Textual 프레임워크로 만들어졌음- 다만 Python 기반이라 출력 속도가 느릴까 걱정됨. 예전에 Aider에서도 비슷한 문제를 겪었음
-
Mistral이 Claude보다 토큰당 10배 저렴하다면 꽤 매력적임.
성능이 10배 나쁘지만 않다면 좋은 포인트임- GPT 5-mini도 Haiku보다 훨씬 싸지만, 실제 써보면 시간 낭비 수준이었음.
회사에서는 Haiku, Sonnet, Opus를 쓰지만 개인 예산에선 minimax m2를 씀 - 10배 싸고 2배 느리면 결국 토큰 낭비로 더 비싸질 수도 있음
- 현재 SOTA 모델들도 코딩 성능은 완벽하지 않으니, 굳이 가격 최적화에 집중할 이유는 없다고 봄
- GPT 5-mini도 Haiku보다 훨씬 싸지만, 실제 써보면 시간 낭비 수준이었음.
-
Mistral-vibe를 위한 AUR 패키지를 만들었음
패키지 링크 -
Nix 사용자라면 아래 명령으로 바로 실행 가능함
nix run github:numtide/llm-agents.nix#mistral-vibe리포지토리는 매일 업데이트됨
- 정말 멋진 프로젝트라 생각함. 공유해줘서 고마움