Mistral, 오픈소스 코딩 모델 Devstral 2 및 Vibe CLI 공개

(mistral.ai)

9P by GN⁺ 6달전 | ★ favorite | 댓글 1개

Devstral 2는 123B 파라미터의 차세대 오픈소스 코딩 모델로, SWE-bench Verified에서 72.2% 성능을 기록하며 경쟁 모델 대비 높은 효율을 달성
Devstral Small 2는 24B 파라미터로 소비자용 하드웨어에서도 실행 가능하며, Apache 2.0 라이선스로 배포
Mistral Vibe CLI는 Devstral 기반의 오픈소스 터미널 에이전트로, 코드 탐색·수정·실행을 자연어로 수행
Devstral 2는 Claude Sonnet 대비 최대 7배 비용 효율, DeepSeek V3.2보다 5배 작으면서도 높은 성능 유지
오픈소스 생태계에서 대규모 코드 자동화와 분산 지능 가속을 위한 핵심 도구로 평가

Devstral 2 개요

Devstral 2는 123B 파라미터의 밀집 트랜스포머 모델로, 256K 컨텍스트 윈도우를 지원
- SWE-bench Verified에서 72.2% 성능을 달성하며, 오픈 가중치 모델 중 상위권 성능을 보유
- 수정된 MIT 라이선스로 공개되어 오픈소스 코드 에이전트의 새로운 기준 제시
Devstral Small 2는 68.0% SWE-bench Verified 성능을 기록하며, 최대 5배 큰 모델들과 유사한 수준 유지
- 소비자용 하드웨어에서 로컬 실행 가능, 빠른 추론과 개인화된 피드백 루프 제공
- 이미지 입력을 지원하며 멀티모달 에이전트 구동 가능
Devstral 2(123B)와 Small 2(24B)는 각각 DeepSeek V3.2보다 5배, 28배 작고 Kimi K2보다 8배, 41배 작음
- 소형화된 모델 구조로 제한된 하드웨어에서도 배포 용이

프로덕션급 워크플로우 지원

Devstral 2는 코드베이스 탐색과 다중 파일 변경 관리를 지원하며, 아키텍처 수준의 문맥을 유지
- 프레임워크 종속성 추적, 실패 감지 및 자동 재시도 기능 포함
- 버그 수정 및 레거시 시스템 현대화 작업 수행 가능
특정 언어나 대규모 엔터프라이즈 코드베이스에 맞춘 파인튜닝 지원
DeepSeek V3.2 및 Claude Sonnet 4.5와의 인간 평가 비교에서 DeepSeek 대비 우위(42.8% 승률) 확보
- 단, Claude Sonnet 4.5에는 여전히 성능 격차 존재
Cline은 Devstral 2를 “최고 수준의 오픈소스 코딩 모델”이라 평가하며, 도구 호출 성공률이 폐쇄형 모델과 유사하다고 언급
Kilo Code는 출시 첫 24시간 동안 17B 토큰 사용량을 기록했다고 발표

Mistral Vibe CLI

Devstral 기반 오픈소스 CLI 코딩 어시스턴트로, 자연어 명령을 통해 코드 탐색·수정·실행 가능
- Apache 2.0 라이선스로 공개
- 터미널 또는 IDE(Agent Communication Protocol 연동)에서 사용 가능
주요 기능
- 프로젝트 인식 컨텍스트: 파일 구조와 Git 상태를 자동 스캔
- 스마트 참조: @ 자동완성, ! 명령 실행, 슬래시 명령으로 설정 변경
- 다중 파일 오케스트레이션: 전체 코드베이스 이해를 통한 아키텍처 수준 추론
- 지속적 히스토리, 자동완성, 테마 커스터마이징 지원
스크립트 실행, 자동 승인 토글, 로컬 모델 설정, 권한 제어 등 워크플로우 맞춤 구성 가능

배포 및 사용

Devstral 2는 현재 무료 API로 제공되며, 이후 입력/출력당 $0.40/$2.00 요금 예정
- Devstral Small 2는 $0.10/$0.30 요금
Kilo Code, Cline 등 오픈 에이전트 도구와 통합되어 사용 가능
Zed IDE 확장으로 Vibe CLI 직접 사용 가능
Devstral 2는 데이터센터급 GPU(최소 4×H100) 필요, build.nvidia.com에서 체험 가능
- Devstral Small 2는 단일 GPU 또는 CPU 환경에서도 실행 가능
- NVIDIA NIM 지원 예정
최적 성능을 위해 온도 0.2 설정 및 Vibe CLI의 베스트 프랙티스 권장

커뮤니티 및 채용

Mistral은 Devstral 2, Small 2, Vibe CLI를 활용한 프로젝트 공유 및 피드백 참여를 독려
- X/Twitter, Discord, GitHub 채널을 통해 소통 가능
오픈소스 연구 및 인터페이스 개발 인력 채용 중, 지원은 Mistral 공식 채용 페이지에서 가능

GN⁺ 6달전 [-]

Hacker News 의견

llm install llm-mistral 명령으로 Mistral 모델을 설치하고, llm mistral refresh 후 llm -m mistral/devstral-2512 "Generate an SVG of a pelican riding a bicycle"로 SVG 이미지를 생성했음
결과물은 이 링크에서 볼 수 있음. 123B 모델치고 꽤 괜찮은 결과임
모델 ID는 정확하지 않을 수도 있어 Mistral에 직접 문의함
- 이제 “펠리컨이 자전거 타는 SVG를 생성하라” 같은 프롬프트가 훈련 데이터에 포함되어 있을 가능성도 있음. 벤치마크로는 좋지만, benchmaxxing을 피하려면 무작위 테스트도 필요하다고 생각함
- 혹시 이 모델이 Space Jam 1996 웹사이트를 재현할 수도 있을까 하는 궁금증이 생김
- SVG는 코드이긴 하지만 실행 가능한 코드는 아니므로, 코딩 모델 평가에는 다소 오해의 소지가 있을 수 있음. 그래도 결과는 인상적임
- llm 툴은 어디서 구했는지 궁금함
- 자전거를 건너뛰고 멋진 오토바이로 업그레이드한 듯함
Mistral이 SOTA보다 1년 정도 뒤처졌지만 속도와 가격 경쟁력이 좋아지고 있음. 아직 내가 쓰기엔 부족하지만 빠르게 따라잡는 중임. 경쟁 모델로는 Haiku 4.5, Gemini 3 Pro Fast, 그리고 OpenAI의 새 경량 모델(GPT 5.1 Codex Max Extra High Fast?) 정도로 봄
- OpenAI의 새 모델 이름이 Garlic이라는데, 진짜 그렇게 출시하진 않겠지?
- Deepseek-v3.2와 비교하면 일반 능력은 훨씬 떨어지고, 가격은 5배 비쌈
Devstral 2를 CLI에서 실행해 500KB짜리 개인 프로젝트를 리뷰시켰음
프로그램의 기능을 정확히 이해하고, 버그 2개를 수정, 코드 개선과 소규모 기능 2개를 추가했음.
새 버그 하나를 만들었지만 지적하자마자 바로 고쳤음.
코드 변경은 최소화되어 있었고, 불필요한 재작성도 없었음.
아직 결론 내리긴 이르지만 꽤 유능한 모델로 보임
- 어떤 하드웨어에서 실행했는지 궁금함
Devstral을 직접 써볼 생각임. 예전 모델도 로컬 에이전트 코딩에 괜찮았음.
하지만 “Vibe CLI”라는 이름은 너무 가벼운 느낌을 줌.
‘Vibe-coding’은 모델의 한계를 실험하기엔 재밌지만, 품질 관리가 필요한 프로 작업에는 맞지 않음.
요즘은 다들 vibe-coding에 열중하지만, 인간의 지성을 보조하는 전문용 LLM 도구는 어디 있는지 의문임
- 새 CLI 에이전트 mistral-vibe는 Python으로 작성되었고, Zed의 ACP 프로토콜을 지원함
- 많은 앱이 단기 비즈니스 목적의 임시 서비스로 만들어지기 때문에, agentic coding은 그런 “** cardboard 서비스**”에는 충분히 유용함. 하지만 산업용 데이터 인프라에는 부적합함
- 우리가 만드는 Brokk이 바로 그런 전문용 도구임. 소개는 이 블로그 글 참고
- “그럼 Claude Code는 부족하다는 뜻인가?”라는 반응도 있음
- 이제는 코드 품질보다 명세와 테스트 품질이 더 중요하다는 의견도 있음
Devstral Small 2를 돌리기 위한 $5,000 하드웨어 구성을 고민 중임.
Mac 32GB, RTX 4090, DGX Spark, RTX 5090, 외장 GPU(Oculink) 등에서의 토큰 처리 속도가 궁금함
- $5,000은 애매한 예산이라 클라우드 GPU 임대를 추천함.
  고성능을 원하면 RTX 5090, CUDA 호환성은 DGX Spark, 대용량 모델은 Strix Halo 128GB나 M3 Ultra가 적합함.
  실제 벤치마크는 r/LocalLLaMA에서 찾는 게 좋음
- 듀얼 3090 (24GB×2) 구성이 현재 가성비 최고임.
  더 나아가려면 8×V100 서버(32GB×8, 512GB RAM, NVLink)도 있음. 단, 240V 전원이 필요함
- 나는 7900XTX + 128GB DDR4 조합을 씀. 그리고 NVIDIA는 싫음
“Vibe CLI”라는 이름이 너무 가벼워 보이는 툴 같음.
나는 Claude Code를 자주 쓰지만, 그걸 vibe-coding이라 부르진 않음
- 이런 이름은 홍보용 밈일 가능성이 큼. “프랑스 회사가 ‘vibe로 코딩하는’ 툴을 냈다!” 같은 기사로 주목받으려는 듯함
- LLM으로 코드를 짜는 건 본질적으로 가벼운 작업에 더 적합하다고 생각함
- Claude에게 코드를 맡긴다면 그건 이미 vibe-coding임
- 아마 단순히 유머러스한 네이밍일 수도 있음
React를 쓰지 않은 CLI라서 반가움.
Vibe-cli는 Textual 프레임워크로 만들어졌음
- 다만 Python 기반이라 출력 속도가 느릴까 걱정됨. 예전에 Aider에서도 비슷한 문제를 겪었음
Mistral이 Claude보다 토큰당 10배 저렴하다면 꽤 매력적임.
성능이 10배 나쁘지만 않다면 좋은 포인트임
- GPT 5-mini도 Haiku보다 훨씬 싸지만, 실제 써보면 시간 낭비 수준이었음.
  회사에서는 Haiku, Sonnet, Opus를 쓰지만 개인 예산에선 minimax m2를 씀
- 10배 싸고 2배 느리면 결국 토큰 낭비로 더 비싸질 수도 있음
- 현재 SOTA 모델들도 코딩 성능은 완벽하지 않으니, 굳이 가격 최적화에 집중할 이유는 없다고 봄
Mistral-vibe를 위한 AUR 패키지를 만들었음
패키지 링크
Nix 사용자라면 아래 명령으로 바로 실행 가능함
```
nix run github:numtide/llm-agents.nix#mistral-vibe
```
리포지토리는 매일 업데이트됨
- 정말 멋진 프로젝트라 생각함. 공유해줘서 고마움

답변달기

Mistral, 오픈소스 코딩 모델 Devstral 2 및 Vibe CLI 공개

Devstral 2 개요

프로덕션급 워크플로우 지원

Mistral Vibe CLI

배포 및 사용

커뮤니티 및 채용

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견