4P by GN⁺ 1일전 | ★ favorite | 댓글 1개
  • Devstral은 소프트웨어 엔지니어링 작업을 위한 에이전틱 LLM으로, Mistral AI와 All Hands AI의 협업으로 개발됨
  • SWE-Bench Verified 벤치마크에서 기존 오픈소스 모델 대비 6% 이상 높은 46.8% 성능을 달성함
  • 경쟁 모델(Deepseek-V3, Qwen3 등) 및 일부 클로즈드소스 모델(GPT-4.1-mini 등)보다 우수한 성능을 보임
  • RTX 4090 또는 32GB RAM의 Mac에서도 로컬 사용 가능, 엔터프라이즈 환경이나 코파일럿에도 적합함
  • Apache 2.0 라이선스 하에 무료 배포되며, 다양한 플랫폼에서 즉시 사용 및 커스터마이즈 가능함

Devstral 소개

  • Devstral은 코드 작성, 수정, 이슈 해결 등 소프트웨어 엔지니어링 작업을 위한 에이전틱 LLM(Agentic Large Language Model)
  • Mistral AI와 All Hands AI의 파트너십으로 개발됨
  • Devstral은 현실 세계의 GitHub 이슈를 실제로 해결하는 방식으로 훈련되었으며, OpenHands나 SWE-Agent와 같은 코드 에이전트 스캐폴드를 기반으로 동작함

SWE-Bench Verified 벤치마크에서의 Devstral 성능

  • Devstral은 SWE-Bench Verified에서 46.8%의 점수를 기록하며, 오픈소스 최고 성능 모델을 6%포인트 이상 초과
  • 같은 테스트 스캐폴드(OpenHands) 기준에서 Deepseek-V3-0324(671B), Qwen3 232B-A22B 같은 더 큰 모델도 능가하는 결과를 보여줌
  • 커스텀 테스트 환경에서도 Devstral은 여러 클로즈드소스 대체 모델보다 뛰어난 성능을 기록함
    • 예를 들어, 최신 GPT-4.1-mini보다 20% 이상 높은 정확성을 보임

다양성 및 적용성

  • Devstral은 RTX 4090 또는 32GB RAM의 Mac에서도 원활하게 작동 가능하여, 로컬 배포 및 온-디바이스 활용에 유리함
  • OpenHands 같은 플랫폼에서는 로컬 코드베이스와 연동하여 이슈를 빠르게 해결할 수 있음
  • 엔터프라이즈 환경의 프라이버시 보호가 필요한 코드 저장소에도 적합함
  • 코파일럿, 에이전트 IDE 플러그인 등 다양한 개발환경에 적용 가능함

배포 및 사용

  • Devstral은 Apache 2.0 라이선스를 적용받아, 누구나 무료로 활용, 커스터마이즈, 재배포 가능함
  • 모델 사용 방법 안내 및 튜토리얼이 제공되며, HuggingFace, Ollama, Kaggle, Unsloth, LM Studio 등 다양한 플랫폼에서 다운로드 가능함
  • Mistral의 공식 API에서도 devstral-small-2505 명칭으로 제공되며, Mistral Small 3.1과 동일한 사용 요금 정책을 채택함
  • 엔터프라이즈 환경에서 프라이빗 코드베이스에 특화된 파인튜닝 등 고급 커스터마이즈가 필요할 경우 문의 가능함

앞으로의 계획

  • Devstral은 현재 리서치 프리뷰 단계임
  • 향후 더 큰 규모의 에이전틱 코딩 모델도 출시 예정임
  • Devstral 활용 또는 Mistral의 다양한 모델 및 솔루션에 대해 문의를 원하면 공식 연락처를 통해 상담 가능함
Hacker News 의견
  • 요즘 Ollama로 파일 크기부터 확인하는데, 이 모델은 14GB 수준임을 알게 됨 https://ollama.com/library/devstral/tags 참고. M2 Mac에서는 보통 모델 파일 크기에 추가로 10% 정도 더 메모리를 필요로 해서, 어떤 앱들을 병행 실행할 수 있을지 RAM 여유 확인에 도움을 받는 중. 20GB 이하 모델은 다른 프로그램들 사용에도 큰 영향이 없는 편. 이 모델, 꽤 기대되는 상황

    • 현지 모델에 잘 동작하는 agentic 개발 소프트웨어 추천이 필요. Cursor는 사용해 봤지만 생각보다 만족도가 낮았고, 오히려 에디터와 ChatGPT를 번갈아 쓰는 게 더 낫다는 체감. Localforge와 aider도 시도했지만, 현지 모델에서는 약간 느린 편

    • 나도 공감. 직접 이 모델을 로컬에 띄워봤는데 인상 좋았음. 루비나 rspec 관련 tricky한 코드도 잘 처리함을 확인. 컨텍스트가 큰 상황에서도 aider로 테스트해 볼 계획

  • SWE-Bench 점수가 오픈 소스 모델 크기 대비 매우 높은 수준. 46.8%는 o3-mini (Agentless-lite 탑재)나 Claude 3.6 (AutoCodeRover와 함께)보다 높고, Anthropic 독점 scaffold가 붙은 Claude 3.6보다는 약간 낮은 수치. 거의 무료로 돌릴 수 있다는 것까지 고려하면 상당히 놀라운 모델

    • “놀랍다” 혹은 벤치마크가 제 역할을 못 하고 있다는 의심이 드는 부분

    • 혹시 Claude 3.7을 의미하는 이야기인지 확인 필요

  • 24GB RAM 비디오카드가 없는 사용자라면 참고 정보 남김. 난 8GB RAM 환경에서 Ollama로 간단한 작업에 이 모델을 사용 중. 컨텍스트 윈도우가 크고 시간이 민감한 작업은 API 유료 사용을 권장.

    • 총 수행시간, 로딩, 토큰 평가율 등 상세 수치 공유:
      • 예시1: 35초 소요, 초 당 6.27토큰 처리
      • 예시2: 4분 44초 소요, 초 당 5.79토큰 처리
    • API 호출 대비 약 20% 수준으로 느린 체감. 권장 그래픽카드가 없는 조건이라 그렇다고 봄.
    • 벤치마크 성능이 크기에 비해 특이하게 잘 맞춰진 듯한데, 개발과정에서 벤치마크 최적화를 반복 테스트해서일 가능성이 높다고 생각. IT 분야 마케팅되는 대부분의 LLM 역시 마찬가지 전략이라 보는 관점. 결국 ‘테스트 시간 소모 없이 쓸 만함을 검증’하는 것은 나쁘지 않은 절충점
  • 제시된 벤치마크를 믿지 못하겠는 입장. 직접 써보진 않았지만, Mistral 계열 모델들 벤치마크가 내 결과에서는 Llama와 비슷하게 하위권임. 실제 성능이 이만큼 나올 것이라는 기대는 없음

    • All Hands 모델을 최근 다뤘고, 이들도 Mistral 기반으로 추정. 내 인상은 Claude 3.7 Sonnet에 비할 바는 아니지만, 꽤 안정적인 느낌. "AI 페어코딩 어시스턴트" 용도로 충분히 쓸만하며, 큰 구조 작업도 작업 단계를 세분화해서 시키면 가능

    • 나 역시 잘 안 믿는 입장. 이런 건 직접 테스트해야 한다고 봄. 예를 들어, Qwen3는 내 기준에선 오히려 퇴보였고, GLM4가 현재 표준임. 70b cogito 모델도 정말 좋지만 잘 언급되지 않음. 프로젝트/언어나 용도마다 편차가 크다고 생각. 이 모델은 그래도 꼭 써볼 계획

  • Apache 2.0 라이선스라서 좋은 느낌. 복잡한 "오픈 웨이트" 조건 붙은 라이선스가 아닌 명확한 사용 조건. 이런 점이 장점

    • 이 부분이 Mistral의 전략적 강점이라고 봄. 도의적으로 수용되는 작업이라면 Gemma 3 사용을 추천. 그렇지 않은 사용에는 Apache 라이선스 LLM 선택 가능성이 생김
  • EU가 이 에이전트/모델을 만들 비용을 부담하면 좋겠다는 아이디어. 만약 진짜 기대만큼의 성과가 있다면, Mistral이 계속 자기 일에 집중할 수 있고, 우리 유럽 입장에선 현명한 예산 사용 의미

    • 내 세금이 apache/mit 라이선스 모델 개발로 간다면 찬성. 최소한 대체 모델 유지 및 대기업 독점 견제라는 긍정적 목적. 결국 소수의 대형 기업 독주를 막는 데 중요

    • 실제로 EU가 AI 스타트업들이 쓸 수 있는 슈퍼컴퓨터 구축에 비용을 들였고, Mistral도 이 프로그램의 파트너로 참여 중임

  • LLamaIndex 도구 지원 시험하다 우연히 이 모델 확인. 자체 에이전틱 코딩 솔루션에 다양한 모델을 붙여 실험 중인데, 막 ReAct 방식을 적용하려던 차에 이 모델이 등장해서 놀람.

    • 그런데 내 에이전트 시스템이 이 모델에선 "도구 없음"만 반환. 여러 에이전트 프롬프트에 "foo 툴로 bar 작업" 식 명시적 지시도 해봤지만 여전히 해결 못 함. ToolSpec은 어노테이션 등 표준 Pydantic 객체로, 다른 모델들은 알아서 툴 사용을 잘 찾았던 경험

    • 아웃풋을 제한하는 방식으로 툴 스키마 강제 가능. 약간의 도움만 있으면 어느 모델이든 적용 가능

  • Mistral이 다시 진짜 오픈 소스 모델을 내놓게 되어 반가움. 유럽에 경쟁력 있는 AI 기업 필요성 계속 느끼는 중.

    • 최근 Mistral 신모델들이 인상적. Le Chat Pro 유료 결제해 쓰고 있음. 이외에도 Mistral Small도 정말 쓸만함. Mistral 통합으로 스타트업도 개발 중
  • 저사양(예: MacBook Air)에서 동작하는 최신 현지 실행 모델이나 관련 정보 추천 희망. 어떤 모델이 각 기기 사양에서 '실제로 쓸만한지' 테스트 없이 미리 알고 싶음. Ollama로 각 작업마다 2~3개의 모델을 계속 보관해 둘 필요가 있는지도 판단이 필요. Apple Intelligence는 아직 답이 아님

    • 현지 실행에 최적화된 범용 모델로는 Gemma 3나 최신 Mistral Small 추천. Windows에선 VRAM이 속도 병목이지만, M 시리즈 Mac은 온칩 메모리라 빠르게 사용 가능. 실행 가능한 모델 용량은 실제 RAM에서 MacOS 점유 및 기타 어플리케이션에 쓸 공간을 뺀 값에서 결정.

      • 모델별 메모리 산정은 HuggingFace 등에서 제공하는 양자화(저정밀) 모델 크기를 참고. Q4_K_M 정도를 기본값으로 보면 적당.
      • Devstral 기준 14.3GB, 여기서 1~8GB를 추가 컨텍스트 저장용으로 더 필요.
      • 예시:
        • 32GB MacBook Air → Devstral(14.3GB)+4GB, 약 14GB는 시스템/다른 앱 용
        • 16GB MacBook Air → Gemma 3 12B(7.3GB)+2GB, 약 7GB 여유
        • 8GB MacBook → Gemma 3 4B(2.5GB)+1GB, 사실상 실사용은 비추천
    • 직접 시도해서 확인하는 것이 제일 효과적. 각 모델 용량만 확보 가능하면 llama.cpp(https://github.com/ggml-org/llama.cpp) 쉽게 설치 및 빌드 가능, M 시리즈 MacBook Air 지원도 우수. 개인적으로는 LMStudio(https://lmstudio.ai/)를 주로 사용. ChatGPT나 Claude 느낌의 쉬운 인터페이스, 프로그램 내에서 바로 모델 검색/다운로드 가능. LMStudio만으로도 초입자에게 충분, 나는 M2 MacBook Air에서 자주 활용 중

  • 이 모델 성능이 hosted LLM(예: Claude 3.7)과 실제로 어떻게 비교 되는지 궁금한 상황

    • 사실 용도가 완전히 달라 직접 비교는 의미 없음