요즘 Ollama로 파일 크기부터 확인하는데, 이 모델은 14GB 수준임을 알게 됨 https://ollama.com/library/devstral/tags 참고. M2 Mac에서는 보통 모델 파일 크기에 추가로 10% 정도 더 메모리를 필요로 해서, 어떤 앱들을 병행 실행할 수 있을지 RAM 여유 확인에 도움을 받는 중. 20GB 이하 모델은 다른 프로그램들 사용에도 큰 영향이 없는 편. 이 모델, 꽤 기대되는 상황
현지 모델에 잘 동작하는 agentic 개발 소프트웨어 추천이 필요. Cursor는 사용해 봤지만 생각보다 만족도가 낮았고, 오히려 에디터와 ChatGPT를 번갈아 쓰는 게 더 낫다는 체감. Localforge와 aider도 시도했지만, 현지 모델에서는 약간 느린 편
나도 공감. 직접 이 모델을 로컬에 띄워봤는데 인상 좋았음. 루비나 rspec 관련 tricky한 코드도 잘 처리함을 확인. 컨텍스트가 큰 상황에서도 aider로 테스트해 볼 계획
SWE-Bench 점수가 오픈 소스 모델 크기 대비 매우 높은 수준. 46.8%는 o3-mini (Agentless-lite 탑재)나 Claude 3.6 (AutoCodeRover와 함께)보다 높고, Anthropic 독점 scaffold가 붙은 Claude 3.6보다는 약간 낮은 수치. 거의 무료로 돌릴 수 있다는 것까지 고려하면 상당히 놀라운 모델
“놀랍다” 혹은 벤치마크가 제 역할을 못 하고 있다는 의심이 드는 부분
혹시 Claude 3.7을 의미하는 이야기인지 확인 필요
24GB RAM 비디오카드가 없는 사용자라면 참고 정보 남김. 난 8GB RAM 환경에서 Ollama로 간단한 작업에 이 모델을 사용 중. 컨텍스트 윈도우가 크고 시간이 민감한 작업은 API 유료 사용을 권장.
총 수행시간, 로딩, 토큰 평가율 등 상세 수치 공유:
예시1: 35초 소요, 초 당 6.27토큰 처리
예시2: 4분 44초 소요, 초 당 5.79토큰 처리
API 호출 대비 약 20% 수준으로 느린 체감. 권장 그래픽카드가 없는 조건이라 그렇다고 봄.
벤치마크 성능이 크기에 비해 특이하게 잘 맞춰진 듯한데, 개발과정에서 벤치마크 최적화를 반복 테스트해서일 가능성이 높다고 생각. IT 분야 마케팅되는 대부분의 LLM 역시 마찬가지 전략이라 보는 관점. 결국 ‘테스트 시간 소모 없이 쓸 만함을 검증’하는 것은 나쁘지 않은 절충점
제시된 벤치마크를 믿지 못하겠는 입장. 직접 써보진 않았지만, Mistral 계열 모델들 벤치마크가 내 결과에서는 Llama와 비슷하게 하위권임. 실제 성능이 이만큼 나올 것이라는 기대는 없음
All Hands 모델을 최근 다뤘고, 이들도 Mistral 기반으로 추정. 내 인상은 Claude 3.7 Sonnet에 비할 바는 아니지만, 꽤 안정적인 느낌. "AI 페어코딩 어시스턴트" 용도로 충분히 쓸만하며, 큰 구조 작업도 작업 단계를 세분화해서 시키면 가능
나 역시 잘 안 믿는 입장. 이런 건 직접 테스트해야 한다고 봄. 예를 들어, Qwen3는 내 기준에선 오히려 퇴보였고, GLM4가 현재 표준임. 70b cogito 모델도 정말 좋지만 잘 언급되지 않음. 프로젝트/언어나 용도마다 편차가 크다고 생각. 이 모델은 그래도 꼭 써볼 계획
Apache 2.0 라이선스라서 좋은 느낌. 복잡한 "오픈 웨이트" 조건 붙은 라이선스가 아닌 명확한 사용 조건. 이런 점이 장점
이 부분이 Mistral의 전략적 강점이라고 봄. 도의적으로 수용되는 작업이라면 Gemma 3 사용을 추천. 그렇지 않은 사용에는 Apache 라이선스 LLM 선택 가능성이 생김
EU가 이 에이전트/모델을 만들 비용을 부담하면 좋겠다는 아이디어. 만약 진짜 기대만큼의 성과가 있다면, Mistral이 계속 자기 일에 집중할 수 있고, 우리 유럽 입장에선 현명한 예산 사용 의미
내 세금이 apache/mit 라이선스 모델 개발로 간다면 찬성. 최소한 대체 모델 유지 및 대기업 독점 견제라는 긍정적 목적. 결국 소수의 대형 기업 독주를 막는 데 중요
실제로 EU가 AI 스타트업들이 쓸 수 있는 슈퍼컴퓨터 구축에 비용을 들였고, Mistral도 이 프로그램의 파트너로 참여 중임
LLamaIndex 도구 지원 시험하다 우연히 이 모델 확인. 자체 에이전틱 코딩 솔루션에 다양한 모델을 붙여 실험 중인데, 막 ReAct 방식을 적용하려던 차에 이 모델이 등장해서 놀람.
그런데 내 에이전트 시스템이 이 모델에선 "도구 없음"만 반환. 여러 에이전트 프롬프트에 "foo 툴로 bar 작업" 식 명시적 지시도 해봤지만 여전히 해결 못 함. ToolSpec은 어노테이션 등 표준 Pydantic 객체로, 다른 모델들은 알아서 툴 사용을 잘 찾았던 경험
아웃풋을 제한하는 방식으로 툴 스키마 강제 가능. 약간의 도움만 있으면 어느 모델이든 적용 가능
Mistral이 다시 진짜 오픈 소스 모델을 내놓게 되어 반가움. 유럽에 경쟁력 있는 AI 기업 필요성 계속 느끼는 중.
최근 Mistral 신모델들이 인상적. Le Chat Pro 유료 결제해 쓰고 있음. 이외에도 Mistral Small도 정말 쓸만함. Mistral 통합으로 스타트업도 개발 중
저사양(예: MacBook Air)에서 동작하는 최신 현지 실행 모델이나 관련 정보 추천 희망. 어떤 모델이 각 기기 사양에서 '실제로 쓸만한지' 테스트 없이 미리 알고 싶음. Ollama로 각 작업마다 2~3개의 모델을 계속 보관해 둘 필요가 있는지도 판단이 필요. Apple Intelligence는 아직 답이 아님
현지 실행에 최적화된 범용 모델로는 Gemma 3나 최신 Mistral Small 추천. Windows에선 VRAM이 속도 병목이지만, M 시리즈 Mac은 온칩 메모리라 빠르게 사용 가능. 실행 가능한 모델 용량은 실제 RAM에서 MacOS 점유 및 기타 어플리케이션에 쓸 공간을 뺀 값에서 결정.
모델별 메모리 산정은 HuggingFace 등에서 제공하는 양자화(저정밀) 모델 크기를 참고. Q4_K_M 정도를 기본값으로 보면 적당.
Devstral 기준 14.3GB, 여기서 1~8GB를 추가 컨텍스트 저장용으로 더 필요.
예시:
32GB MacBook Air → Devstral(14.3GB)+4GB, 약 14GB는 시스템/다른 앱 용
16GB MacBook Air → Gemma 3 12B(7.3GB)+2GB, 약 7GB 여유
8GB MacBook → Gemma 3 4B(2.5GB)+1GB, 사실상 실사용은 비추천
직접 시도해서 확인하는 것이 제일 효과적. 각 모델 용량만 확보 가능하면 llama.cpp(https://github.com/ggml-org/llama.cpp) 쉽게 설치 및 빌드 가능, M 시리즈 MacBook Air 지원도 우수. 개인적으로는 LMStudio(https://lmstudio.ai/)를 주로 사용. ChatGPT나 Claude 느낌의 쉬운 인터페이스, 프로그램 내에서 바로 모델 검색/다운로드 가능. LMStudio만으로도 초입자에게 충분, 나는 M2 MacBook Air에서 자주 활용 중
이 모델 성능이 hosted LLM(예: Claude 3.7)과 실제로 어떻게 비교 되는지 궁금한 상황
Hacker News 의견
요즘 Ollama로 파일 크기부터 확인하는데, 이 모델은 14GB 수준임을 알게 됨 https://ollama.com/library/devstral/tags 참고. M2 Mac에서는 보통 모델 파일 크기에 추가로 10% 정도 더 메모리를 필요로 해서, 어떤 앱들을 병행 실행할 수 있을지 RAM 여유 확인에 도움을 받는 중. 20GB 이하 모델은 다른 프로그램들 사용에도 큰 영향이 없는 편. 이 모델, 꽤 기대되는 상황
현지 모델에 잘 동작하는 agentic 개발 소프트웨어 추천이 필요. Cursor는 사용해 봤지만 생각보다 만족도가 낮았고, 오히려 에디터와 ChatGPT를 번갈아 쓰는 게 더 낫다는 체감. Localforge와 aider도 시도했지만, 현지 모델에서는 약간 느린 편
나도 공감. 직접 이 모델을 로컬에 띄워봤는데 인상 좋았음. 루비나 rspec 관련 tricky한 코드도 잘 처리함을 확인. 컨텍스트가 큰 상황에서도 aider로 테스트해 볼 계획
SWE-Bench 점수가 오픈 소스 모델 크기 대비 매우 높은 수준. 46.8%는 o3-mini (Agentless-lite 탑재)나 Claude 3.6 (AutoCodeRover와 함께)보다 높고, Anthropic 독점 scaffold가 붙은 Claude 3.6보다는 약간 낮은 수치. 거의 무료로 돌릴 수 있다는 것까지 고려하면 상당히 놀라운 모델
“놀랍다” 혹은 벤치마크가 제 역할을 못 하고 있다는 의심이 드는 부분
혹시 Claude 3.7을 의미하는 이야기인지 확인 필요
24GB RAM 비디오카드가 없는 사용자라면 참고 정보 남김. 난 8GB RAM 환경에서 Ollama로 간단한 작업에 이 모델을 사용 중. 컨텍스트 윈도우가 크고 시간이 민감한 작업은 API 유료 사용을 권장.
제시된 벤치마크를 믿지 못하겠는 입장. 직접 써보진 않았지만, Mistral 계열 모델들 벤치마크가 내 결과에서는 Llama와 비슷하게 하위권임. 실제 성능이 이만큼 나올 것이라는 기대는 없음
All Hands 모델을 최근 다뤘고, 이들도 Mistral 기반으로 추정. 내 인상은 Claude 3.7 Sonnet에 비할 바는 아니지만, 꽤 안정적인 느낌. "AI 페어코딩 어시스턴트" 용도로 충분히 쓸만하며, 큰 구조 작업도 작업 단계를 세분화해서 시키면 가능
나 역시 잘 안 믿는 입장. 이런 건 직접 테스트해야 한다고 봄. 예를 들어, Qwen3는 내 기준에선 오히려 퇴보였고, GLM4가 현재 표준임. 70b cogito 모델도 정말 좋지만 잘 언급되지 않음. 프로젝트/언어나 용도마다 편차가 크다고 생각. 이 모델은 그래도 꼭 써볼 계획
Apache 2.0 라이선스라서 좋은 느낌. 복잡한 "오픈 웨이트" 조건 붙은 라이선스가 아닌 명확한 사용 조건. 이런 점이 장점
EU가 이 에이전트/모델을 만들 비용을 부담하면 좋겠다는 아이디어. 만약 진짜 기대만큼의 성과가 있다면, Mistral이 계속 자기 일에 집중할 수 있고, 우리 유럽 입장에선 현명한 예산 사용 의미
내 세금이 apache/mit 라이선스 모델 개발로 간다면 찬성. 최소한 대체 모델 유지 및 대기업 독점 견제라는 긍정적 목적. 결국 소수의 대형 기업 독주를 막는 데 중요
실제로 EU가 AI 스타트업들이 쓸 수 있는 슈퍼컴퓨터 구축에 비용을 들였고, Mistral도 이 프로그램의 파트너로 참여 중임
LLamaIndex 도구 지원 시험하다 우연히 이 모델 확인. 자체 에이전틱 코딩 솔루션에 다양한 모델을 붙여 실험 중인데, 막 ReAct 방식을 적용하려던 차에 이 모델이 등장해서 놀람.
그런데 내 에이전트 시스템이 이 모델에선 "도구 없음"만 반환. 여러 에이전트 프롬프트에 "foo 툴로 bar 작업" 식 명시적 지시도 해봤지만 여전히 해결 못 함. ToolSpec은 어노테이션 등 표준 Pydantic 객체로, 다른 모델들은 알아서 툴 사용을 잘 찾았던 경험
아웃풋을 제한하는 방식으로 툴 스키마 강제 가능. 약간의 도움만 있으면 어느 모델이든 적용 가능
Mistral이 다시 진짜 오픈 소스 모델을 내놓게 되어 반가움. 유럽에 경쟁력 있는 AI 기업 필요성 계속 느끼는 중.
저사양(예: MacBook Air)에서 동작하는 최신 현지 실행 모델이나 관련 정보 추천 희망. 어떤 모델이 각 기기 사양에서 '실제로 쓸만한지' 테스트 없이 미리 알고 싶음. Ollama로 각 작업마다 2~3개의 모델을 계속 보관해 둘 필요가 있는지도 판단이 필요. Apple Intelligence는 아직 답이 아님
현지 실행에 최적화된 범용 모델로는 Gemma 3나 최신 Mistral Small 추천. Windows에선 VRAM이 속도 병목이지만, M 시리즈 Mac은 온칩 메모리라 빠르게 사용 가능. 실행 가능한 모델 용량은 실제 RAM에서 MacOS 점유 및 기타 어플리케이션에 쓸 공간을 뺀 값에서 결정.
직접 시도해서 확인하는 것이 제일 효과적. 각 모델 용량만 확보 가능하면 llama.cpp(https://github.com/ggml-org/llama.cpp) 쉽게 설치 및 빌드 가능, M 시리즈 MacBook Air 지원도 우수. 개인적으로는 LMStudio(https://lmstudio.ai/)를 주로 사용. ChatGPT나 Claude 느낌의 쉬운 인터페이스, 프로그램 내에서 바로 모델 검색/다운로드 가능. LMStudio만으로도 초입자에게 충분, 나는 M2 MacBook Air에서 자주 활용 중
이 모델 성능이 hosted LLM(예: Claude 3.7)과 실제로 어떻게 비교 되는지 궁금한 상황