# Mistral Small 3 공개

> Clean Markdown view of GeekNews topic #18989. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=18989](https://news.hada.io/topic?id=18989)
- GeekNews Markdown: [https://news.hada.io/topic/18989.md](https://news.hada.io/topic/18989.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-01-31T09:43:17+09:00
- Updated: 2025-01-31T09:43:17+09:00
- Original source: [mistral.ai](https://mistral.ai/news/mistral-small-3/)
- Points: 5
- Comments: 1

## Summary

Mistral AI 팀은 24B-파라미터 모델인 Mistral Small 3를 Apache 2.0 라이선스로 출시하였으며, 이 모델은 Llama 3.3 70B와 같은 더 큰 모델과 경쟁할 수 있습니다. Mistral Small 3는 로컬 배포에 적합하고, 빠른 응답과 저지연 함수 호출 등 다양한 사용 사례에 활용될 수 있습니다. 또한, 이 모델은 다양한 플랫폼에서 제공되며, 향후 더 작은 모델과 큰 모델의 출시가 예정되어 있습니다.

## Topic Body

- Mistral AI 팀은 Mistral Small 3라는 24B-파라미터 모델을 Apache 2.0 라이선스로 출시함.  
- 이 모델은 Llama 3.3 70B나 Qwen 32B와 같은 더 큰 모델과 경쟁할 수 있으며, GPT4o-mini와 같은 독점 모델의 대체품으로 적합함.  
- Mistral Small 3는 로컬 배포에 적합한 크기로 설계되어, 레이어 수가 적어 처리 시간이 단축됨.  
- MMLU에서 81% 이상의 정확도를 보이며, 150 tokens/s의 지연 시간을 가짐.  
  
### 성능  
  
#### 인간 평가  
  
- 외부 평가 업체와 함께 1,000개 이상의 코딩 및 일반 프롬프트 세트를 평가함.  
- Mistral Small 3와 다른 모델의 응답을 비교하여 선호도를 조사함.  
- 공정한 평가를 위해 신중을 기했으며, 벤치마크의 유효성을 확신함.  
  
#### 명령 성능  
  
- 명령 조정 모델은 크기가 세 배 큰 공개 모델 및 GPT4o-mini 모델과 경쟁력 있는 성능을 보임.  
- 코드, 수학, 일반 지식 및 명령 수행 벤치마크에서 높은 정확도를 기록함.  
  
#### 사전 학습 성능  
  
- Mistral Small 3는 24B 모델로, 크기 대비 최고의 성능을 제공하며 Llama 3.3 70B와 같은 세 배 큰 모델과 경쟁함.  
  
### Mistral Small 3의 사용 사례  
  
- **빠른 응답 대화형 지원**: 빠르고 정확한 응답이 중요한 시나리오에서 뛰어난 성능을 발휘함.  
- **저지연 함수 호출**: 자동화된 워크플로우에서 빠른 함수 실행을 처리할 수 있음.  
- **전문 분야 전문가 생성**: 특정 도메인에 맞게 세부 조정하여 높은 정확도의 전문가를 생성할 수 있음.  
- **로컬 추론**: 민감한 정보를 처리하는 개인이나 조직에 유용함.  
  
#### 선호하는 기술 스택에서 Mistral Small 3 사용  
  
- Mistral Small 3는 `mistral-small-latest` 또는 `mistral-small-2501`으로 la Plateforme에서 사용 가능함.  
- Hugging Face, Ollama, Kaggle, Together AI, Fireworks AI와 협력하여 모델을 다양한 플랫폼에서 제공함.  
  
### 앞으로의 계획  
  
- Mistral Small 3는 DeepSeek과 같은 대규모 오픈소스 추론 모델을 보완하며, 추론 능력을 강화할 수 있는 강력한 기반 모델로 활용 가능함.  
- 향후 더 작은 모델과 큰 모델이 출시될 예정임.  
  
### Mistral의 오픈소스 모델  
  
- Apache 2.0 라이선스를 사용하여 일반 목적 모델을 제공할 계획임.  
- 모델 가중치는 다운로드 및 로컬 배포가 가능하며, 자유롭게 수정 및 사용할 수 있음.  
- 서버리스 API, 온프레미스 및 VPC 배포, 맞춤화 및 오케스트레이션 플랫폼을 통해 제공될 예정임.

## Comments


### Comment 33974

- Author: neo
- Created: 2025-01-31T09:43:17+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=42877860) 
- Mistral Small 모델은 적당한 성능의 노트북에서 실행할 수 있는 최적의 모델을 목표로 하고 있으며, Llama 3.3 70B 및 Qwen 2.5 32B와 비교되고 있음
  - M2 64GB MacBook Pro에서 Ollama를 통해 실행 중이며, 빠르고 성능이 뛰어남
  - 모델 가중치 14GB 다운로드 필요

- Epoch AI의 Tom은 LLM 평가를 체계적이고 대규모로 수행할 인프라를 구축 중임
  - 영국 정부의 Inspect 라이브러리를 사용하여 평가를 수행함
  - Mistral Small 3을 MATH 레벨 5에서 평가하여 정확도 0.45를 얻음
  - 1,324개의 질문에 대해 8번씩 샘플링하여 평균 정확도를 측정함

- Apache 2.0 라이선스로 전환하여 비상업적 라이선스에서 벗어나고 있음

- 코드 생성 프롬프트를 사용해 본 결과, qwen2.5-coder-32b와 비슷한 성능을 보임
  - 작은 모델들이 더 정교한 출력을 내는 것이 인상적임
  - 8x7B mixtral 모델의 새로운 버전을 기대함

- 이번 릴리스의 주요 포인트는 다음과 같음
  - Apache 2.0 라이선스 적용
  - 낮은 지연 시간 (11ms/토큰)
  - 성능은 Qwen 2.5 32B와 Llama 3.3 70B 사이
  - Mistral Small 모델은 9토큰/초의 속도로 실행됨

- 최근 MoE 모델 릴리스로 인해 24GB VRAM이 부족하게 느껴짐
  - Mistral Small 3은 RL이나 합성 데이터를 사용하지 않음

- Mistral Small 모델이 Mary J Blige의 첫 앨범 질문에 정확히 답변함

- 작은 모델을 사용하는 이유에 대한 궁금증이 있음

- 모델 이름에 매개변수 수를 포함했으면 좋겠다는 의견이 있음