5P by neo 21일전 | ★ favorite | 댓글 1개
  • Mistral AI 팀은 Mistral Small 3라는 24B-파라미터 모델을 Apache 2.0 라이선스로 출시함.
  • 이 모델은 Llama 3.3 70B나 Qwen 32B와 같은 더 큰 모델과 경쟁할 수 있으며, GPT4o-mini와 같은 독점 모델의 대체품으로 적합함.
  • Mistral Small 3는 로컬 배포에 적합한 크기로 설계되어, 레이어 수가 적어 처리 시간이 단축됨.
  • MMLU에서 81% 이상의 정확도를 보이며, 150 tokens/s의 지연 시간을 가짐.

성능

인간 평가

  • 외부 평가 업체와 함께 1,000개 이상의 코딩 및 일반 프롬프트 세트를 평가함.
  • Mistral Small 3와 다른 모델의 응답을 비교하여 선호도를 조사함.
  • 공정한 평가를 위해 신중을 기했으며, 벤치마크의 유효성을 확신함.

명령 성능

  • 명령 조정 모델은 크기가 세 배 큰 공개 모델 및 GPT4o-mini 모델과 경쟁력 있는 성능을 보임.
  • 코드, 수학, 일반 지식 및 명령 수행 벤치마크에서 높은 정확도를 기록함.

사전 학습 성능

  • Mistral Small 3는 24B 모델로, 크기 대비 최고의 성능을 제공하며 Llama 3.3 70B와 같은 세 배 큰 모델과 경쟁함.

Mistral Small 3의 사용 사례

  • 빠른 응답 대화형 지원: 빠르고 정확한 응답이 중요한 시나리오에서 뛰어난 성능을 발휘함.
  • 저지연 함수 호출: 자동화된 워크플로우에서 빠른 함수 실행을 처리할 수 있음.
  • 전문 분야 전문가 생성: 특정 도메인에 맞게 세부 조정하여 높은 정확도의 전문가를 생성할 수 있음.
  • 로컬 추론: 민감한 정보를 처리하는 개인이나 조직에 유용함.

선호하는 기술 스택에서 Mistral Small 3 사용

  • Mistral Small 3는 mistral-small-latest 또는 mistral-small-2501으로 la Plateforme에서 사용 가능함.
  • Hugging Face, Ollama, Kaggle, Together AI, Fireworks AI와 협력하여 모델을 다양한 플랫폼에서 제공함.

앞으로의 계획

  • Mistral Small 3는 DeepSeek과 같은 대규모 오픈소스 추론 모델을 보완하며, 추론 능력을 강화할 수 있는 강력한 기반 모델로 활용 가능함.
  • 향후 더 작은 모델과 큰 모델이 출시될 예정임.

Mistral의 오픈소스 모델

  • Apache 2.0 라이선스를 사용하여 일반 목적 모델을 제공할 계획임.
  • 모델 가중치는 다운로드 및 로컬 배포가 가능하며, 자유롭게 수정 및 사용할 수 있음.
  • 서버리스 API, 온프레미스 및 VPC 배포, 맞춤화 및 오케스트레이션 플랫폼을 통해 제공될 예정임.
Hacker News 의견
  • Mistral Small 모델은 적당한 성능의 노트북에서 실행할 수 있는 최적의 모델을 목표로 하고 있으며, Llama 3.3 70B 및 Qwen 2.5 32B와 비교되고 있음

    • M2 64GB MacBook Pro에서 Ollama를 통해 실행 중이며, 빠르고 성능이 뛰어남
    • 모델 가중치 14GB 다운로드 필요
  • Epoch AI의 Tom은 LLM 평가를 체계적이고 대규모로 수행할 인프라를 구축 중임

    • 영국 정부의 Inspect 라이브러리를 사용하여 평가를 수행함
    • Mistral Small 3을 MATH 레벨 5에서 평가하여 정확도 0.45를 얻음
    • 1,324개의 질문에 대해 8번씩 샘플링하여 평균 정확도를 측정함
  • Apache 2.0 라이선스로 전환하여 비상업적 라이선스에서 벗어나고 있음

  • 코드 생성 프롬프트를 사용해 본 결과, qwen2.5-coder-32b와 비슷한 성능을 보임

    • 작은 모델들이 더 정교한 출력을 내는 것이 인상적임
    • 8x7B mixtral 모델의 새로운 버전을 기대함
  • 이번 릴리스의 주요 포인트는 다음과 같음

    • Apache 2.0 라이선스 적용
    • 낮은 지연 시간 (11ms/토큰)
    • 성능은 Qwen 2.5 32B와 Llama 3.3 70B 사이
    • Mistral Small 모델은 9토큰/초의 속도로 실행됨
  • 최근 MoE 모델 릴리스로 인해 24GB VRAM이 부족하게 느껴짐

    • Mistral Small 3은 RL이나 합성 데이터를 사용하지 않음
  • Mistral Small 모델이 Mary J Blige의 첫 앨범 질문에 정확히 답변함

  • 작은 모델을 사용하는 이유에 대한 궁금증이 있음

  • 모델 이름에 매개변수 수를 포함했으면 좋겠다는 의견이 있음