GN⁺ 2025-01-31 | parent | ★ favorite | on: Mistral Small 3 공개(mistral.ai)
Hacker News 의견
  • Mistral Small 모델은 적당한 성능의 노트북에서 실행할 수 있는 최적의 모델을 목표로 하고 있으며, Llama 3.3 70B 및 Qwen 2.5 32B와 비교되고 있음

    • M2 64GB MacBook Pro에서 Ollama를 통해 실행 중이며, 빠르고 성능이 뛰어남
    • 모델 가중치 14GB 다운로드 필요
  • Epoch AI의 Tom은 LLM 평가를 체계적이고 대규모로 수행할 인프라를 구축 중임

    • 영국 정부의 Inspect 라이브러리를 사용하여 평가를 수행함
    • Mistral Small 3을 MATH 레벨 5에서 평가하여 정확도 0.45를 얻음
    • 1,324개의 질문에 대해 8번씩 샘플링하여 평균 정확도를 측정함
  • Apache 2.0 라이선스로 전환하여 비상업적 라이선스에서 벗어나고 있음

  • 코드 생성 프롬프트를 사용해 본 결과, qwen2.5-coder-32b와 비슷한 성능을 보임

    • 작은 모델들이 더 정교한 출력을 내는 것이 인상적임
    • 8x7B mixtral 모델의 새로운 버전을 기대함
  • 이번 릴리스의 주요 포인트는 다음과 같음

    • Apache 2.0 라이선스 적용
    • 낮은 지연 시간 (11ms/토큰)
    • 성능은 Qwen 2.5 32B와 Llama 3.3 70B 사이
    • Mistral Small 모델은 9토큰/초의 속도로 실행됨
  • 최근 MoE 모델 릴리스로 인해 24GB VRAM이 부족하게 느껴짐

    • Mistral Small 3은 RL이나 합성 데이터를 사용하지 않음
  • Mistral Small 모델이 Mary J Blige의 첫 앨범 질문에 정확히 답변함

  • 작은 모델을 사용하는 이유에 대한 궁금증이 있음

  • 모델 이름에 매개변수 수를 포함했으면 좋겠다는 의견이 있음