9P by neo 15일전 | favorite | 댓글 6개
  • "더 저렴하고, 더 좋으며, 더 빠르고, 더 강력한"
  • 총 141B 파라미터 중 39B의 활성 파라미터만 사용하는 Sparse Mixture-of-Experts(SMoE) 모델로, 모델 크기 대비 비용 효율성이 매우 뛰어남

Mixtral 8x22B의 주요 특징

  • 영어, 프랑스어, 이탈리아어, 독일어, 스페인어에 유창함
  • 수학과 코딩 능력이 우수함
  • 함수 호출이 기본적으로 가능하며, la Plateforme에 구현된 제한된 출력 모드와 함께 대규모 애플리케이션 개발과 기술 스택 현대화가 가능함
  • 64K 토큰 컨텍스트 윈도우를 통해 대량의 문서에서 정확한 정보 리콜이 가능함

진정한 오픈 모델

  • Mistral AI는 AI에서의 혁신과 협업을 촉진하기 위해 개방성과 광범위한 배포의 힘을 믿음
  • Mixtral 8x22B는 가장 허용적인 오픈 소스 라이선스인 Apache 2.0으로 배포되어, 누구나 제한 없이 모델을 사용할 수 있음

최고의 효율성

  • Mistral AI는 각 모델 크기에 대해 비용 대비 최고의 성능을 제공하는 모델을 구축하여, 커뮤니티에서 제공하는 모델 중 최고의 성능 대비 비용 비율을 제공함
  • Mixtral 8x22B는 Mistral AI 오픈 모델 제품군의 자연스러운 연장선상에 있음. Sparse 활성화 패턴 덕분에 Dense 70B 모델보다 빠르면서도 허용적이거나 제한적인 라이선스로 배포되는 다른 오픈 웨이트 모델보다 더 많은 기능을 제공함. 기본 모델의 가용성으로 인해 파인튜닝 사용 사례에 매우 적합한 기반이 됨

견줄 데 없는 오픈 성능

추론 및 지식

  • Mixtral 8x22B는 추론에 최적화되어 있음
  • 상식, 추론, 지식 벤치마크(MMLU, HellaSwag, Wino Grande, Arc Challenge, TriviaQA, NaturalQS)에서 최고 수준의 LLM 오픈 모델 중 최고 성능을 보임

다국어 기능

  • Mixtral 8x22B는 기본적인 다국어 기능을 갖추고 있음
  • 프랑스어, 독일어, 스페인어, 이탈리아어로 된 HellaSwag, Arc Challenge, MMLU 벤치마크에서 LLaMA 2 70B를 크게 능가함

수학 및 코딩

  • Mixtral 8x22B는 다른 오픈 모델에 비해 코딩 및 수학 작업에서 가장 우수한 성능을 보임
  • 코딩 및 수학 벤치마크(HumanEval pass@1, MBPP pass@1, GSM8K maj@1/8, Math maj@4)에서 선두적인 오픈 모델 중 최고 성능을 보임
  • 오늘 발표된 Mixtral 8x22B의 Instructed 버전은 수학 성능이 더욱 우수하여 GSM8K maj@8에서 90.8%, Math maj@4에서 44.6%의 점수를 기록

GN⁺의 의견

  • Mixtral 8x22B는 Mistral의 오픈 모델 중 가장 큰 규모이면서도 Sparsity를 활용해 비용 대비 매우 효율적인 모델임. 이는 오픈 소스 LLM 모델의 발전 방향 중 하나로 주목할 만함
  • 모델 크기 대비 뛰어난 다국어 성능, 수학/코딩 능력은 Mixtral 8x22B만의 차별화 포인트로 보임. 하지만 영어 외 언어의 경우 지원 언어의 폭이 좁은 편이며, GPT-4 등 최신 LLM과 비교하면 코딩이나 수학 능력도 뒤쳐지는 수준임
  • Apache 2.0 라이선스 적용으로 누구나 자유롭게 활용 가능한 점은 장점이나, 악용 가능성도 높아 보임. 오픈소스 AI 모델의 책임있는 개발과 활용을 위한 커뮤니티의 노력이 더욱 필요해 보임
  • Mixtral 모델을 활용한 애플리케이션 개발과 기술 스택 현대화가 가능하다는 점은 매력적이나, 대규모 서비스에 적용하기에는 아직 기술적/비용적 한계가 있어 보임. 다만 오픈소스 기반의 혁신 사례들이 늘어날 것으로 기대됨
  • 국내에서는 KakaoBrain, NAVER, LG AI Research 등도 자체 LLM을 개발 중임. 한국어 처리 성능 등 한국 시장 특화 측면에서는 이들 모델이 경쟁력을 가질 것으로 보임

Azure AI Studio에 벌써 사용할 수 있게 등록돼있네요. (mistralai-Mixtral-8x7B-v01, mistral-community-Mixtral-8x22B-v0-1)

Polyglot는 카카오브레인이 아니라 튜닙 ai와 EleutherAI가 만들었습니다. 환각 증세가 있네요 ㅠ

아 그렇네요. 수정해 두었습니다. 감사합니다

Claude Opus 한테 의견을 내라고 하면, 가끔 이렇게 국내 얘기를 넣네요. 흥미롭습니다 ㅎ

Hacker News 의견

요약:

  • 세금 관련 질문을 ChatGPT에 넣어봤더니 에세이 작성 서비스 광고가 나옴
  • "Mixture-of-Experts" 개념에 대한 쉬운 설명 요청
    • 하위 전문가가 있다는 개념은 이해하지만, 훈련 중 각 전문 분야를 어떻게 결정하는지 궁금함
  • 64K 토큰 컨텍스트 윈도우 크기에 대한 아쉬움
    • GPT-4 Turbo의 128K와 맞추지 못한 것이 향후 농담거리가 될 수도 있음
    • 미래에는 1조 토큰 수준까지 늘어날 것으로 예상
  • MacBook Pro에서 LLM을 실행하는 최선의 방법 문의
    • LMStudio는 인터페이스가 마음에 들지 않고, Ollama는 CLI 사용이 불편함
    • OpenAI처럼 설정을 세밀하게 조정하고, 프롬프트 편집이 쉬운 솔루션 선호
  • 개방형 모델의 한계
    • 학습 데이터에 접근할 수 없으면 모델을 복제할 수 없음
  • Mistral 시리즈와 성능 비교 결과
  • AI 스타트업 운영의 장점
    • 새로운 대규모 모델이 출시될 때마다 제품이 자동으로 개선됨
  • "non-instructed" 버전의 LLM이 "instructed" 버전의 가이드 없는 버전인지 질문
  • LLM으로 인해 RAM의 중요성이 다시 부각됨
    • MacBook Pro에 추가로 32GB RAM을 장착하지 않은 것을 후회함
  • 양자화된 모델에 대한 기대
    • 64GB MacBook Pro에서 실행 가능한 3비트 모델 희망