12P by neo 11달전 | favorite | 댓글 2개
  • "High-quality Sparse Mixture of Experts Model (SMoE, 고품질 희소 전문가 모델)"
  • Llama 2 70B를 대부분 벤치마크에서 능가하며, 6배 빠른 추론
  • 대부분의 표준 벤치마크에서 GPT 3.5와 비슷하거나 더 나은 성능을 보임
  • 허용 라이센스가 있는 가장 강력한 오픈 웨이트 모델이며, 비용/성능 면에서 가장 우수한 모델
  • 32k 토큰 컨텍스트 지원
  • 영어/프랑스어/이탈리아어/독일어/스페인어 처리
  • 코드 생성에서 강력한 성능을 보임
  • MT-Bench 에서 8.3점을 획득한 Instruction-Following 모델로 미세 조정 가능
  • MMLU 70.6% (Llama 2 70B 69.9%, GPT 3.5 70.0%)

희소 아키텍처를 활용한 오픈 모델의 경계 확장

  • Mixtral은 희소 전문가 네트워크로, 디코더 전용 모델임
  • 피드포워드 블록이 8개의 서로 다른 파라미터 그룹 중에서 선택하여, 각 레이어마다 토큰마다 라우터 네트워크가 두 개의 전문가 그룹을 선택하고 그 출력을 결합함
  • 이 기술은 모델의 파라미터 수를 증가시키면서 비용과 지연 시간을 제어할 수 있게 해주며, Mixtral은 총 46.7B의 파라미터를 가지지만 토큰 당 12.9B의 파라미터만 사용함

성능

  • Mixtral은 Llama 2 모델과 GPT3.5 기본 모델과 비교하여 대부분의 벤치마크에서 동등하거나 더 나은 성능을 보임.
  • Mixtral은 Llama 2 70B 모델과 비교하여 더 진실된 답변을 제공하고(TruthfulQA 벤치마크에서 73.9% 대 50.2%), BBQ 벤치마크에서 더 적은 편향을 보임.
  • Mixtral은 프랑스어, 독일어, 스페인어, 이탈리아어, 영어를 능숙하게 다룸.

지시에 따른 모델

  • Mixtral 8x7B Instruct는 지시에 따른 성능을 최적화하기 위해 감독된 미세 조정과 직접적인 선호도 최적화(DPO)를 거침.
  • MT-Bench에서 8.30의 점수를 달성하여 GPT3.5와 비슷한 성능을 가진 최고의 오픈 소스 모델이 됨.

Mixtral의 오픈 소스 배포 스택으로 배포

  • 커뮤니티가 완전한 오픈 소스 스택으로 Mixtral을 실행할 수 있도록 vLLM 프로젝트에 변경 사항을 제출함.
  • 현재 Mistral AI는 Mixtral 8x7B를 mistral-small 엔드포인트 뒤에서 사용하고 있으며, 베타 버전으로 이용 가능
  • 모든 생성 및 임베딩 엔드포인트에 대한 얼리억세스를 위해 등록 가능함

아랫 댓글에서도 언급되어있지만, 처음에 8x7B를 보고 그럼 파라미터 총 갯수가 56B인가? 싶었네요.

Hacker News 의견
  • Andrej Karpathy의 의견:

    • Mixtral 8x7B에 대한 공식 포스트와 vLLM의 추론 코드 공개
    • HuggingFace의 MoE(Mixture of Experts) 설명이 유익함
    • 70B 모델의 성능을 12.9B 밀도 모델의 추론 속도로 달성
    • "open weights"라는 용어 사용에 긍정적인 반응
    • "8x7B"라는 이름이 오해의 소지가 있음을 지적
    • 각 토큰과 레이어가 8개 중 2개의 전문가를 선택하는 방식에 대한 혼란 언급
    • Mistral-medium 모델에 대한 소개
  • Huggingface에서의 모델 이용 가능성:

    • Mistralai와 TheBloke에서 Mixtral 모델 사용 가능
  • 소프트웨어 엔지니어를 위한 설명 요청:

    • 전문가의 혼합이 어떻게 작동하는지에 대한 이해가 필요함
  • Mixtral 8x7B의 크기에 대한 반응:

    • 45억 파라미터를 "small" 모델로 간주하는 것에 대한 흥미 표현
  • AI의 미래에 대한 전망:

    • MoE가 AI의 미래가 될 것이라는 긍정적인 전망
  • MoE의 작동 원리와 장단점에 대한 질문:

    • MoE가 기존 모델에 비해 어떤 이점이 있는지에 대한 설명 필요
  • 모델 파라미터에 대한 혼란:

    • "8x7B"라는 이름과 실제 파라미터 수, 토큰 생성 시 사용되는 파라미터에 대한 혼란 표현
  • Mistral의 접근 방식에 대한 설명:

    • Mistral이 모델을 검열하지 않고 자유로운 접근을 추구한다고 CEO가 언급
  • Mixtral 8x7B의 언어 능력:

    • 프랑스어, 독일어, 스페인어, 이탈리아어, 영어를 능숙하게 다룸
  • 모델과 가중치에 대한 정보 요청:

    • 모델과 가중치에 대한 링크 요청
  • 시장 경쟁력에 대한 질문:

    • GPT 3.5를 앞서는 모델을 가지고 있지만, OpenAI/Google과의 경쟁에서 어떤 기회가 있는지에 대한 의문과 미래 전망에 대한 질문