Mistral 7B

(mistral.ai)

11P by GN⁺ 2023-09-28 | ★ favorite | 댓글 1개

현재까지 가장 강력한 언어 모델
7.3B 파라미터 모델로, 모든 벤치마크에서 Llama 2 13B를, 많은 벤치마크에서는 Llama 1 34B를 능가
더 빠른 추론을 위한 Grouped-query attention (GQA)과 더 작은 비용으로 더 긴 시퀀스를 처리하기 위한 Sliding Window Attention (SWA)를 사용
Apache 2.0 라이선스로, 제한 없이 사용 가능
어떤 클라우드(AWS/GCP/Azure)에서도 vLLM 추론 서버와 skypilot를 사용하여 배포할 수 있으며, HuggingFace에서도 사용할 수 있음
쉽게 미세 조정할 수 있으며, 채팅용으로 미세 조정된 모델은 Llama 2 13B 채팅을 능가

GN⁺ 2023-09-28 [-]

Hacker News 의견

Mistral, Meta와 DeciLM과 달리 이 클래스의 모델에 Apache 라이선스를 부여한 첫 회사입니다.
이 모델은 MacBook Air M1에서 잘 작동하며 GPT3.5와 비교할 수 있습니다.
JSON과 같은 구조화된 데이터를 처리하기 위한 "함수 호출 API"의 사용 가능성에 대한 질문이 있습니다.
모델 훈련에 사용된 데이터셋에 대한 우려와 벤치마크 유출이 결과를 부풀릴 가능성이 제기되었습니다.
모델의 발표는 Twitter의 토렌트 트래커 URI를 통해 이루어졌습니다.
LLMs를 위한 코딩 보조 도구 테스트에서 Mistral이 CodeLlama와 GPT4만큼 잘 수행하지 못했습니다.
모델은 llama.cpp에 의해 지원되기 때문에 macOS의 FreeChat에서 작동합니다.
프로젝트가 왜 7B 모델과 같은 큰 버킷 내에서 특정 파라미터 크기로 표준화하는 것처럼 보이는지에 대한 질문이 있습니다.
모델의 훈련에 대한 세부 정보, 그것이 기반한 데이터와 어디에서 훈련되었는지에 대한 요청이 있습니다.
훈련 세트에서 벤치마크 오염에 대한 테스트를 요청하는 것이 있습니다.