# Mistral 7B

> Clean Markdown view of GeekNews topic #11086. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=11086](https://news.hada.io/topic?id=11086)
- GeekNews Markdown: [https://news.hada.io/topic/11086.md](https://news.hada.io/topic/11086.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2023-09-28T09:45:43+09:00
- Updated: 2023-09-28T09:45:43+09:00
- Original source: [mistral.ai](https://mistral.ai/news/announcing-mistral-7b/)
- Points: 11
- Comments: 1

## Topic Body

- 현재까지 가장 강력한 언어 모델  
- 7.3B 파라미터 모델로, 모든 벤치마크에서 Llama 2 13B를, 많은 벤치마크에서는 Llama 1 34B를 능가  
- 더 빠른 추론을 위한 Grouped-query attention (GQA)과 더 작은 비용으로 더 긴 시퀀스를 처리하기 위한 Sliding Window Attention (SWA)를 사용  
- Apache 2.0 라이선스로, 제한 없이 사용 가능  
- 어떤 클라우드(AWS/GCP/Azure)에서도 vLLM 추론 서버와 skypilot를 사용하여 배포할 수 있으며, HuggingFace에서도 사용할 수 있음  
- 쉽게 미세 조정할 수 있으며, 채팅용으로 미세 조정된 모델은 Llama 2 13B 채팅을 능가

## Comments



### Comment 19546

- Author: neo
- Created: 2023-09-28T09:45:43+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=37675496) 
- Mistral, Meta와 DeciLM과 달리 이 클래스의 모델에 Apache 라이선스를 부여한 첫 회사입니다.
- 이 모델은 MacBook Air M1에서 잘 작동하며 GPT3.5와 비교할 수 있습니다.
- JSON과 같은 구조화된 데이터를 처리하기 위한 "함수 호출 API"의 사용 가능성에 대한 질문이 있습니다.
- 모델 훈련에 사용된 데이터셋에 대한 우려와 벤치마크 유출이 결과를 부풀릴 가능성이 제기되었습니다.
- 모델의 발표는 Twitter의 토렌트 트래커 URI를 통해 이루어졌습니다.
- LLMs를 위한 코딩 보조 도구 테스트에서 Mistral이 CodeLlama와 GPT4만큼 잘 수행하지 못했습니다.
- 모델은 llama.cpp에 의해 지원되기 때문에 macOS의 FreeChat에서 작동합니다.
- 프로젝트가 왜 7B 모델과 같은 큰 버킷 내에서 특정 파라미터 크기로 표준화하는 것처럼 보이는지에 대한 질문이 있습니다.
- 모델의 훈련에 대한 세부 정보, 그것이 기반한 데이터와 어디에서 훈련되었는지에 대한 요청이 있습니다.
- 훈련 세트에서 벤치마크 오염에 대한 테스트를 요청하는 것이 있습니다.
