# 미스트랄 "믹스트랄" 8x7B 32k 모델 [자석]

> Clean Markdown view of GeekNews topic #12251. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=12251](https://news.hada.io/topic?id=12251)
- GeekNews Markdown: [https://news.hada.io/topic/12251.md](https://news.hada.io/topic/12251.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2023-12-09T09:54:20+09:00
- Updated: 2023-12-09T09:54:20+09:00
- Original source: [twitter.com/MistralAI](https://twitter.com/MistralAI/status/1733150512395038967)
- Points: 2
- Comments: 1

## Topic Body

_No topic body._

## Comments


### Comment 21280

- Author: neo
- Created: 2023-12-09T09:54:20+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=38570537) 
- Andrej Karpathy의 의견:
  - MistralAI의 새로운 오픈 소스 LLM (Large Language Model)에 대한 소개
  - `params.json` 파일에서 주목할 만한 설정들:
    - `hidden_dim / dim = 14336/4096` => MLP 확장이 3.5배
    - `n_heads / n_kv_heads = 32/8` => 4배의 멀티쿼리
    - `"moe"` => 전문가의 혼합으로 상위 2개 중 8배
  - 관련 코드는 GitHub에서 확인 가능
  - AI 혁명에 대한 과장된 프로모션 비디오가 없음
  - NeurIPS라는 큰 딥러닝 컨퍼런스가 다가오기 때문에 많은 AI 활동이 일어나고 있음

- 다른 LLM 소식:
  - Mistral/Yi는 'neural alignment'라는 새로운 기술로 미세 조정된 모델을 사용하여 Hugging Face 리더보드에서 다른 모델들을 압도함
  - 7B 모델이 대부분의 70B 모델들을 '이김'
  - 테스트 중인 34B 모델이 매우 좋아 보임
  - 이 기술이 Mistral Moe에 적용되면 매우 뛰어난 모델이 될 수 있음
  - 데스크톱에서 실행 가능한 OSS가 GPT-4에 도전하는 중요한 변곡점일 수 있음

- Mistral의 접근 방식:
  - Mistral은 설명에 크게 신경 쓰지 않으나, 이러한 스타일이 Google의 연마된 기업 발표보다 더 신뢰감을 줌

- 간단한 발표 방식:
  - 90년대 방식으로 간단한 발표를 선호함

- Mistral의 모델 사양:
  - 전문가의 혼합(Mixture of Experts) 구조를 가진 `params.json` 파일 공개

- Mistral과 Google의 발표 방식 비교:
  - Google의 Gemini 발표와 대조적인 Mistral의 모델 발표 방식
  - Mistral은 Stanford의 Megablocks를 기반으로 훈련된 것으로 보임

- Mistral의 마케팅 전략:
  - 다른 회사들이 랜딩 페이지와 프로모션 비디오에 주를 두는 반면, Mistral은 간단하게 모델을 공개함

- Mistral의 공개 정보:
  - 전문가의 혼합 아키텍처를 사용
  - 7B 파라미터를 가진 8개의 전문가
  - 총 96GB의 가중치로, 일반적인 홈 GPU에서는 실행 불가능