미스트랄 "믹스트랄" 8x7B 32k 모델 [자석]

(twitter.com/MistralAI)

2P by GN⁺ 2023-12-09 | ★ favorite | 댓글 1개

▲

GN⁺ 2023-12-09 [-]

Hacker News 의견

Andrej Karpathy의 의견:
- MistralAI의 새로운 오픈 소스 LLM (Large Language Model)에 대한 소개
- params.json 파일에서 주목할 만한 설정들:
  - hidden_dim / dim = 14336/4096 => MLP 확장이 3.5배
  - n_heads / n_kv_heads = 32/8 => 4배의 멀티쿼리
  - "moe" => 전문가의 혼합으로 상위 2개 중 8배
- 관련 코드는 GitHub에서 확인 가능
- AI 혁명에 대한 과장된 프로모션 비디오가 없음
- NeurIPS라는 큰 딥러닝 컨퍼런스가 다가오기 때문에 많은 AI 활동이 일어나고 있음
다른 LLM 소식:
- Mistral/Yi는 'neural alignment'라는 새로운 기술로 미세 조정된 모델을 사용하여 Hugging Face 리더보드에서 다른 모델들을 압도함
- 7B 모델이 대부분의 70B 모델들을 '이김'
- 테스트 중인 34B 모델이 매우 좋아 보임
- 이 기술이 Mistral Moe에 적용되면 매우 뛰어난 모델이 될 수 있음
- 데스크톱에서 실행 가능한 OSS가 GPT-4에 도전하는 중요한 변곡점일 수 있음
Mistral의 접근 방식:
- Mistral은 설명에 크게 신경 쓰지 않으나, 이러한 스타일이 Google의 연마된 기업 발표보다 더 신뢰감을 줌
간단한 발표 방식:
- 90년대 방식으로 간단한 발표를 선호함
Mistral의 모델 사양:
- 전문가의 혼합(Mixture of Experts) 구조를 가진 params.json 파일 공개
Mistral과 Google의 발표 방식 비교:
- Google의 Gemini 발표와 대조적인 Mistral의 모델 발표 방식
- Mistral은 Stanford의 Megablocks를 기반으로 훈련된 것으로 보임
Mistral의 마케팅 전략:
- 다른 회사들이 랜딩 페이지와 프로모션 비디오에 주를 두는 반면, Mistral은 간단하게 모델을 공개함
Mistral의 공개 정보:
- 전문가의 혼합 아키텍처를 사용
- 7B 파라미터를 가진 8개의 전문가
- 총 96GB의 가중치로, 일반적인 홈 GPU에서는 실행 불가능

답변달기