Hacker News 의견
  • Andrej Karpathy의 의견:

    • MistralAI의 새로운 오픈 소스 LLM (Large Language Model)에 대한 소개
    • params.json 파일에서 주목할 만한 설정들:
      • hidden_dim / dim = 14336/4096 => MLP 확장이 3.5배
      • n_heads / n_kv_heads = 32/8 => 4배의 멀티쿼리
      • "moe" => 전문가의 혼합으로 상위 2개 중 8배
    • 관련 코드는 GitHub에서 확인 가능
    • AI 혁명에 대한 과장된 프로모션 비디오가 없음
    • NeurIPS라는 큰 딥러닝 컨퍼런스가 다가오기 때문에 많은 AI 활동이 일어나고 있음
  • 다른 LLM 소식:

    • Mistral/Yi는 'neural alignment'라는 새로운 기술로 미세 조정된 모델을 사용하여 Hugging Face 리더보드에서 다른 모델들을 압도함
    • 7B 모델이 대부분의 70B 모델들을 '이김'
    • 테스트 중인 34B 모델이 매우 좋아 보임
    • 이 기술이 Mistral Moe에 적용되면 매우 뛰어난 모델이 될 수 있음
    • 데스크톱에서 실행 가능한 OSS가 GPT-4에 도전하는 중요한 변곡점일 수 있음
  • Mistral의 접근 방식:

    • Mistral은 설명에 크게 신경 쓰지 않으나, 이러한 스타일이 Google의 연마된 기업 발표보다 더 신뢰감을 줌
  • 간단한 발표 방식:

    • 90년대 방식으로 간단한 발표를 선호함
  • Mistral의 모델 사양:

    • 전문가의 혼합(Mixture of Experts) 구조를 가진 params.json 파일 공개
  • Mistral과 Google의 발표 방식 비교:

    • Google의 Gemini 발표와 대조적인 Mistral의 모델 발표 방식
    • Mistral은 Stanford의 Megablocks를 기반으로 훈련된 것으로 보임
  • Mistral의 마케팅 전략:

    • 다른 회사들이 랜딩 페이지와 프로모션 비디오에 주를 두는 반면, Mistral은 간단하게 모델을 공개함
  • Mistral의 공개 정보:

    • 전문가의 혼합 아키텍처를 사용
    • 7B 파라미터를 가진 8개의 전문가
    • 총 96GB의 가중치로, 일반적인 홈 GPU에서는 실행 불가능