xAI, Grok-1 LLM의 기본 모델 가중치와 네트

▲

GN⁺ 2024-03-18 | parent | ★ favorite | on: xAI, Grok-1 LLM의 기본 모델 가중치와 네트워크 구조 공개 (github.com/xai-org)

Hacker News 의견

8x86B 모델은 현재까지 가장 큰 오픈 모델로 보임. 이 모델이 얼마나 많은 토큰으로 훈련되었는지 알아보는 것이 흥미로울 것.
- 대규모 텍스트 데이터로 훈련된 기본 모델이며, 특정 작업에 대해 미세 조정되지 않음.
- 트위터에서 미리 보여준 버전은 원시 가중치와는 다르게 행동하는 지시 튜닝 모델일 것으로 추정됨.
이 모델을 Mistral과 같은 오픈 소스 대안 대신 사용하고자 하는 이유는 무엇인가?
이 모델이 네이티브 FP8을 지원하는 첫 번째 주요 모델인가? 하드웨어가 지원할 때 큰 이점이 될 것 같은데, 왜 아직까지 사람들이 이를 수행하지 않았는지 궁금함.
이 모델이 지원하는 언어는 무엇인가?
블로그 포스트: Grok-OS
- 314B 파라미터 중 86B가 활성화됨.
- 전문가의 혼합 8개 중 2개가 활성화됨.
- 가중치와 아키텍처는 Apache 2.0 라이선스 하에 있음.
작년 발표된 블로그 포스트: Grok
- Claude 2, GPT-3.5, GPT-4와 비교한 벤치마크 포함.
- GPT-3.5, Mixtral, Qwen-1.5-72B와 비슷한 능력을 가지고 있지만, 오픈 가중치 모델보다 훨씬 큼.
파라미터 수와 전문가의 혼합 측면에서 우리가 상한선이나 수익 감소점에 도달할 때는 언제인가?
모델 카드가 어딘가에 있는가? 이 모델이 무엇으로 훈련되었는지 알고 싶음.
미묘한 점: 머스크는 "오픈 소스"라고 말했지만, 대신 "오픈 가중치"를 얻음(그래도 아무것도 없는 것보다 낫기 때문에 매우 감사함).
다른 저장소는 Qdrant의 포크뿐임.