▲GN⁺ 2024-03-18 | parent | ★ favorite | on: xAI, Grok-1 LLM의 기본 모델 가중치와 네트워크 구조 공개 (github.com/xai-org)Hacker News 의견 8x86B 모델은 현재까지 가장 큰 오픈 모델로 보임. 이 모델이 얼마나 많은 토큰으로 훈련되었는지 알아보는 것이 흥미로울 것. 대규모 텍스트 데이터로 훈련된 기본 모델이며, 특정 작업에 대해 미세 조정되지 않음. 트위터에서 미리 보여준 버전은 원시 가중치와는 다르게 행동하는 지시 튜닝 모델일 것으로 추정됨. 이 모델을 Mistral과 같은 오픈 소스 대안 대신 사용하고자 하는 이유는 무엇인가? 이 모델이 네이티브 FP8을 지원하는 첫 번째 주요 모델인가? 하드웨어가 지원할 때 큰 이점이 될 것 같은데, 왜 아직까지 사람들이 이를 수행하지 않았는지 궁금함. 이 모델이 지원하는 언어는 무엇인가? 블로그 포스트: Grok-OS 314B 파라미터 중 86B가 활성화됨. 전문가의 혼합 8개 중 2개가 활성화됨. 가중치와 아키텍처는 Apache 2.0 라이선스 하에 있음. 작년 발표된 블로그 포스트: Grok Claude 2, GPT-3.5, GPT-4와 비교한 벤치마크 포함. GPT-3.5, Mixtral, Qwen-1.5-72B와 비슷한 능력을 가지고 있지만, 오픈 가중치 모델보다 훨씬 큼. 파라미터 수와 전문가의 혼합 측면에서 우리가 상한선이나 수익 감소점에 도달할 때는 언제인가? 모델 카드가 어딘가에 있는가? 이 모델이 무엇으로 훈련되었는지 알고 싶음. 미묘한 점: 머스크는 "오픈 소스"라고 말했지만, 대신 "오픈 가중치"를 얻음(그래도 아무것도 없는 것보다 낫기 때문에 매우 감사함). 다른 저장소는 Qdrant의 포크뿐임.
Hacker News 의견
8x86B 모델은 현재까지 가장 큰 오픈 모델로 보임. 이 모델이 얼마나 많은 토큰으로 훈련되었는지 알아보는 것이 흥미로울 것.
이 모델을 Mistral과 같은 오픈 소스 대안 대신 사용하고자 하는 이유는 무엇인가?
이 모델이 네이티브 FP8을 지원하는 첫 번째 주요 모델인가? 하드웨어가 지원할 때 큰 이점이 될 것 같은데, 왜 아직까지 사람들이 이를 수행하지 않았는지 궁금함.
이 모델이 지원하는 언어는 무엇인가?
블로그 포스트: Grok-OS
작년 발표된 블로그 포스트: Grok
파라미터 수와 전문가의 혼합 측면에서 우리가 상한선이나 수익 감소점에 도달할 때는 언제인가?
모델 카드가 어딘가에 있는가? 이 모델이 무엇으로 훈련되었는지 알고 싶음.
미묘한 점: 머스크는 "오픈 소스"라고 말했지만, 대신 "오픈 가중치"를 얻음(그래도 아무것도 없는 것보다 낫기 때문에 매우 감사함).
다른 저장소는 Qdrant의 포크뿐임.