Hacker News 의견
  • 8x86B 모델은 현재까지 가장 큰 오픈 모델로 보임. 이 모델이 얼마나 많은 토큰으로 훈련되었는지 알아보는 것이 흥미로울 것.

    • 대규모 텍스트 데이터로 훈련된 기본 모델이며, 특정 작업에 대해 미세 조정되지 않음.
    • 트위터에서 미리 보여준 버전은 원시 가중치와는 다르게 행동하는 지시 튜닝 모델일 것으로 추정됨.
  • 이 모델을 Mistral과 같은 오픈 소스 대안 대신 사용하고자 하는 이유는 무엇인가?

  • 이 모델이 네이티브 FP8을 지원하는 첫 번째 주요 모델인가? 하드웨어가 지원할 때 큰 이점이 될 것 같은데, 왜 아직까지 사람들이 이를 수행하지 않았는지 궁금함.

  • 이 모델이 지원하는 언어는 무엇인가?

  • 블로그 포스트: Grok-OS

    • 314B 파라미터 중 86B가 활성화됨.
    • 전문가의 혼합 8개 중 2개가 활성화됨.
    • 가중치와 아키텍처는 Apache 2.0 라이선스 하에 있음.
  • 작년 발표된 블로그 포스트: Grok

    • Claude 2, GPT-3.5, GPT-4와 비교한 벤치마크 포함.
    • GPT-3.5, Mixtral, Qwen-1.5-72B와 비슷한 능력을 가지고 있지만, 오픈 가중치 모델보다 훨씬 큼.
  • 파라미터 수와 전문가의 혼합 측면에서 우리가 상한선이나 수익 감소점에 도달할 때는 언제인가?

  • 모델 카드가 어딘가에 있는가? 이 모델이 무엇으로 훈련되었는지 알고 싶음.

  • 미묘한 점: 머스크는 "오픈 소스"라고 말했지만, 대신 "오픈 가중치"를 얻음(그래도 아무것도 없는 것보다 낫기 때문에 매우 감사함).

  • 다른 저장소는 Qdrant의 포크뿐임.