xAI, Grok-1 LLM의 기본 모델 가중치와 네트워크 구조 공개

(github.com/xai-org)

6P by GN⁺ 2024-03-18 | ★ favorite | 댓글 1개

314B(3140억개) 파라미터의 Mixture-of-Expers 모델의 Weights 와 아키텍처 릴리즈
2023년 10월에 종료된 Grok-1 사전 학습 단계의 Raw Base Model
- 모델이 대화 같은 특정 작업을 위해 미세조정 되지 않았음을 의미함
모델 상세
- 특정 작업에 맞게 미세 조정되지 않은 대량의 텍스트 데이터로 학습된 기본 모
- 주어진 토큰에 대해 25%의 가중치가 활성화된 314B 매개변수 전문가 혼합 모델
- 2023년 10월에 JAX와 Rust 위에 사용자 정의 학습 스택을 사용하여 xAI에 의해 처음부터 학습됨

Grok-1 저장소 사용법

JAX 예제 코드를 포함하는 Grok-1 저장소는 Grok-1 오픈-웨이트 모델을 불러오고 실행하는 데 사용됨.
체크포인트를 다운로드하고 checkpoint 디렉토리 안에 ckpt-0 디렉토리를 위치시킨 후, pip install -r requirements.txt와 python run.py를 실행하여 코드를 테스트함.
스크립트는 체크포인트를 불러오고 테스트 입력에 대해 모델에서 샘플을 생성함.
모델의 크기가 매우 크기 때문에(314B 파라미터), 충분한 GPU 메모리를 갖춘 기계가 필요함.
이 저장소의 MoE(Mixture of Experts) 레이어 구현은 효율적이지 않으며, 모델의 정확성을 검증하기 위해 사용자 정의 커널을 피하기 위해 선택됨.

가중치 다운로드

토렌트 클라이언트와 다음의 링크를 사용하여 가중치를 다운로드할 수 있음: magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

라이선스

이 릴리스에 포함된 코드와 Grok-1 가중치는 Apache 2.0 라이선스 하에 라이선스됨.
라이선스는 이 저장소의 소스 파일과 Grok-1 모델의 가중치에만 적용됨.

GN⁺의 의견

Grok-1은 대규모 파라미터를 가진 모델로, 머신러닝 연구자나 엔지니어들이 고성능 컴퓨팅 자원을 활용해 실험할 수 있는 좋은 기회를 제공함.
오픈소스 라이선스인 Apache 2.0을 사용함으로써, 커뮤니티는 모델을 자유롭게 사용, 수정 및 배포할 수 있으며, 이는 협업과 혁신을 촉진할 수 있음.
모델의 크기가 매우 크기 때문에, 실제로 이 모델을 실험하려면 상당한 계산 자원이 필요하며, 이는 접근성을 제한할 수 있음.
MoE 레이어의 비효율적인 구현은 연구 목적으로는 유용할 수 있지만, 실제 제품이나 서비스에 적용할 때는 최적화된 구현을 찾아야 할 것임.
유사한 기능을 제공하는 다른 오픈소스 프로젝트로는 Google의 TensorFlow나 Facebook의 PyTorch가 있으며, 이들도 대규모 모델을 실험하는 데 사용될 수 있음.

▲

GN⁺ 2024-03-18 [-]

Hacker News 의견

8x86B 모델은 현재까지 가장 큰 오픈 모델로 보임. 이 모델이 얼마나 많은 토큰으로 훈련되었는지 알아보는 것이 흥미로울 것.
- 대규모 텍스트 데이터로 훈련된 기본 모델이며, 특정 작업에 대해 미세 조정되지 않음.
- 트위터에서 미리 보여준 버전은 원시 가중치와는 다르게 행동하는 지시 튜닝 모델일 것으로 추정됨.
이 모델을 Mistral과 같은 오픈 소스 대안 대신 사용하고자 하는 이유는 무엇인가?
이 모델이 네이티브 FP8을 지원하는 첫 번째 주요 모델인가? 하드웨어가 지원할 때 큰 이점이 될 것 같은데, 왜 아직까지 사람들이 이를 수행하지 않았는지 궁금함.
이 모델이 지원하는 언어는 무엇인가?
블로그 포스트: Grok-OS
- 314B 파라미터 중 86B가 활성화됨.
- 전문가의 혼합 8개 중 2개가 활성화됨.
- 가중치와 아키텍처는 Apache 2.0 라이선스 하에 있음.
작년 발표된 블로그 포스트: Grok
- Claude 2, GPT-3.5, GPT-4와 비교한 벤치마크 포함.
- GPT-3.5, Mixtral, Qwen-1.5-72B와 비슷한 능력을 가지고 있지만, 오픈 가중치 모델보다 훨씬 큼.
파라미터 수와 전문가의 혼합 측면에서 우리가 상한선이나 수익 감소점에 도달할 때는 언제인가?
모델 카드가 어딘가에 있는가? 이 모델이 무엇으로 훈련되었는지 알고 싶음.
미묘한 점: 머스크는 "오픈 소스"라고 말했지만, 대신 "오픈 가중치"를 얻음(그래도 아무것도 없는 것보다 낫기 때문에 매우 감사함).
다른 저장소는 Qdrant의 포크뿐임.

답변달기