# xAI, Grok-1 LLM의 기본 모델 가중치와 네트워크 구조 공개

> Clean Markdown view of GeekNews topic #13858. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=13858](https://news.hada.io/topic?id=13858)
- GeekNews Markdown: [https://news.hada.io/topic/13858.md](https://news.hada.io/topic/13858.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-03-18T09:57:12+09:00
- Updated: 2024-03-18T09:57:12+09:00
- Original source: [github.com/xai-org](https://github.com/xai-org/grok)
- Points: 6
- Comments: 1

## Topic Body

- 314B(3140억개) 파라미터의 Mixture-of-Expers 모델의 Weights 와 아키텍처 릴리즈   
- 2023년 10월에 종료된 Grok-1 사전 학습 단계의 Raw Base Model  
  - 모델이 대화 같은 특정 작업을 위해 미세조정 되지 않았음을 의미함  
- 모델 상세   
  - 특정 작업에 맞게 미세 조정되지 않은 대량의 텍스트 데이터로 학습된 기본 모  
  - 주어진 토큰에 대해 25%의 가중치가 활성화된 314B 매개변수 전문가 혼합 모델  
  - 2023년 10월에 JAX와 Rust 위에 사용자 정의 학습 스택을 사용하여 xAI에 의해 처음부터 학습됨  
  
### Grok-1 저장소 사용법  
  
- JAX 예제 코드를 포함하는 Grok-1 저장소는 Grok-1 오픈-웨이트 모델을 불러오고 실행하는 데 사용됨.  
- 체크포인트를 다운로드하고 `checkpoint` 디렉토리 안에 `ckpt-0` 디렉토리를 위치시킨 후, `pip install -r requirements.txt`와 `python run.py`를 실행하여 코드를 테스트함.  
- 스크립트는 체크포인트를 불러오고 테스트 입력에 대해 모델에서 샘플을 생성함.  
- 모델의 크기가 매우 크기 때문에(314B 파라미터), 충분한 GPU 메모리를 갖춘 기계가 필요함.  
- 이 저장소의 MoE(Mixture of Experts) 레이어 구현은 효율적이지 않으며, 모델의 정확성을 검증하기 위해 사용자 정의 커널을 피하기 위해 선택됨.  
  
### 가중치 다운로드  
  
- 토렌트 클라이언트와 다음의 링크를 사용하여 가중치를 다운로드할 수 있음: `magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce`  
  
### 라이선스  
  
- 이 릴리스에 포함된 코드와 Grok-1 가중치는 Apache 2.0 라이선스 하에 라이선스됨.  
- 라이선스는 이 저장소의 소스 파일과 Grok-1 모델의 가중치에만 적용됨.  
  
### GN⁺의 의견  
  
- Grok-1은 대규모 파라미터를 가진 모델로, 머신러닝 연구자나 엔지니어들이 고성능 컴퓨팅 자원을 활용해 실험할 수 있는 좋은 기회를 제공함.  
- 오픈소스 라이선스인 Apache 2.0을 사용함으로써, 커뮤니티는 모델을 자유롭게 사용, 수정 및 배포할 수 있으며, 이는 협업과 혁신을 촉진할 수 있음.  
- 모델의 크기가 매우 크기 때문에, 실제로 이 모델을 실험하려면 상당한 계산 자원이 필요하며, 이는 접근성을 제한할 수 있음.  
- MoE 레이어의 비효율적인 구현은 연구 목적으로는 유용할 수 있지만, 실제 제품이나 서비스에 적용할 때는 최적화된 구현을 찾아야 할 것임.  
- 유사한 기능을 제공하는 다른 오픈소스 프로젝트로는 Google의 TensorFlow나 Facebook의 PyTorch가 있으며, 이들도 대규모 모델을 실험하는 데 사용될 수 있음.

## Comments


### Comment 23781

- Author: neo
- Created: 2024-03-18T09:57:12+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=39737281) 
- 8x86B 모델은 현재까지 가장 큰 오픈 모델로 보임. 이 모델이 얼마나 많은 토큰으로 훈련되었는지 알아보는 것이 흥미로울 것.
  - 대규모 텍스트 데이터로 훈련된 기본 모델이며, 특정 작업에 대해 미세 조정되지 않음.
  - 트위터에서 미리 보여준 버전은 원시 가중치와는 다르게 행동하는 지시 튜닝 모델일 것으로 추정됨.

- 이 모델을 Mistral과 같은 오픈 소스 대안 대신 사용하고자 하는 이유는 무엇인가?

- 이 모델이 네이티브 FP8을 지원하는 첫 번째 주요 모델인가? 하드웨어가 지원할 때 큰 이점이 될 것 같은데, 왜 아직까지 사람들이 이를 수행하지 않았는지 궁금함.

- 이 모델이 지원하는 언어는 무엇인가?

- 블로그 포스트: [Grok-OS](https://x.ai/blog/grok-os)
  - 314B 파라미터 중 86B가 활성화됨.
  - 전문가의 혼합 8개 중 2개가 활성화됨.
  - 가중치와 아키텍처는 Apache 2.0 라이선스 하에 있음.

- 작년 발표된 블로그 포스트: [Grok](https://x.ai/blog/grok)
  - Claude 2, GPT-3.5, GPT-4와 비교한 벤치마크 포함.
  - GPT-3.5, Mixtral, Qwen-1.5-72B와 비슷한 능력을 가지고 있지만, 오픈 가중치 모델보다 훨씬 큼.

- 파라미터 수와 전문가의 혼합 측면에서 우리가 상한선이나 수익 감소점에 도달할 때는 언제인가?

- 모델 카드가 어딘가에 있는가? 이 모델이 무엇으로 훈련되었는지 알고 싶음.

- 미묘한 점: 머스크는 "오픈 소스"라고 말했지만, 대신 "오픈 가중치"를 얻음(그래도 아무것도 없는 것보다 낫기 때문에 매우 감사함).

- 다른 저장소는 Qdrant의 포크뿐임.