# DBRX - 새로운 최첨단(SOTA) 오픈 LLM

> Clean Markdown view of GeekNews topic #14031. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=14031](https://news.hada.io/topic?id=14031)
- GeekNews Markdown: [https://news.hada.io/topic/14031.md](https://news.hada.io/topic/14031.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-03-28T09:53:19+09:00
- Updated: 2024-03-28T09:53:19+09:00
- Original source: [databricks.com](https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm)
- Points: 16
- Comments: 1

## Topic Body

- Databricks가 새로운 오픈, 범용 LLM인 DBRX를 공개  
- 표준 벤치마크에서 기존 오픈 LLM을 능가하는 새로운 최고 수준이며, 이전에 폐쇄된 모델 API에 제한되었던 기능을 오픈 커뮤니티와 기업에 제공  
  - GPT-3.5를 능가하며 Gemini 1.0 Pro와도 경쟁 가능  
  - 코드에서도 CodeLLaMA-70B와 같은 전문 모델을 능가  
- DBRX는 훈련 및 추론 성능에서 현저한 개선을 보임  
  - 세분화된 전문가 혼합(MoE) 아키텍처를 사용하여 효율성을 향상  
  - 추론 속도는 LLaMA2-70B보다 최대 2배 빠르며, Grok-1 대비 크기가 약 40% 작음  
  
### DBRX의 구조  
  
- DBRX는 트랜스포머 기반의 디코더 전용 대규모 언어 모델(LLM)로, 다음 토큰 예측을 사용하여 훈련  
- 132B의 총 매개변수 중 36B가 활성화되어 있으며, 12T 토큰의 텍스트와 코드 데이터로 사전 훈련  
- DBRX는 다른 오픈 MoE 모델에 비해 더 세분화되어 있으며, 이는 모델 품질을 향상시키는 것으로 나타남  
  
### 벤치마크에서의 품질  
  
- DBRX Instruct는 복합 벤치마크, 프로그래밍 및 수학 벤치마크, MMLU에서 선도적인 모델임  
- DBRX Instruct는 표준 벤치마크에서 모든 채팅 또는 지시 사항을 조정한 모델을 능가함  
  
### 폐쇄 모델과의 비교  
  
- DBRX Instruct는 GPT-3.5를 능가하고 Gemini 1.0 Pro 및 Mistral Medium과 경쟁력이 있음  
- DBRX Instruct는 일반 지식, 상식 추론, 프로그래밍 및 수학적 추론에서 GPT-3.5를 능가함  
  
### 장문 문맥 작업 및 RAG에서의 품질  
  
- DBRX Instruct는 최대 32K 토큰 문맥 창으로 훈련됨.  
- DBRX Instruct는 장문 문맥 벤치마크에서 GPT-3.5 Turbo 및 GPT-4 Turbo API의 최신 버전과 비교됨.  
- DBRX Instruct는 모든 문맥 길이와 시퀀스의 모든 부분에서 GPT-3.5 Turbo보다 더 나은 성능을 보임.  
  
### 훈련 효율성  
  
- DBRX MoE 아키텍처와 전체 훈련 파이프라인은 훈련 효율성을 검증함.  
- DBRX MoE 아키텍처는 훈련에 필요한 FLOP를 줄이면서 높은 품질을 달성함.  
  
### 추론 효율성  
  
- DBRX는 NVIDIA TensorRT-LLM을 사용하여 최적화된 추론 인프라에서 높은 추론 처리량을 보임.  
- MoE 모델은 일반적으로 총 매개변수 수에 비해 추론 속도가 빠름.  
  
### DBRX 구축 방법  
  
- DBRX는 NVIDIA H100을 사용하여 훈련되었으며, Databricks의 도구를 사용하여 구축됨.  
- DBRX는 Databricks의 MPT 및 Dolly 프로젝트의 연속선상에서 개발되었으며, 고객과 함께 수천 개의 LLM을 훈련함.  
  
### Databricks에서 DBRX 시작하기  
  
- Databricks Mosaic AI Foundation Model API를 통해 DBRX를 쉽게 사용할 수 있음.  
- DBRX는 Databricks Marketplace에서 다운로드하여 모델 서빙에 배포할 수 있음.  
  
### 결론  
  
- Databricks는 모든 기업이 GenAI의 세계에서 자신의 데이터와 운명을 통제할 수 있어야 한다고 믿음.  
- DBRX는 Databricks의 차세대 GenAI 제품의 핵심 요소임.  
  
### 기여  
  
- DBRX 개발은 Mosaic 팀이 주도하였으며, Databricks의 다양한 부서에서 협력하여 완성됨.  
  
### GN⁺의 의견  
  
- DBRX는 기존의 GPT 모델들과 경쟁할 수 있는 새로운 오픈소스 언어 모델로, 특히 코드 생성 및 프로그래밍 작업에서 뛰어난 성능을 보여줄 것으로 기대됨.  
- MoE 아키텍처를 사용함으로써, DBRX는 추론 속도와 모델 크기 측면에서 효율성을 크게 향상시킨 것으로 보임. 이는 자원 제한이 있는 환경에서도 고성능 모델을 활용할 수 있게 해줄 수 있음.  
- DBRX의 오픈소스 접근 방식은 연구자와 개발자가 모델을 자유롭게 실험하고 개선할 수 있는 기회를 제공함. 이는 AI 커뮤니티에 큰 기여가 될 수 있음.  
- DBRX가 제공하는 API와 통합 도구는 기업이 자체적인 언어 모델을 더 쉽게 개발하고 배포할 수 있도록 지원함. 이는 기업이 AI 기술을 활용하여 경쟁력을 강화하는 데 도움이 될 것임.  
- DBRX의 출시는 오픈소스 언어 모델의 발전에 중요한 이정표가 될 수 있으며, 향후 이 모델이 어떻게 발전하고 다양한 분야에 적용될지 지켜보는 것이 흥미로울 것임.

## Comments


### Comment 24056

- Author: neo
- Created: 2024-03-28T09:53:19+09:00
- Points: 2

###### [Hacker News 의견](https://news.ycombinator.com/item?id=39838104) 
- 현재 주목할 만한 모델들:
  - **Miqu 70B**: 일반 대화용
  - **Deepseed 33B**: 코딩용
  - **Yi 34B**: 32K 컨텍스트 이상의 대화용
  - 이들 모델의 파인튜닝 버전들도 존재
  - 34B-70B 범위의 다른 모델들도 있으나, Qwen 모델은 인상적이지 않음
  - Llama 70B, Mixtral, Grok 모델은 차트에서 보이지만 최신 기술(SOTA)로 보기 어려움, 단 Mixtral은 배치 사이즈 1의 속도에서 뛰어남

- 모델 카드 및 리소스 요구 사항:
  - 모델은 약 264GB의 RAM 필요
  - 매개변수 수 대신 (GPU RAM + CPU RAM) 총량과 평가 메트릭을 추적하는 전환 시점에 대한 궁금증
  - 예를 들어, float32를 사용하는 7B 매개변수 모델이 float4를 사용하는 동일 매개변수 모델보다 성능이 우수할 가능성이 높음
  - 한 GPU에 맞도록 최근 출시된 우수 모델을 양자화하는 사례들이 있으나, 양자화된 모델은 원본과 다른 모델이므로 메트릭을 다시 실행해야 함

- 대규모 언어 모델(LLM)의 수렴성:
  - 모든 LLM 모델이 동일한 데이터로 훈련될 때 특정 지점으로 수렴한다는 증거
  - 작업 성능에 대한 주장은 그저 주장일 뿐, 다음 Llama나 Mixtral 반복은 수렴할 것
  - LLM은 리눅스/윈도우 또는 iOS/안드로이드처럼 기초 모델에서 큰 차이가 없이 진화하는 것으로 보임

- 혼합 양자화 및 MoE 오프로딩 기대:
  - Mixed Quantization with MQQ와 MoE Offloading을 통해 10GB VRAM의 rtx3080에서 Mistral 8x7B를 실행할 수 있었음
  - 이 방법은 DBRX에도 적용 가능하며 VRAM 요구량을 크게 줄일 수 있음

- Databricks의 비즈니스 이익:
  - Databricks가 오픈 LLM에 수백만 달러를 투자함으로써 얻을 비즈니스 이점에 대한 호기심

- 차트 비교 및 평가:
  - LLaMa2의 Human Eval 점수를 차트에 넣고 Code Llama Instruct 70b와 비교하지 않는 것은 차트 범죄
  - DBRX는 Code Llama Instruct의 67.8을 크게 앞서지는 않지만 여전히 뛰어남

- 새 GPU 구매 계획 및 VRAM 요구 사항:
  - 16GB VRAM GPU가 70GB 모델을 잘 실행할 수 있는지, 12GB VRAM GPU보다 눈에 띄게 더 잘 실행하는지에 대한 질문
  - Ollama는 로컬에서 잘 실행되며, mixtral(7B, 3.4GB)은 1080ti에서 잘 작동하지만, 24.6GB 버전은 약간 느리고 시작 시간이 눈에 띄게 걸림

- 베이스 모델 승인에 대한 불만:
  - 베이스 모델에 대한 승인이 매우 개방적이지 않은 느낌
  - 많은 사람들이 다운로드 기회를 기다리고 있는 반면, instruct 모델은 즉시 승인됨
  - 베이스 모델은 파인튜닝에 더 흥미로움

- 훈련 효율성 개선:
  - LLM 사전 훈련 파이프라인이 지난 10개월 동안 거의 4배 더 계산 효율적이 되었다는 내용
  - 훈련 비용이 매우 높기 때문에 이러한 개선은 환영할 만하며, 무어의 법칙을 따를 것으로 기대됨

- 코딩 평가의 오염 가능성:
  - 훈련 데이터에 의해 코딩 평가가 오염될 수 있음
  - 이러한 점수 인플레이션을 피하기 위한 표준 방법에 대한 질문