GN⁺: DBRX - 새로운 최첨단(SOTA) 오픈 LLM
(databricks.com)- Databricks가 새로운 오픈, 범용 LLM인 DBRX를 공개
- 표준 벤치마크에서 기존 오픈 LLM을 능가하는 새로운 최고 수준이며, 이전에 폐쇄된 모델 API에 제한되었던 기능을 오픈 커뮤니티와 기업에 제공
- GPT-3.5를 능가하며 Gemini 1.0 Pro와도 경쟁 가능
- 코드에서도 CodeLLaMA-70B와 같은 전문 모델을 능가
- DBRX는 훈련 및 추론 성능에서 현저한 개선을 보임
- 세분화된 전문가 혼합(MoE) 아키텍처를 사용하여 효율성을 향상
- 추론 속도는 LLaMA2-70B보다 최대 2배 빠르며, Grok-1 대비 크기가 약 40% 작음
DBRX의 구조
- DBRX는 트랜스포머 기반의 디코더 전용 대규모 언어 모델(LLM)로, 다음 토큰 예측을 사용하여 훈련
- 132B의 총 매개변수 중 36B가 활성화되어 있으며, 12T 토큰의 텍스트와 코드 데이터로 사전 훈련
- DBRX는 다른 오픈 MoE 모델에 비해 더 세분화되어 있으며, 이는 모델 품질을 향상시키는 것으로 나타남
벤치마크에서의 품질
- DBRX Instruct는 복합 벤치마크, 프로그래밍 및 수학 벤치마크, MMLU에서 선도적인 모델임
- DBRX Instruct는 표준 벤치마크에서 모든 채팅 또는 지시 사항을 조정한 모델을 능가함
폐쇄 모델과의 비교
- DBRX Instruct는 GPT-3.5를 능가하고 Gemini 1.0 Pro 및 Mistral Medium과 경쟁력이 있음
- DBRX Instruct는 일반 지식, 상식 추론, 프로그래밍 및 수학적 추론에서 GPT-3.5를 능가함
장문 문맥 작업 및 RAG에서의 품질
- DBRX Instruct는 최대 32K 토큰 문맥 창으로 훈련됨.
- DBRX Instruct는 장문 문맥 벤치마크에서 GPT-3.5 Turbo 및 GPT-4 Turbo API의 최신 버전과 비교됨.
- DBRX Instruct는 모든 문맥 길이와 시퀀스의 모든 부분에서 GPT-3.5 Turbo보다 더 나은 성능을 보임.
훈련 효율성
- DBRX MoE 아키텍처와 전체 훈련 파이프라인은 훈련 효율성을 검증함.
- DBRX MoE 아키텍처는 훈련에 필요한 FLOP를 줄이면서 높은 품질을 달성함.
추론 효율성
- DBRX는 NVIDIA TensorRT-LLM을 사용하여 최적화된 추론 인프라에서 높은 추론 처리량을 보임.
- MoE 모델은 일반적으로 총 매개변수 수에 비해 추론 속도가 빠름.
DBRX 구축 방법
- DBRX는 NVIDIA H100을 사용하여 훈련되었으며, Databricks의 도구를 사용하여 구축됨.
- DBRX는 Databricks의 MPT 및 Dolly 프로젝트의 연속선상에서 개발되었으며, 고객과 함께 수천 개의 LLM을 훈련함.
Databricks에서 DBRX 시작하기
- Databricks Mosaic AI Foundation Model API를 통해 DBRX를 쉽게 사용할 수 있음.
- DBRX는 Databricks Marketplace에서 다운로드하여 모델 서빙에 배포할 수 있음.
결론
- Databricks는 모든 기업이 GenAI의 세계에서 자신의 데이터와 운명을 통제할 수 있어야 한다고 믿음.
- DBRX는 Databricks의 차세대 GenAI 제품의 핵심 요소임.
기여
- DBRX 개발은 Mosaic 팀이 주도하였으며, Databricks의 다양한 부서에서 협력하여 완성됨.
GN⁺의 의견
- DBRX는 기존의 GPT 모델들과 경쟁할 수 있는 새로운 오픈소스 언어 모델로, 특히 코드 생성 및 프로그래밍 작업에서 뛰어난 성능을 보여줄 것으로 기대됨.
- MoE 아키텍처를 사용함으로써, DBRX는 추론 속도와 모델 크기 측면에서 효율성을 크게 향상시킨 것으로 보임. 이는 자원 제한이 있는 환경에서도 고성능 모델을 활용할 수 있게 해줄 수 있음.
- DBRX의 오픈소스 접근 방식은 연구자와 개발자가 모델을 자유롭게 실험하고 개선할 수 있는 기회를 제공함. 이는 AI 커뮤니티에 큰 기여가 될 수 있음.
- DBRX가 제공하는 API와 통합 도구는 기업이 자체적인 언어 모델을 더 쉽게 개발하고 배포할 수 있도록 지원함. 이는 기업이 AI 기술을 활용하여 경쟁력을 강화하는 데 도움이 될 것임.
- DBRX의 출시는 오픈소스 언어 모델의 발전에 중요한 이정표가 될 수 있으며, 향후 이 모델이 어떻게 발전하고 다양한 분야에 적용될지 지켜보는 것이 흥미로울 것임.
Hacker News 의견
-
현재 주목할 만한 모델들:
- Miqu 70B: 일반 대화용
- Deepseed 33B: 코딩용
- Yi 34B: 32K 컨텍스트 이상의 대화용
- 이들 모델의 파인튜닝 버전들도 존재
- 34B-70B 범위의 다른 모델들도 있으나, Qwen 모델은 인상적이지 않음
- Llama 70B, Mixtral, Grok 모델은 차트에서 보이지만 최신 기술(SOTA)로 보기 어려움, 단 Mixtral은 배치 사이즈 1의 속도에서 뛰어남
-
모델 카드 및 리소스 요구 사항:
- 모델은 약 264GB의 RAM 필요
- 매개변수 수 대신 (GPU RAM + CPU RAM) 총량과 평가 메트릭을 추적하는 전환 시점에 대한 궁금증
- 예를 들어, float32를 사용하는 7B 매개변수 모델이 float4를 사용하는 동일 매개변수 모델보다 성능이 우수할 가능성이 높음
- 한 GPU에 맞도록 최근 출시된 우수 모델을 양자화하는 사례들이 있으나, 양자화된 모델은 원본과 다른 모델이므로 메트릭을 다시 실행해야 함
-
대규모 언어 모델(LLM)의 수렴성:
- 모든 LLM 모델이 동일한 데이터로 훈련될 때 특정 지점으로 수렴한다는 증거
- 작업 성능에 대한 주장은 그저 주장일 뿐, 다음 Llama나 Mixtral 반복은 수렴할 것
- LLM은 리눅스/윈도우 또는 iOS/안드로이드처럼 기초 모델에서 큰 차이가 없이 진화하는 것으로 보임
-
혼합 양자화 및 MoE 오프로딩 기대:
- Mixed Quantization with MQQ와 MoE Offloading을 통해 10GB VRAM의 rtx3080에서 Mistral 8x7B를 실행할 수 있었음
- 이 방법은 DBRX에도 적용 가능하며 VRAM 요구량을 크게 줄일 수 있음
-
Databricks의 비즈니스 이익:
- Databricks가 오픈 LLM에 수백만 달러를 투자함으로써 얻을 비즈니스 이점에 대한 호기심
-
차트 비교 및 평가:
- LLaMa2의 Human Eval 점수를 차트에 넣고 Code Llama Instruct 70b와 비교하지 않는 것은 차트 범죄
- DBRX는 Code Llama Instruct의 67.8을 크게 앞서지는 않지만 여전히 뛰어남
-
새 GPU 구매 계획 및 VRAM 요구 사항:
- 16GB VRAM GPU가 70GB 모델을 잘 실행할 수 있는지, 12GB VRAM GPU보다 눈에 띄게 더 잘 실행하는지에 대한 질문
- Ollama는 로컬에서 잘 실행되며, mixtral(7B, 3.4GB)은 1080ti에서 잘 작동하지만, 24.6GB 버전은 약간 느리고 시작 시간이 눈에 띄게 걸림
-
베이스 모델 승인에 대한 불만:
- 베이스 모델에 대한 승인이 매우 개방적이지 않은 느낌
- 많은 사람들이 다운로드 기회를 기다리고 있는 반면, instruct 모델은 즉시 승인됨
- 베이스 모델은 파인튜닝에 더 흥미로움
-
훈련 효율성 개선:
- LLM 사전 훈련 파이프라인이 지난 10개월 동안 거의 4배 더 계산 효율적이 되었다는 내용
- 훈련 비용이 매우 높기 때문에 이러한 개선은 환영할 만하며, 무어의 법칙을 따를 것으로 기대됨
-
코딩 평가의 오염 가능성:
- 훈련 데이터에 의해 코딩 평가가 오염될 수 있음
- 이러한 점수 인플레이션을 피하기 위한 표준 방법에 대한 질문