DBRX - 새로운 최첨단(SOTA) 오픈 LLM

▲

GN⁺ 2024-03-28 | parent | ★ favorite | on: DBRX - 새로운 최첨단(SOTA) 오픈 LLM(databricks.com)

Hacker News 의견

현재 주목할 만한 모델들:
- Miqu 70B: 일반 대화용
- Deepseed 33B: 코딩용
- Yi 34B: 32K 컨텍스트 이상의 대화용
- 이들 모델의 파인튜닝 버전들도 존재
- 34B-70B 범위의 다른 모델들도 있으나, Qwen 모델은 인상적이지 않음
- Llama 70B, Mixtral, Grok 모델은 차트에서 보이지만 최신 기술(SOTA)로 보기 어려움, 단 Mixtral은 배치 사이즈 1의 속도에서 뛰어남
모델 카드 및 리소스 요구 사항:
- 모델은 약 264GB의 RAM 필요
- 매개변수 수 대신 (GPU RAM + CPU RAM) 총량과 평가 메트릭을 추적하는 전환 시점에 대한 궁금증
- 예를 들어, float32를 사용하는 7B 매개변수 모델이 float4를 사용하는 동일 매개변수 모델보다 성능이 우수할 가능성이 높음
- 한 GPU에 맞도록 최근 출시된 우수 모델을 양자화하는 사례들이 있으나, 양자화된 모델은 원본과 다른 모델이므로 메트릭을 다시 실행해야 함
대규모 언어 모델(LLM)의 수렴성:
- 모든 LLM 모델이 동일한 데이터로 훈련될 때 특정 지점으로 수렴한다는 증거
- 작업 성능에 대한 주장은 그저 주장일 뿐, 다음 Llama나 Mixtral 반복은 수렴할 것
- LLM은 리눅스/윈도우 또는 iOS/안드로이드처럼 기초 모델에서 큰 차이가 없이 진화하는 것으로 보임
혼합 양자화 및 MoE 오프로딩 기대:
- Mixed Quantization with MQQ와 MoE Offloading을 통해 10GB VRAM의 rtx3080에서 Mistral 8x7B를 실행할 수 있었음
- 이 방법은 DBRX에도 적용 가능하며 VRAM 요구량을 크게 줄일 수 있음
Databricks의 비즈니스 이익:
- Databricks가 오픈 LLM에 수백만 달러를 투자함으로써 얻을 비즈니스 이점에 대한 호기심
차트 비교 및 평가:
- LLaMa2의 Human Eval 점수를 차트에 넣고 Code Llama Instruct 70b와 비교하지 않는 것은 차트 범죄
- DBRX는 Code Llama Instruct의 67.8을 크게 앞서지는 않지만 여전히 뛰어남
새 GPU 구매 계획 및 VRAM 요구 사항:
- 16GB VRAM GPU가 70GB 모델을 잘 실행할 수 있는지, 12GB VRAM GPU보다 눈에 띄게 더 잘 실행하는지에 대한 질문
- Ollama는 로컬에서 잘 실행되며, mixtral(7B, 3.4GB)은 1080ti에서 잘 작동하지만, 24.6GB 버전은 약간 느리고 시작 시간이 눈에 띄게 걸림
베이스 모델 승인에 대한 불만:
- 베이스 모델에 대한 승인이 매우 개방적이지 않은 느낌
- 많은 사람들이 다운로드 기회를 기다리고 있는 반면, instruct 모델은 즉시 승인됨
- 베이스 모델은 파인튜닝에 더 흥미로움
훈련 효율성 개선:
- LLM 사전 훈련 파이프라인이 지난 10개월 동안 거의 4배 더 계산 효율적이 되었다는 내용
- 훈련 비용이 매우 높기 때문에 이러한 개선은 환영할 만하며, 무어의 법칙을 따를 것으로 기대됨
코딩 평가의 오염 가능성:
- 훈련 데이터에 의해 코딩 평가가 오염될 수 있음
- 이러한 점수 인플레이션을 피하기 위한 표준 방법에 대한 질문