glhf - (거의) 모든 언어 모델 실행하기

(glhf.chat)

5P by xguru 2024-07-29 | ★ favorite | 댓글 2개

vLLM과 직접 만든 오토스케일링 GPU 스케줄러를 사용하여 거의 모든 오픈소스 대규모 언어 모델을 실행
- Llama 3.1 405b, Qwen 2 72b, Gemma 2 27b, Phi-3 등
별다른 설정없이 허깅 페이스 리포지토리 링크를 붙여넣으면 동작 : 모든 Full-weight 및 4-bit AWQ Repo
최대 8개의 Nvidia A100 80Gb GPU를 사용 가능
베타 기간 동안에는 무료로 제공. 베타가 끝나도 멀티테넌트로 동작해서 주요 클라우드 GPU 가격보다 좋을 것

wedding 2024-07-30 [-]

llama 405b 어떻게 써보나 했는데 빠르고 퀄리티도 좋네요

xguru 2024-07-29 [-]

vLLM: PagedAttention을 이용한 쉽고, 빠르고 저렴한 LLM 서빙