5P by xguru 2달전 | favorite | 댓글 2개
  • vLLM과 직접 만든 오토스케일링 GPU 스케줄러를 사용하여 거의 모든 오픈소스 대규모 언어 모델을 실행
    • Llama 3.1 405b, Qwen 2 72b, Gemma 2 27b, Phi-3 등
  • 별다른 설정없이 허깅 페이스 리포지토리 링크를 붙여넣으면 동작 : 모든 Full-weight 및 4-bit AWQ Repo
  • 최대 8개의 Nvidia A100 80Gb GPU를 사용 가능
  • 베타 기간 동안에는 무료로 제공. 베타가 끝나도 멀티테넌트로 동작해서 주요 클라우드 GPU 가격보다 좋을 것