# glhf - (거의) 모든 언어 모델 실행하기

> Clean Markdown view of GeekNews topic #16069. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=16069](https://news.hada.io/topic?id=16069)
- GeekNews Markdown: [https://news.hada.io/topic/16069.md](https://news.hada.io/topic/16069.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2024-07-29T10:06:01+09:00
- Updated: 2024-07-29T10:06:01+09:00
- Original source: [glhf.chat](https://glhf.chat/)
- Points: 5
- Comments: 2

## Summary

vLLM과 오토스케일링 GPU 스케줄러를 사용하여 다양한 오픈소스 대규모 언어 모델을 쉽게 실행해주는 서비스입니다. 허깅 페이스 리포지토리 링크를 붙여넣기만 하면 별다른 설정 없이 동작하며, 최대 8개의 Nvidia A100 80Gb GPU를 사용할 수 있습니다. 베타 기간 동안 무료로 제공되며, 이후에도 주요 클라우드 GPU 가격보다 저렴하게 이용할 수 있습니다. Llama 405B 모델을 돌릴 수 있다고 해서 화제입니다.

## Topic Body

- vLLM과 직접 만든 오토스케일링 GPU 스케줄러를 사용하여 거의 모든 오픈소스 대규모 언어 모델을 실행  
  - Llama 3.1 405b, Qwen 2 72b, Gemma 2 27b, Phi-3 등   
- 별다른 설정없이 허깅 페이스 리포지토리 링크를 붙여넣으면 동작 : 모든 Full-weight 및 4-bit AWQ Repo   
- 최대 8개의 Nvidia A100 80Gb GPU를 사용 가능   
- 베타 기간 동안에는 무료로 제공. 베타가 끝나도 멀티테넌트로 동작해서 주요 클라우드 GPU 가격보다 좋을 것

## Comments


### Comment 27688

- Author: wedding
- Created: 2024-07-30T13:25:55+09:00
- Points: 1

llama 405b 어떻게 써보나 했는데 빠르고 퀄리티도 좋네요

### Comment 27643

- Author: xguru
- Created: 2024-07-29T10:07:01+09:00
- Points: 1

[vLLM: PagedAttention을 이용한 쉽고, 빠르고 저렴한 LLM 서빙](https://news.hada.io/topic?id=9464)