# Llama-3 8B-Instruct 모델 셀프 호스팅 비용

> Clean Markdown view of GeekNews topic #15387. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=15387](https://news.hada.io/topic?id=15387)
- GeekNews Markdown: [https://news.hada.io/topic/15387.md](https://news.hada.io/topic/15387.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2024-06-17T10:08:01+09:00
- Updated: 2024-06-17T10:08:01+09:00
- Original source: [blog.lytix.co](https://blog.lytix.co/posts/self-hosting-llama-3)
- Points: 15
- Comments: 4

## Summary

EKS에서 호스팅 시 100만 토큰당 약 $17이 소요되지만, 직접 하드웨어를 사용하면 100만 토큰당 비용이 $0.01 이하로 줄어듭니다. 초기 설치 비용과 월간 유지 비용을 고려하면 약 5.5년 내에 손익분기점에 도달할 수 있습니다... 저기요 5.5년은 너무 긴데요.

## Topic Body

- 대규모 언어 모델(LLM) 직접 호스팅 하는 비용은 얼마나 될까?  
- Llama-3 8B-Instruct 모델을 EKS에서 호스팅할 경우, 100만 토큰당 약 $17   
- 같은 작업을 ChatGPT를 사용하면 100만 토큰당 $1   
- 하드웨어를 셀프 호스팅하면 100만 토큰당 비용이 $0.01 이하로 줄어들고, 손익분기점 도달까지 약 5.5년 소요  
  - 4x NVidia Tesla T4 GPU 및 기타 하드웨어 비용($3800) + 월간 비용(전기세 및 기타) $100 으로 계산   
  
##### 최적의 하드웨어를 결정한 과정   
- **테스트 환경**: 모든 테스트는 EKS 클러스터에서 실행됨  
- **첫 번째 시도**: Nvidia Tesla T4 GPU를 사용하는 AWS `g4dn.2xlarge` 인스턴스.  
  - 스펙: 1 NVidia Tesla T4, 32GB 메모리, 8 vCPUs.  
  - 결과: Llama 3의 8B 또는 70B 파라미터 버전 실행 불가.  
  - 문제: OOM(Out of Memory) 발생 및 응답 시간 약 10분 소요.  
  
- **두 번째 시도**: Nvidia Tesla T4 GPU 4개를 사용하는 AWS `g4dn.16xlarge` 인스턴스.  
  - 스펙: 4 NVidia Tesla T4, 192GB 메모리, 48 vCPUs.  
  - 결과: 응답 시간이 10초 이내로 감소.  
  
##### 초기 구현  
- **구현 방법**: Hugging Face의 Llama-3 코드를 복사하여 사용.  
- **비용 계산**:  
  - `g5dn.12xlarge` 인스턴스 사용 비용: 시간당 $3.912.  
  - 월간 비용 계산 시, 100만 토큰당 약 $167.17 비용 발생.  
  - ChatGPT 3.5 Turbo 비용: 100만 토큰당 $1.  
  
##### 문제 해결  
- **문제 인식**: 기존 방법이 잘못되었음을 깨닫고, `vLLM` 사용.  
- **개선 결과**:  
  - API 서버 호스팅을 위해 `ray`와 `vllm` 설치.  
  - `—tensor-parallel-size 4` 옵션으로 4개의 GPU 모두 사용.  
  - 결과: 응답 시간 2044ms로 크게 개선.  
  - 비용 계산 시, 100만 토큰당 약 $17 비용 발생.  
  
##### 대안 접근법  
- **자가 하드웨어 호스팅**:  
  - 필요한 하드웨어: 4x NVidia Tesla T4 GPU, eBay에서 약 $700.  
  - 기타 비용 포함, 총 설치 비용 약 $3,800.  
  - 월간 에너지 비용 약 $50.  
  - 총 월간 비용 약 $100로 계산.  
  - 손익분기점 도달까지 약 66개월 (5.5년) 소요.  
  
##### 결론  
- **장점**: 자가 하드웨어 호스팅 시 비용 절감 가능.  
- **단점**: 하드웨어 관리 및 스케일링 필요  
  - 100% 활용 가정이 비현실적이므로 실제 상황에 맞게 평가 필요.

## Comments


### Comment 26349

- Author: iolothebard
- Created: 2024-06-17T21:57:16+09:00
- Points: 1

모델 구축하는것도 아니고  
Llama 8B로 추론만 하는데 장비가 과하네요.  
24G gpu(3090이나 4090)이면 충분(200~300만) 한달 전기요금 3만원 정도면 충분.  
써놓고 보니 밑에 있네요 ㅎ

### Comment 26326

- Author: wedding
- Created: 2024-06-17T11:45:19+09:00
- Points: 1

5.5년이면 기네요..

### Comment 26322

- Author: ragingwind
- Created: 2024-06-17T10:35:05+09:00
- Points: 1

8B 를 토이레벨 이상으로 가능한가요?

### Comment 26320

- Author: xguru
- Created: 2024-06-17T10:09:02+09:00
- Points: 2

##### [Hacker News 의견](https://news.ycombinator.com/item?id=40681784)   
  
- AWS 대신 하드웨어를 자체 호스팅하면 비용이 크게 줄어듦.  
  - NVidia Tesla T4를 4개 사용하면 약 $3,800의 비용이 듦.  
  - Llama 3 8b 모델을 사용하면 3090 또는 4090 GPU 하나로 충분함.  
  - eBay에서 GPU를 구매하면 비용 절감 가능.  
- Llama 8B 모델은 AWS Bedrock에서 1M 입력 토큰당 $0.40, 출력 토큰당 $0.60로 OpenAI 모델보다 저렴함.  
  - 서버 구축과 유지보수에 드는 시간과 비용도 고려해야 함.  
- Jetstream + Maxtext의 가격  
  - TPU v5e를 사용한 3년 약정 가격은 1M 토큰당 $0.25.  
  - 온디맨드 가격은 1M 토큰당 약 $0.45.  
  - Google Next 2024 세션에서 자세한 내용 확인 가능.  
- NVIDIA의 시장 가치 하락 예상   
  - LLM 성능이 정체되고, LLM이 상용화되면서 NVIDIA의 시장 가치는 떨어질 가능성이 있음.  
  - 훈련에 대한 컴퓨팅 수요도 예상보다 빨리 감소할 것임.  
- 비용 분석의 문제점  
  - 배치 크기 1로 실행하는 것은 비용 분석에 큰 오류를 초래함.  
  - API 제공자들이 청구하는 비용보다 100배에서 1000배 비쌈.  
- 8B 모델 실행 비용  
  - 3090과 기본 시스템으로 충분히 8B 모델을 실행 가능.  
  - OpenAI와 AWS의 비용 차이가 큼 ($1 vs $17).  
  - AWS가 실제로는 더 저렴할 수 있음.  
- 비용 이해의 문제점  
  - 단일 동기 요청으로 비용을 이해하는 것은 부적절함.  
  - ChatGPT는 많은 요청을 병렬로 처리함.  
  - 더 큰 요청, 동시 요청, 요청 큐잉이 비용을 크게 줄일 수 있음.  
- LLM 접근 비용  
  - LLM 접근 비용이 매우 저렴함.  
  - 기술 발전에 비해 비용이 낮아 기술자들이 기뻐해야 함.  
- T4는 6년 된 카드로, 3090, 4090, A10, A100 등과 비교하는 것이 더 적절함.