Llama-3 8B-Instruct 모델 셀프 호스팅 비용
(blog.lytix.co)- 대규모 언어 모델(LLM) 직접 호스팅 하는 비용은 얼마나 될까?
- Llama-3 8B-Instruct 모델을 EKS에서 호스팅할 경우, 100만 토큰당 약 $17
- 같은 작업을 ChatGPT를 사용하면 100만 토큰당 $1
- 하드웨어를 셀프 호스팅하면 100만 토큰당 비용이 $0.01 이하로 줄어들고, 손익분기점 도달까지 약 5.5년 소요
- 4x NVidia Tesla T4 GPU 및 기타 하드웨어 비용($3800) + 월간 비용(전기세 및 기타) $100 으로 계산
최적의 하드웨어를 결정한 과정
-
테스트 환경: 모든 테스트는 EKS 클러스터에서 실행됨
-
첫 번째 시도: Nvidia Tesla T4 GPU를 사용하는 AWS
g4dn.2xlarge
인스턴스.- 스펙: 1 NVidia Tesla T4, 32GB 메모리, 8 vCPUs.
- 결과: Llama 3의 8B 또는 70B 파라미터 버전 실행 불가.
- 문제: OOM(Out of Memory) 발생 및 응답 시간 약 10분 소요.
-
두 번째 시도: Nvidia Tesla T4 GPU 4개를 사용하는 AWS
g4dn.16xlarge
인스턴스.- 스펙: 4 NVidia Tesla T4, 192GB 메모리, 48 vCPUs.
- 결과: 응답 시간이 10초 이내로 감소.
초기 구현
- 구현 방법: Hugging Face의 Llama-3 코드를 복사하여 사용.
-
비용 계산:
-
g5dn.12xlarge
인스턴스 사용 비용: 시간당 $3.912. - 월간 비용 계산 시, 100만 토큰당 약 $167.17 비용 발생.
- ChatGPT 3.5 Turbo 비용: 100만 토큰당 $1.
-
문제 해결
-
문제 인식: 기존 방법이 잘못되었음을 깨닫고,
vLLM
사용. -
개선 결과:
- API 서버 호스팅을 위해
ray
와vllm
설치. -
—tensor-parallel-size 4
옵션으로 4개의 GPU 모두 사용. - 결과: 응답 시간 2044ms로 크게 개선.
- 비용 계산 시, 100만 토큰당 약 $17 비용 발생.
- API 서버 호스팅을 위해
대안 접근법
-
자가 하드웨어 호스팅:
- 필요한 하드웨어: 4x NVidia Tesla T4 GPU, eBay에서 약 $700.
- 기타 비용 포함, 총 설치 비용 약 $3,800.
- 월간 에너지 비용 약 $50.
- 총 월간 비용 약 $100로 계산.
- 손익분기점 도달까지 약 66개월 (5.5년) 소요.
결론
- 장점: 자가 하드웨어 호스팅 시 비용 절감 가능.
-
단점: 하드웨어 관리 및 스케일링 필요
- 100% 활용 가정이 비현실적이므로 실제 상황에 맞게 평가 필요.
모델 구축하는것도 아니고
Llama 8B로 추론만 하는데 장비가 과하네요.
24G gpu(3090이나 4090)이면 충분(200~300만) 한달 전기요금 3만원 정도면 충분.
써놓고 보니 밑에 있네요 ㅎ
Hacker News 의견
- AWS 대신 하드웨어를 자체 호스팅하면 비용이 크게 줄어듦.
- NVidia Tesla T4를 4개 사용하면 약 $3,800의 비용이 듦.
- Llama 3 8b 모델을 사용하면 3090 또는 4090 GPU 하나로 충분함.
- eBay에서 GPU를 구매하면 비용 절감 가능.
- Llama 8B 모델은 AWS Bedrock에서 1M 입력 토큰당 $0.40, 출력 토큰당 $0.60로 OpenAI 모델보다 저렴함.
- 서버 구축과 유지보수에 드는 시간과 비용도 고려해야 함.
- Jetstream + Maxtext의 가격
- TPU v5e를 사용한 3년 약정 가격은 1M 토큰당 $0.25.
- 온디맨드 가격은 1M 토큰당 약 $0.45.
- Google Next 2024 세션에서 자세한 내용 확인 가능.
- NVIDIA의 시장 가치 하락 예상
- LLM 성능이 정체되고, LLM이 상용화되면서 NVIDIA의 시장 가치는 떨어질 가능성이 있음.
- 훈련에 대한 컴퓨팅 수요도 예상보다 빨리 감소할 것임.
- 비용 분석의 문제점
- 배치 크기 1로 실행하는 것은 비용 분석에 큰 오류를 초래함.
- API 제공자들이 청구하는 비용보다 100배에서 1000배 비쌈.
- 8B 모델 실행 비용
- 3090과 기본 시스템으로 충분히 8B 모델을 실행 가능.
- OpenAI와 AWS의 비용 차이가 큼 ($1 vs $17).
- AWS가 실제로는 더 저렴할 수 있음.
- 비용 이해의 문제점
- 단일 동기 요청으로 비용을 이해하는 것은 부적절함.
- ChatGPT는 많은 요청을 병렬로 처리함.
- 더 큰 요청, 동시 요청, 요청 큐잉이 비용을 크게 줄일 수 있음.
- LLM 접근 비용
- LLM 접근 비용이 매우 저렴함.
- 기술 발전에 비해 비용이 낮아 기술자들이 기뻐해야 함.
- T4는 6년 된 카드로, 3090, 4090, A10, A100 등과 비교하는 것이 더 적절함.