Llama-3 8B-Instruct 모델 셀프 호스팅

▲

xguru 2024-06-17 | parent | ★ favorite | on: Llama-3 8B-Instruct 모델 셀프 호스팅 비용(blog.lytix.co)

Hacker News 의견

AWS 대신 하드웨어를 자체 호스팅하면 비용이 크게 줄어듦.
- NVidia Tesla T4를 4개 사용하면 약 $3,800의 비용이 듦.
- Llama 3 8b 모델을 사용하면 3090 또는 4090 GPU 하나로 충분함.
- eBay에서 GPU를 구매하면 비용 절감 가능.
Llama 8B 모델은 AWS Bedrock에서 1M 입력 토큰당 $0.40, 출력 토큰당 $0.60로 OpenAI 모델보다 저렴함.
- 서버 구축과 유지보수에 드는 시간과 비용도 고려해야 함.
Jetstream + Maxtext의 가격
- TPU v5e를 사용한 3년 약정 가격은 1M 토큰당 $0.25.
- 온디맨드 가격은 1M 토큰당 약 $0.45.
- Google Next 2024 세션에서 자세한 내용 확인 가능.
NVIDIA의 시장 가치 하락 예상
- LLM 성능이 정체되고, LLM이 상용화되면서 NVIDIA의 시장 가치는 떨어질 가능성이 있음.
- 훈련에 대한 컴퓨팅 수요도 예상보다 빨리 감소할 것임.
비용 분석의 문제점
- 배치 크기 1로 실행하는 것은 비용 분석에 큰 오류를 초래함.
- API 제공자들이 청구하는 비용보다 100배에서 1000배 비쌈.
8B 모델 실행 비용
- 3090과 기본 시스템으로 충분히 8B 모델을 실행 가능.
- OpenAI와 AWS의 비용 차이가 큼 ($1 vs $17).
- AWS가 실제로는 더 저렴할 수 있음.
비용 이해의 문제점
- 단일 동기 요청으로 비용을 이해하는 것은 부적절함.
- ChatGPT는 많은 요청을 병렬로 처리함.
- 더 큰 요청, 동시 요청, 요청 큐잉이 비용을 크게 줄일 수 있음.
LLM 접근 비용
- LLM 접근 비용이 매우 저렴함.
- 기술 발전에 비해 비용이 낮아 기술자들이 기뻐해야 함.
T4는 6년 된 카드로, 3090, 4090, A10, A100 등과 비교하는 것이 더 적절함.