▲xguru 2024-06-17 | parent | ★ favorite | on: Llama-3 8B-Instruct 모델 셀프 호스팅 비용(blog.lytix.co)Hacker News 의견 AWS 대신 하드웨어를 자체 호스팅하면 비용이 크게 줄어듦. NVidia Tesla T4를 4개 사용하면 약 $3,800의 비용이 듦. Llama 3 8b 모델을 사용하면 3090 또는 4090 GPU 하나로 충분함. eBay에서 GPU를 구매하면 비용 절감 가능. Llama 8B 모델은 AWS Bedrock에서 1M 입력 토큰당 $0.40, 출력 토큰당 $0.60로 OpenAI 모델보다 저렴함. 서버 구축과 유지보수에 드는 시간과 비용도 고려해야 함. Jetstream + Maxtext의 가격 TPU v5e를 사용한 3년 약정 가격은 1M 토큰당 $0.25. 온디맨드 가격은 1M 토큰당 약 $0.45. Google Next 2024 세션에서 자세한 내용 확인 가능. NVIDIA의 시장 가치 하락 예상 LLM 성능이 정체되고, LLM이 상용화되면서 NVIDIA의 시장 가치는 떨어질 가능성이 있음. 훈련에 대한 컴퓨팅 수요도 예상보다 빨리 감소할 것임. 비용 분석의 문제점 배치 크기 1로 실행하는 것은 비용 분석에 큰 오류를 초래함. API 제공자들이 청구하는 비용보다 100배에서 1000배 비쌈. 8B 모델 실행 비용 3090과 기본 시스템으로 충분히 8B 모델을 실행 가능. OpenAI와 AWS의 비용 차이가 큼 ($1 vs $17). AWS가 실제로는 더 저렴할 수 있음. 비용 이해의 문제점 단일 동기 요청으로 비용을 이해하는 것은 부적절함. ChatGPT는 많은 요청을 병렬로 처리함. 더 큰 요청, 동시 요청, 요청 큐잉이 비용을 크게 줄일 수 있음. LLM 접근 비용 LLM 접근 비용이 매우 저렴함. 기술 발전에 비해 비용이 낮아 기술자들이 기뻐해야 함. T4는 6년 된 카드로, 3090, 4090, A10, A100 등과 비교하는 것이 더 적절함.
Hacker News 의견