15P by xguru 3달전 | favorite | 댓글 4개
  • 대규모 언어 모델(LLM) 직접 호스팅 하는 비용은 얼마나 될까?
  • Llama-3 8B-Instruct 모델을 EKS에서 호스팅할 경우, 100만 토큰당 약 $17
  • 같은 작업을 ChatGPT를 사용하면 100만 토큰당 $1
  • 하드웨어를 셀프 호스팅하면 100만 토큰당 비용이 $0.01 이하로 줄어들고, 손익분기점 도달까지 약 5.5년 소요
    • 4x NVidia Tesla T4 GPU 및 기타 하드웨어 비용($3800) + 월간 비용(전기세 및 기타) $100 으로 계산

최적의 하드웨어를 결정한 과정

  • 테스트 환경: 모든 테스트는 EKS 클러스터에서 실행됨

  • 첫 번째 시도: Nvidia Tesla T4 GPU를 사용하는 AWS g4dn.2xlarge 인스턴스.

    • 스펙: 1 NVidia Tesla T4, 32GB 메모리, 8 vCPUs.
    • 결과: Llama 3의 8B 또는 70B 파라미터 버전 실행 불가.
    • 문제: OOM(Out of Memory) 발생 및 응답 시간 약 10분 소요.
  • 두 번째 시도: Nvidia Tesla T4 GPU 4개를 사용하는 AWS g4dn.16xlarge 인스턴스.

    • 스펙: 4 NVidia Tesla T4, 192GB 메모리, 48 vCPUs.
    • 결과: 응답 시간이 10초 이내로 감소.

초기 구현

  • 구현 방법: Hugging Face의 Llama-3 코드를 복사하여 사용.
  • 비용 계산:
    • g5dn.12xlarge 인스턴스 사용 비용: 시간당 $3.912.
    • 월간 비용 계산 시, 100만 토큰당 약 $167.17 비용 발생.
    • ChatGPT 3.5 Turbo 비용: 100만 토큰당 $1.

문제 해결

  • 문제 인식: 기존 방법이 잘못되었음을 깨닫고, vLLM 사용.
  • 개선 결과:
    • API 서버 호스팅을 위해 rayvllm 설치.
    • —tensor-parallel-size 4 옵션으로 4개의 GPU 모두 사용.
    • 결과: 응답 시간 2044ms로 크게 개선.
    • 비용 계산 시, 100만 토큰당 약 $17 비용 발생.

대안 접근법

  • 자가 하드웨어 호스팅:
    • 필요한 하드웨어: 4x NVidia Tesla T4 GPU, eBay에서 약 $700.
    • 기타 비용 포함, 총 설치 비용 약 $3,800.
    • 월간 에너지 비용 약 $50.
    • 총 월간 비용 약 $100로 계산.
    • 손익분기점 도달까지 약 66개월 (5.5년) 소요.

결론

  • 장점: 자가 하드웨어 호스팅 시 비용 절감 가능.
  • 단점: 하드웨어 관리 및 스케일링 필요
    • 100% 활용 가정이 비현실적이므로 실제 상황에 맞게 평가 필요.

Hacker News 의견

  • AWS 대신 하드웨어를 자체 호스팅하면 비용이 크게 줄어듦.
    • NVidia Tesla T4를 4개 사용하면 약 $3,800의 비용이 듦.
    • Llama 3 8b 모델을 사용하면 3090 또는 4090 GPU 하나로 충분함.
    • eBay에서 GPU를 구매하면 비용 절감 가능.
  • Llama 8B 모델은 AWS Bedrock에서 1M 입력 토큰당 $0.40, 출력 토큰당 $0.60로 OpenAI 모델보다 저렴함.
    • 서버 구축과 유지보수에 드는 시간과 비용도 고려해야 함.
  • Jetstream + Maxtext의 가격
    • TPU v5e를 사용한 3년 약정 가격은 1M 토큰당 $0.25.
    • 온디맨드 가격은 1M 토큰당 약 $0.45.
    • Google Next 2024 세션에서 자세한 내용 확인 가능.
  • NVIDIA의 시장 가치 하락 예상
    • LLM 성능이 정체되고, LLM이 상용화되면서 NVIDIA의 시장 가치는 떨어질 가능성이 있음.
    • 훈련에 대한 컴퓨팅 수요도 예상보다 빨리 감소할 것임.
  • 비용 분석의 문제점
    • 배치 크기 1로 실행하는 것은 비용 분석에 큰 오류를 초래함.
    • API 제공자들이 청구하는 비용보다 100배에서 1000배 비쌈.
  • 8B 모델 실행 비용
    • 3090과 기본 시스템으로 충분히 8B 모델을 실행 가능.
    • OpenAI와 AWS의 비용 차이가 큼 ($1 vs $17).
    • AWS가 실제로는 더 저렴할 수 있음.
  • 비용 이해의 문제점
    • 단일 동기 요청으로 비용을 이해하는 것은 부적절함.
    • ChatGPT는 많은 요청을 병렬로 처리함.
    • 더 큰 요청, 동시 요청, 요청 큐잉이 비용을 크게 줄일 수 있음.
  • LLM 접근 비용
    • LLM 접근 비용이 매우 저렴함.
    • 기술 발전에 비해 비용이 낮아 기술자들이 기뻐해야 함.
  • T4는 6년 된 카드로, 3090, 4090, A10, A100 등과 비교하는 것이 더 적절함.

모델 구축하는것도 아니고
Llama 8B로 추론만 하는데 장비가 과하네요.
24G gpu(3090이나 4090)이면 충분(200~300만) 한달 전기요금 3만원 정도면 충분.
써놓고 보니 밑에 있네요 ㅎ

5.5년이면 기네요..

8B 를 토이레벨 이상으로 가능한가요?