Hacker News 의견

  • AWS 대신 하드웨어를 자체 호스팅하면 비용이 크게 줄어듦.
    • NVidia Tesla T4를 4개 사용하면 약 $3,800의 비용이 듦.
    • Llama 3 8b 모델을 사용하면 3090 또는 4090 GPU 하나로 충분함.
    • eBay에서 GPU를 구매하면 비용 절감 가능.
  • Llama 8B 모델은 AWS Bedrock에서 1M 입력 토큰당 $0.40, 출력 토큰당 $0.60로 OpenAI 모델보다 저렴함.
    • 서버 구축과 유지보수에 드는 시간과 비용도 고려해야 함.
  • Jetstream + Maxtext의 가격
    • TPU v5e를 사용한 3년 약정 가격은 1M 토큰당 $0.25.
    • 온디맨드 가격은 1M 토큰당 약 $0.45.
    • Google Next 2024 세션에서 자세한 내용 확인 가능.
  • NVIDIA의 시장 가치 하락 예상
    • LLM 성능이 정체되고, LLM이 상용화되면서 NVIDIA의 시장 가치는 떨어질 가능성이 있음.
    • 훈련에 대한 컴퓨팅 수요도 예상보다 빨리 감소할 것임.
  • 비용 분석의 문제점
    • 배치 크기 1로 실행하는 것은 비용 분석에 큰 오류를 초래함.
    • API 제공자들이 청구하는 비용보다 100배에서 1000배 비쌈.
  • 8B 모델 실행 비용
    • 3090과 기본 시스템으로 충분히 8B 모델을 실행 가능.
    • OpenAI와 AWS의 비용 차이가 큼 ($1 vs $17).
    • AWS가 실제로는 더 저렴할 수 있음.
  • 비용 이해의 문제점
    • 단일 동기 요청으로 비용을 이해하는 것은 부적절함.
    • ChatGPT는 많은 요청을 병렬로 처리함.
    • 더 큰 요청, 동시 요청, 요청 큐잉이 비용을 크게 줄일 수 있음.
  • LLM 접근 비용
    • LLM 접근 비용이 매우 저렴함.
    • 기술 발전에 비해 비용이 낮아 기술자들이 기뻐해야 함.
  • T4는 6년 된 카드로, 3090, 4090, A10, A100 등과 비교하는 것이 더 적절함.