모든 LLM 개발자가 알아야 하는 숫자
(github.com/ray-project)- LLM을 사용할 때 중요한 숫자에 대한 정리.
- "간결하게"를 프롬프트에 넣으면 비용을 40~90% 절약 가능.
- GPT-4에 비해 GPT-3.5 Turbo는 가격이 50배 저렴함.
- 벡터 검색을 위해 OpenAI 임베딩을 사용하면 GPT-3.5 Turbo보다 20배 저렴함.
- LLaMa급 LLM을 교육하는 데에는 백만 달러(약 13억 원)가 들어감.
- GPU별 메모리 크기 - V100: 16GB, A10G: 24GB, A100: 40/80GB H100: 80GB
- 보통 모델 크기의 2배의 메모리가 필요함 - 7B = 14GB
- 임베딩 모델은 보통 1GB 이하의 메모리를 사용함
- LLM 요청을 일괄 처리하면 10배 이상 빨라질 수 있음.
- 13B 모델은 토큰당 약 1MB가 필요하여, 요청을 일괄 처리하면 메모리 요구가 크게 증가함.