ExLlamaV2: 일반 GPU에서 로컬 LLMs를 실행하기 위한 빠른 추론 라이브러리

(github.com/turboderp)

3P by GN⁺ 2023-09-14 | ★ favorite | 댓글 1개

3090/4090 같은 GPU에서 로컬 LLM을 실행하도록 설계된 추론 라이브러리
초기 릴리즈이며 코드는 아직 테스트 단계에 있으며, 일부 주요 기능은 아직 구현되지 않음
V1에 비해 ExLlamaV2는 더 빠르고 더 나은 커널, 더 깔끔하고 다양한 코드베이스, 그리고 새로운 양자 형식을 지원
CUDA 함수에 대해 Torch C++ 확장에 의존하며, 이는 런타임에 컴파일됨. 라이브러리가 처음 사용될 때는 10-20초가 걸리지만, 확장은 이후 사용을 위해 캐시됨
V1과 동일한 4비트 GPTQ 모델을 지원하지만, 모델 내에서 양자화 수준을 혼합하여 2비트에서 8비트 사이의 평균 비트율을 달성할 수 있는 새로운 "EXL2" 형식도 지원
양자화에 대한 매개변수 선택은 자동으로 이루어지며, 모델을 양자화하기 위한 스크립트가 제공
또한 몇 가지 EXL2-양자화된 모델이 HuggingFace에 업로드되어 사용자들이 실험해 볼 수 있다고 언급
미래 계획에는 미리 빌드된 확장 기능이 있는 PyPi 패키지, LoRA 지원, 예제 웹 UI, 웹 서버, 그리고 더 많은 샘플러가 포함

▲

GN⁺ 2023-09-14 [-]

Hacker News 의견

기사는 소비자용 GPU에서 언어 모델(LLMs)을 실행할 수 있게 해주는 새로운 추론 라이브러리인 Exllamav2에 대해 논의합니다.
이것은 대형 LLMs가 소비자용 GPU에서 경쟁력 있는 속도로 실행될 수 있는 첫 번째 시기로, GPT-3.5-turbo 또는 GPT-4를 능가할 가능성이 있습니다.
라이브러리는 매개변수를 조정하면서 혼란을 최소화하기 위해 다른 계층이나 모듈을 양자화하는 독특한 방법을 사용합니다.
3090과 4090과 같은 다른 GPU의 성능을 비교하고, 그들이 어떻게 다른 모델을 처리하는지에 대한 관심이 있습니다.
기사는 또한 초기 단계의 ROCm 지원 추가를 언급하며, RTX4090/3090이 7900 시리즈와 어떻게 비교될지에 대한 호기심을 불러일으킵니다.
독자들은 속도 비교와 대형 모델이 최고급 Nvidia 카드와 같은 고급 하드웨어에서 어떻게 작동하는지에 관심이 있습니다.
메모리에서 실행을 위해 여러 카드가 필요한 모델의 성능에 대한 질문이 있습니다.
기사는 "Local LLaMA"이라는 서브레딧에서 릴리스에 대한 토론을 촉발했습니다.
독자들은 모델을 단일 비트 폭으로 축소하는 효과와 그들이 여전히 기능하거나 횡설수설을 만들어내는지에 대해 궁금해합니다.
ELX2의 비용과 혼란 벤치마크에 대한 질문이 있으며, Facebook이 llama v2를 65B가 아닌 70B로 만든 것에 대한 일부 불만이 있습니다.
독자들은 EXL2/GPTQ 양자화에 대한 더 많은 정보를 찾고 있으며, 이것이 이 모델에서 속도 향상의 주요 원인으로 보입니다.
"70B Llama 2"와 ChatGPT 3.5/4.0 사이에 비교가 이루어지고 있으며, 그들의 상대적 성능에 대한 질문이 있습니다.

답변달기