GN⁺: ExLlamaV2: 일반 GPU에서 로컬 LLMs를 실행하기 위한 빠른 추론 라이브러리
(github.com/turboderp)- 3090/4090 같은 GPU에서 로컬 LLM을 실행하도록 설계된 추론 라이브러리
- 초기 릴리즈이며 코드는 아직 테스트 단계에 있으며, 일부 주요 기능은 아직 구현되지 않음
- V1에 비해 ExLlamaV2는 더 빠르고 더 나은 커널, 더 깔끔하고 다양한 코드베이스, 그리고 새로운 양자 형식을 지원
- CUDA 함수에 대해 Torch C++ 확장에 의존하며, 이는 런타임에 컴파일됨. 라이브러리가 처음 사용될 때는 10-20초가 걸리지만, 확장은 이후 사용을 위해 캐시됨
- V1과 동일한 4비트 GPTQ 모델을 지원하지만, 모델 내에서 양자화 수준을 혼합하여 2비트에서 8비트 사이의 평균 비트율을 달성할 수 있는 새로운 "EXL2" 형식도 지원
- 양자화에 대한 매개변수 선택은 자동으로 이루어지며, 모델을 양자화하기 위한 스크립트가 제공
- 또한 몇 가지 EXL2-양자화된 모델이 HuggingFace에 업로드되어 사용자들이 실험해 볼 수 있다고 언급
- 미래 계획에는 미리 빌드된 확장 기능이 있는 PyPi 패키지, LoRA 지원, 예제 웹 UI, 웹 서버, 그리고 더 많은 샘플러가 포함
Hacker News 의견
- 기사는 소비자용 GPU에서 언어 모델(LLMs)을 실행할 수 있게 해주는 새로운 추론 라이브러리인 Exllamav2에 대해 논의합니다.
- 이것은 대형 LLMs가 소비자용 GPU에서 경쟁력 있는 속도로 실행될 수 있는 첫 번째 시기로, GPT-3.5-turbo 또는 GPT-4를 능가할 가능성이 있습니다.
- 라이브러리는 매개변수를 조정하면서 혼란을 최소화하기 위해 다른 계층이나 모듈을 양자화하는 독특한 방법을 사용합니다.
- 3090과 4090과 같은 다른 GPU의 성능을 비교하고, 그들이 어떻게 다른 모델을 처리하는지에 대한 관심이 있습니다.
- 기사는 또한 초기 단계의 ROCm 지원 추가를 언급하며, RTX4090/3090이 7900 시리즈와 어떻게 비교될지에 대한 호기심을 불러일으킵니다.
- 독자들은 속도 비교와 대형 모델이 최고급 Nvidia 카드와 같은 고급 하드웨어에서 어떻게 작동하는지에 관심이 있습니다.
- 메모리에서 실행을 위해 여러 카드가 필요한 모델의 성능에 대한 질문이 있습니다.
- 기사는 "Local LLaMA"이라는 서브레딧에서 릴리스에 대한 토론을 촉발했습니다.
- 독자들은 모델을 단일 비트 폭으로 축소하는 효과와 그들이 여전히 기능하거나 횡설수설을 만들어내는지에 대해 궁금해합니다.
- ELX2의 비용과 혼란 벤치마크에 대한 질문이 있으며, Facebook이 llama v2를 65B가 아닌 70B로 만든 것에 대한 일부 불만이 있습니다.
- 독자들은 EXL2/GPTQ 양자화에 대한 더 많은 정보를 찾고 있으며, 이것이 이 모델에서 속도 향상의 주요 원인으로 보입니다.
- "70B Llama 2"와 ChatGPT 3.5/4.0 사이에 비교가 이루어지고 있으며, 그들의 상대적 성능에 대한 질문이 있습니다.