ExLlamaV2: 일반 GPU에서 로컬 LLMs를 실

▲

GN⁺ 2023-09-14 | parent | ★ favorite | on: ExLlamaV2: 일반 GPU에서 로컬 LLMs를 실행하기 위한 빠른 추론 라이브러리(github.com/turboderp)

Hacker News 의견

기사는 소비자용 GPU에서 언어 모델(LLMs)을 실행할 수 있게 해주는 새로운 추론 라이브러리인 Exllamav2에 대해 논의합니다.
이것은 대형 LLMs가 소비자용 GPU에서 경쟁력 있는 속도로 실행될 수 있는 첫 번째 시기로, GPT-3.5-turbo 또는 GPT-4를 능가할 가능성이 있습니다.
라이브러리는 매개변수를 조정하면서 혼란을 최소화하기 위해 다른 계층이나 모듈을 양자화하는 독특한 방법을 사용합니다.
3090과 4090과 같은 다른 GPU의 성능을 비교하고, 그들이 어떻게 다른 모델을 처리하는지에 대한 관심이 있습니다.
기사는 또한 초기 단계의 ROCm 지원 추가를 언급하며, RTX4090/3090이 7900 시리즈와 어떻게 비교될지에 대한 호기심을 불러일으킵니다.
독자들은 속도 비교와 대형 모델이 최고급 Nvidia 카드와 같은 고급 하드웨어에서 어떻게 작동하는지에 관심이 있습니다.
메모리에서 실행을 위해 여러 카드가 필요한 모델의 성능에 대한 질문이 있습니다.
기사는 "Local LLaMA"이라는 서브레딧에서 릴리스에 대한 토론을 촉발했습니다.
독자들은 모델을 단일 비트 폭으로 축소하는 효과와 그들이 여전히 기능하거나 횡설수설을 만들어내는지에 대해 궁금해합니다.
ELX2의 비용과 혼란 벤치마크에 대한 질문이 있으며, Facebook이 llama v2를 65B가 아닌 70B로 만든 것에 대한 일부 불만이 있습니다.
독자들은 EXL2/GPTQ 양자화에 대한 더 많은 정보를 찾고 있으며, 이것이 이 모델에서 속도 향상의 주요 원인으로 보입니다.
"70B Llama 2"와 ChatGPT 3.5/4.0 사이에 비교가 이루어지고 있으며, 그들의 상대적 성능에 대한 질문이 있습니다.