Hacker News 의견
  • 기사는 소비자용 GPU에서 언어 모델(LLMs)을 실행할 수 있게 해주는 새로운 추론 라이브러리인 Exllamav2에 대해 논의합니다.
  • 이것은 대형 LLMs가 소비자용 GPU에서 경쟁력 있는 속도로 실행될 수 있는 첫 번째 시기로, GPT-3.5-turbo 또는 GPT-4를 능가할 가능성이 있습니다.
  • 라이브러리는 매개변수를 조정하면서 혼란을 최소화하기 위해 다른 계층이나 모듈을 양자화하는 독특한 방법을 사용합니다.
  • 3090과 4090과 같은 다른 GPU의 성능을 비교하고, 그들이 어떻게 다른 모델을 처리하는지에 대한 관심이 있습니다.
  • 기사는 또한 초기 단계의 ROCm 지원 추가를 언급하며, RTX4090/3090이 7900 시리즈와 어떻게 비교될지에 대한 호기심을 불러일으킵니다.
  • 독자들은 속도 비교와 대형 모델이 최고급 Nvidia 카드와 같은 고급 하드웨어에서 어떻게 작동하는지에 관심이 있습니다.
  • 메모리에서 실행을 위해 여러 카드가 필요한 모델의 성능에 대한 질문이 있습니다.
  • 기사는 "Local LLaMA"이라는 서브레딧에서 릴리스에 대한 토론을 촉발했습니다.
  • 독자들은 모델을 단일 비트 폭으로 축소하는 효과와 그들이 여전히 기능하거나 횡설수설을 만들어내는지에 대해 궁금해합니다.
  • ELX2의 비용과 혼란 벤치마크에 대한 질문이 있으며, Facebook이 llama v2를 65B가 아닌 70B로 만든 것에 대한 일부 불만이 있습니다.
  • 독자들은 EXL2/GPTQ 양자화에 대한 더 많은 정보를 찾고 있으며, 이것이 이 모델에서 속도 향상의 주요 원인으로 보입니다.
  • "70B Llama 2"와 ChatGPT 3.5/4.0 사이에 비교가 이루어지고 있으며, 그들의 상대적 성능에 대한 질문이 있습니다.