LLaMa.cpp가 어떻게 가능할까?

▲

GN⁺ 2023-08-16 | parent | ★ favorite | on: LLaMa.cpp가 어떻게 가능할까?(finbarr.ca)

Hacker News 의견

모델을 양자화하는 비용에 대한 기사, 이로 인한 정확도 손실 및 비정상적인 반응 가능성. 그러나 모델의 매개변수가 많을수록 이 손실은 덜 중요해짐.
GPT3의 뛰어난 성능을 강조하는 기사, 이제 단일 서버 랙에서 작동 가능, 이는 작년 대규모 데이터 센터가 필요했던 AI에 비해 큰 개선.
토큰 생성이 직렬이며 대역폭에 제한되지만, 프롬프트 삽입은 그렇지 않고 512+의 배치에서 실행 가능하다는 내용을 지적하는 텍스트.
Llama.cpp는 이제 복잡도에 크게 영향을 미치지 않는 ~4비트 양자화를 가짐. Q6_K는 FP16과 거의 같은 복잡도를 가지지만 훨씬 작음.
Llama.cpp의 진정한 마법은 모델 분할로, 작은 이산 GPU가 프롬프트 삽입과 모델 추론의 일부를 완전히 오프로드할 수 있게 함. 이것은 생성적 AI 영역에서 독특함.
GPU 백엔드(OpenCL, Metal, CUDA, 곧 ROCm 및 Vulkan)는 Llama.cpp를 실행하는 데 선호되는 방법. 이들 없이는 데스크톱에서 70B를, 또는 16GB RAM이 있는 노트북에서 33B를 실행하는 것은 불가능.
Go, Python, 그 외 런타임과의 확장성이 용이함으로써 프로젝트가 칭찬받음. 이를 이용해 Go로 여러 모델을 끌어오고 실행하며, REST API에서 제공하는 도구가 만들어짐.
AVX2가 있는 현대 CPU에서 추론을 실행하는 것은 GPU보다 느리지만, 단일 긴 연속적인 RAM 영역을 가질 수 있다는 이점을 제공. 그러나 4비트로 양자화하고 x86_64 CPU에서 fp32 이외의 것으로 추론을 실행하는 옵션이 없다는 것은 큰 단점.
기사에서는 단일 Pi4 8gig에서 13B 데이터셋, 세 개의 pi4 노드에서 65B 데이터셋의 성공적인 복제를 언급, 이 기법의 접근성을 보여줌.
기사는 대기 시간 숫자를 논할 때 단위를 대충 다루는 것에 대해 비판받음.
기사는 대부분의 작업 부하가 메모리에 제한되어 있을 때 칩 제조업체가 칩에 많은 기능 단위를 포함하는 이유에 대해 질문을 제기함.
기사는 Hacker News 외부에서 흔히 찾을 수 없는 독특한 내용에 대해 칭찬받음.
텍스트는 메모리 제한 토큰 생성의 트랜스포머 디코더에서의 한계를 논하고, 미래의 하드웨어 친화적 모델을 기대함.
기사는 특수 하드웨어가 중요한 메모리 대역폭 병목 현상을 고려하여 왜 그런 방식으로 설계되었는지, 그리고 소프트웨어 패러다임 변화가 이 균형을 바꿀 수 있을지에 대해 의문을 제기함.