이종 엣지에서의 빠르고 휴대 가능한 Llama2 추론

▲

GN⁺ 2023-11-14 | parent | ★ favorite | on: 이종 엣지에서의 빠르고 휴대 가능한 Llama2 추론(secondstate.io)

Hacker News 의견

Rust와 WASM에 대한 지지를 표명하면서도 실제 코드는 Rust로 작성된 기본적인 커맨드라인 스크립트에 불과하며, 주된 처리는 WASI-NN 백엔드를 호출하는 단 한 줄의 코드에 의존함. 이 경우 WasmEdge 런타임이 제공하며, WasmEdge는 C++로 작성되었음을 지적.
어플리케이션 개발자에게 이 프로젝트는 배포 가능한 파일로 추론 엔진을 패키징하는 가장 쉬운 방법을 제공함. 모델의 가중치는 이미 이동 가능하며, 필요에 따라 다운로드 가능함.
프로젝트가 단순히 llama.cpp를 래핑하는 것이 아닌가 하는 의문을 제기하며, Rust와 WebGPU를 사용한 ML 프레임워크 개발 경험을 공유함.
wasm-nn에 의존하는 프로젝트가 실제로는 휴대성이 없으며, 특정 하드웨어에 대한 지원이 없는 경우 실행이 불가능할 수 있음을 지적함. 이는 WASI의 목적과 맞지 않는 상황임.
GGML 플러그인의 Mac OS 빌드가 M1/M2/M3의 신경 처리 엔진이 아닌 GPU에서 Metal API를 사용하여 추론 작업을 수행한다는 내용에 대한 정확성에 의문을 제기함.
변환기 아키텍처를 에지 컴퓨팅에서 더 효율적이고 빠르게 실행하는 방법이 개발될 것이지만, VRAM 요구 사항이 주요 병목 현상이 되어 큰 모델을 로드하는 데 한계에 도달할 수 있음을 우려함.
프로젝트가 오프라인 상태에서 iPhone에서 실행 가능한지에 대한 질문을 함. 이는 인터넷 접속이 불가능한 상황에서 유용할 수 있음.
프로젝트가 다른 언어로 작성된 래퍼를 사용하여 크기나 속도에서 혁신적인 것처럼 마케팅하는 것에 대한 비판을 제시함. 실제로는 llama.cpp에 기반을 둔 프로젝트이며, 추론 속도나 바이너리 크기는 래퍼의 선택에 의해 제한되지 않음.
모델의 훈련된 가중치가 크기의 상당 부분을 차지하는 경우, 정확도를 잃지 않으면서 크기를 어떻게 줄일 수 있는지에 대한 질문을 함.
Rust 소스 코드의 핵심은 매우 간단하며, 사용자 입력을 관리하고 대화 내역을 추적하며, 텍스트를 llama2의 채팅 템플릿으로 변환하고 WASI NN API를 사용하여 추론 작업을 수행하는 40줄의 코드로 구성됨.