Hacker News 의견
  • Rust와 WASM에 대한 지지를 표명하면서도 실제 코드는 Rust로 작성된 기본적인 커맨드라인 스크립트에 불과하며, 주된 처리는 WASI-NN 백엔드를 호출하는 단 한 줄의 코드에 의존함. 이 경우 WasmEdge 런타임이 제공하며, WasmEdge는 C++로 작성되었음을 지적.
  • 어플리케이션 개발자에게 이 프로젝트는 배포 가능한 파일로 추론 엔진을 패키징하는 가장 쉬운 방법을 제공함. 모델의 가중치는 이미 이동 가능하며, 필요에 따라 다운로드 가능함.
  • 프로젝트가 단순히 llama.cpp를 래핑하는 것이 아닌가 하는 의문을 제기하며, Rust와 WebGPU를 사용한 ML 프레임워크 개발 경험을 공유함.
  • wasm-nn에 의존하는 프로젝트가 실제로는 휴대성이 없으며, 특정 하드웨어에 대한 지원이 없는 경우 실행이 불가능할 수 있음을 지적함. 이는 WASI의 목적과 맞지 않는 상황임.
  • GGML 플러그인의 Mac OS 빌드가 M1/M2/M3의 신경 처리 엔진이 아닌 GPU에서 Metal API를 사용하여 추론 작업을 수행한다는 내용에 대한 정확성에 의문을 제기함.
  • 변환기 아키텍처를 에지 컴퓨팅에서 더 효율적이고 빠르게 실행하는 방법이 개발될 것이지만, VRAM 요구 사항이 주요 병목 현상이 되어 큰 모델을 로드하는 데 한계에 도달할 수 있음을 우려함.
  • 프로젝트가 오프라인 상태에서 iPhone에서 실행 가능한지에 대한 질문을 함. 이는 인터넷 접속이 불가능한 상황에서 유용할 수 있음.
  • 프로젝트가 다른 언어로 작성된 래퍼를 사용하여 크기나 속도에서 혁신적인 것처럼 마케팅하는 것에 대한 비판을 제시함. 실제로는 llama.cpp에 기반을 둔 프로젝트이며, 추론 속도나 바이너리 크기는 래퍼의 선택에 의해 제한되지 않음.
  • 모델의 훈련된 가중치가 크기의 상당 부분을 차지하는 경우, 정확도를 잃지 않으면서 크기를 어떻게 줄일 수 있는지에 대한 질문을 함.
  • Rust 소스 코드의 핵심은 매우 간단하며, 사용자 입력을 관리하고 대화 내역을 추적하며, 텍스트를 llama2의 채팅 템플릿으로 변환하고 WASI NN API를 사용하여 추론 작업을 수행하는 40줄의 코드로 구성됨.