14P by xguru 2023-04-18 | favorite | 댓글과 토론
  • 서버 없이 브라우저에서 LLaMA, Vicuna 같은 LLM을 WASM을 이용하여 구동
  • WebGPU로 가속 하지만, 별도로 Apache TVM이 지원하는 GPU 백엔드들(CUDA, OpenCL, Vulkan)도 지원
  • MLC(Machine Learning Compilation) 기술을 사용