Lm.rs: 의존성 없는 Rust 기반 최소 CPU L

M2 64GB MacBook에서 1.2G llama3.2-1b-it-q80.lmrs를 실행했을 때 빠르게 작동했으며, CPU 사용량이 13개의 스레드에서 1000%였음
코드 예시를 통해 Transformer의 작동 방식을 설명하는 데 유용할 것 같음
- 라이브러리가 stdout에 출력하지 않도록 개선할 필요가 있음
- "unsafe" 없이 구현할 수 있는지에 대한 의문이 있음
다양한 Rust 도구를 사용하여 모델 로딩 및 기타 LLM 작업을 수행할 수 있음
- Python 의존성을 줄이는 데 도움이 될 수 있음
- 문법 지원 계획이 있는지 궁금함
제목이 명확하지 않음
- "no dependency"라는 표현이 오해를 불러일으킬 수 있음
과거에 비슷한 작업을 했지만 성능이 만족스럽지 않았음
- Rust 구현의 벤치마크가 필요함
- LLM 추론 구현이 프로그래머에게 새로운 "hello world!"가 될 수 있음
Metal/Cuda 지원이 필수적임
Rust 커뮤니티의 열정을 높이 평가함
이 구현들이 모두 CPU에 의존하는지 궁금함
다른 프로젝트와의 비교가 필요함
- Vision 모델을 지원하면 시도해볼 의향이 있음