GN⁺: Raspberry Pi 5 네 대에서 Deepseek R1 Distill 8B Q40 실행
(github.com/b4rtaz)- 이 프로젝트는 Deepseek R1 Distill 8B Q40 모델을 Raspberry Pi 5 8GB 장치에서 실행하는 방법에 대한 결과를 공유함.
- 여러 대의 Raspberry Pi를 사용하여 모델의 성능을 평가하고 예측
-
평가 및 예측 결과
-
2 x Raspberry Pi 5 8GB
- 평가: 초당 7.70 토큰
- 예측: 초당 3.54 토큰
-
4 x Raspberry Pi 5 8GB
- 평가: 초당 11.68 토큰
- 예측: 초당 6.43 토큰
-
2 x Raspberry Pi 5 8GB
-
기타 정보
- 네트워크가 닫혀 있는 상태에서 테스트가 진행됨.
- 여러 장치를 사용한 클러스터 환경에서의 성능을 확인함.
Hacker News 의견
- Raspberry Pi에서 'Deepseek R1'을 실행하는 발표는 항상 Deepseek의 증류 기술로 수정된 llama 또는 qwen을 실행하는 것과 같은 패턴을 따름
- 데모는 500 토큰 미만에서 질문이 "해결"되는 것을 보여줌
- 실제 세계의 유용한 컨텍스트 길이(8-16k 토큰)에서 "생각" 모델을 다룰 때는 이러한 속도에 도달할 수 없음을 주의해야 함
- 많은 채널을 가진 epyc도 약 4096 컨텍스트 길이 이후에는 2-4 t/s로 감소함
- £320로 4개의 Pi5를 구매할 수 있지만, 중고 12GB 3080을 찾으면 아마도 10배 이상의 토큰 속도를 얻을 수 있음
- 여기서 흥미로운 점은 여러 컴퓨터에 걸쳐 llama 추론을 분산 방식으로 실행할 수 있다는 것임
- 이것은 현대의 Beowulf 클러스터임
- 여러 Raspberry Pi가 병렬로 사용되는 방법을 이해하지 못했음. 누군가가 이 방향으로 안내해 줄 수 있기를 바람
- Mac에서 이 모델을 시도하고 싶다면, 새로운 llm-mlx 플러그인을 사용하여 다음과 같이 실행할 수 있음
-
brew install llm
또는pipx install llm
또는uv tool install llm
-
llm install llm-mlx
-
llm mlx download-model mlx-community/DeepSeek-R1-Distill-Llama-8B
-
llm -m mlx-community/DeepSeek-R1-Distill-Llama-8B 'poem about an otter'
- 방금 실행했을 때 22 토큰/초의 성능을 얻었음
-
- 언제 이 모든 새로운 AI 기술을 "apt-get install" 할 수 있을지 궁금함
- 메모리를 추가하는 것이 도움이 되는지 궁금함. 최근에 16GB RAM을 가진 Rpi 5가 출시되었음
- LLM을 기반으로 한 제품이 Alexa나 Google Home과 유사하게 클라우드에 연결하는 대신 로컬에서 실행되는 LLM이 필요함. 왜 아직 존재하지 않는지 또는 왜 아무도 이 작업을 하지 않는지 모르겠음