Pi-C.A.R.D
목차
소개
- Pi-card는 라즈베리 파이에서 완전히 실행되는 AI 기반 음성 비서임.
- 일반적인 대화 설정에서 ChatGPT와 같은 표준 LLM이 할 수 있는 모든 일을 수행할 수 있음.
- 카메라가 장착된 경우, Pi-card에게 사진을 찍고, 보이는 것을 설명하고, 그 이미지에 대해 질문할 수 있음.
왜 Pi-card인가?
- Raspberry Pi - C amera A udio R ecognition D evice의 약자임.
- 더 나은 약어를 생각해낼 수 있다면 이슈나 풀 리퀘스트를 제출해달라는 요청이 있음.
어떻게 작동하는가?
- Pi-card는 라즈베리 파이에서 완전히 실행됨.
- 메인 프로그램이 실행되면 시스템은 웨이크 워드를 듣기 시작함.
- 웨이크 워드를 말하면 대화가 시작되며, 대화 중에는 계속해서 웨이크 워드를 반복할 필요가 없음.
- "멈춰", "종료", "안녕"과 같은 말을 할 때까지 명령을 계속 듣게 됨.
- 대화 중에는 시스템이 기억을 유지하여 이전 주제를 반복하거나 자세히 설명할 수 있음.
- 시스템은 완전히 로컬에서 작동하도록 설계되었지만, 외부 API나 서비스를 연결하여 대화를 향상시키거나 외부 장치를 제어할 수 있음.
- 예를 들어, "사진 찍어" 또는 "무엇을 보니"라고 말하면 카메라가 활성화됨.
얼마나 유용한가?
- 이 시스템은 재미있는 프로젝트로 설계되었으며, 어느 정도 유용한 AI 비서임.
- 모든 작업이 로컬에서 이루어지기 때문에 클라우드 기반 시스템만큼 빠르거나 능력이 뛰어나지는 않음.
- 그러나 여전히 많은 개선 가능성이 있음.
왜 앱이 아닌가?
- 완전히 오프라인으로 작동하며 인터넷 연결이 필요 없는 음성 비서를 만들고자 했음.
- 이는 사용자의 프라이버시를 보호하고 사용자의 데이터가 제3자 서버로 전송되지 않도록 하기 위함임.
사용법
- 저장소를 다운로드하고 요구 사항을 설치한 후 다른 설정 지침을 따르면, 다음 명령어로 메인 프로그램을 실행할 수 있음:
python assistant.py
- 프로그램이 실행되면 웨이크 워드를 말하여 비서와 대화를 시작할 수 있음.
- 기본 웨이크 워드는 "hey assistant"이지만,
config.py
파일에서 변경할 수 있음.
하드웨어
- 라즈베리 파이 5 모델 B
- USB 마이크
- 스피커
- 카메라
설정
소프트웨어
- 시스템을 최대한 빠르고 가볍게 유지하기 위해 오디오 전사와 비전 언어 모델의 cpp 구현을 사용함.
- 오디오 전사는 whipser.cpp 라이브러리를, 비전 언어 모델은 llama.cpp 라이브러리를 사용함.
- 각 저장소를 원하는 위치에 클론하고 경로를
config.py
파일에 추가해야 함.
- 클론한 후 각 저장소로 이동하여 모델을 실행하기 위한 설정 지침을 따름.
하드웨어
- 하드웨어 설정은 매우 간단함.
- 라즈베리 파이 5 모델 B, USB 마이크, 스피커, 카메라가 필요함.
- USB 마이크와 스피커는 라즈베리 파이의 USB 포트에 연결할 수 있음.
- 카메라는 라즈베리 파이의 카메라 포트에 연결할 수 있음.
- 사용된 하드웨어:
- 라즈베리 파이 5 키트
- USB 마이크
- 스피커
- 카메라
- 카메라 커넥터
- Pi 5에는 새로운 카메라 포트가 있으므로 새로운 카메라 커넥터가 필요함.
GN⁺의 의견
- Pi-card는 라즈베리 파이를 활용한 흥미로운 프로젝트로, AI와 하드웨어의 결합을 통해 다양한 가능성을 탐구할 수 있음.
- 완전히 오프라인으로 작동하기 때문에 프라이버시 보호 측면에서 큰 장점이 있음.
- 클라우드 기반 시스템에 비해 성능이 떨어질 수 있지만, 로컬에서 실행되므로 데이터 보안이 강화됨.
- 비슷한 기능을 제공하는 다른 프로젝트로는 Mycroft AI와 Jasper가 있음.
- 이 기술을 도입할 때는 하드웨어와 소프트웨어 설정이 다소 복잡할 수 있으므로 충분한 사전 준비가 필요함.