- Google Home에서 벗어나 Home Assistant 기반 완전 로컬 음성 비서를 구축한 과정을 단계별로 정리한 사례
-
llama.cpp와 local-first 구성을 사용해 클라우드 의존 없이 빠른 응답과 개인정보 보호를 달성
- 다양한 GPU·모델·STT·TTS 조합을 실험하며 성능과 품질을 비교, 최적 구성을 도출
-
프롬프트 설계와 자동화 스크립트를 통해 날씨·검색·음악 재생 등 실제 생활 기능을 구현
- 결과적으로 프라이버시를 보장하면서도 신뢰성 높은 로컬 음성 비서 환경을 완성
하드웨어 구성
- Home Assistant는 UnRaid NAS에서 실행되며, 음성 서버는 USB4 지원 Beelink MiniPC와 eGPU 인클로저를 사용
- GPU는 RTX 3050~3090, RX 7900XTX 등 다양한 모델을 테스트
- RTX 3090과 RX 7900XTX는 1~2초 응답, RTX 3050은 3초 내외 응답
- 음성 하드웨어는 HA Voice Preview Satellite, Satellite1 Small Squircle Enclosure 2대, Pixel 7a로 구성
모델 및 성능
-
GGML GPT-OSS:20B, Unsloth Qwen3 시리즈, GLM 4.7 Flash (30B) 등 여러 모델을 테스트
- 모든 모델이 기본적인 도구 호출(tool calling) 기능을 지원
- 평가 항목은 다중 기기 제어, 문맥 이해, 오인식 명령 처리, 잘못된 입력 무시 능력 등으로 구성
음성 서버 소프트웨어
-
모델 실행기로는 llama.cpp를 권장
-
음성 입력(STT)
-
Wyoming ONNX ASR (Nvidia Parakeet V2, OpenVINO 브랜치): CPU 추론 시간 약 0.3초
-
Rhasspy Faster Whisper: ONNX CPU 기반으로 상대적으로 느림
-
음성 출력(TTS)
-
Kokoro TTS: 여러 음색 조합 가능, 텍스트 처리 우수
-
Piper (CPU): 다양한 음성 지원, 숫자·주소 처리에는 약점
-
Home Assistant LLM 통합
-
LLM Conversation: 기본 대화 품질 개선
-
LLM Intents: 웹 검색, 장소 검색, 날씨 예보 등 도구 제공
Google Assistant에서 로컬 비서로의 전환
- Google Assistant가 점점 응답 정확도와 기능이 저하되어 대체 필요성 인식
-
프라이버시 문제와 클라우드 장애 시 제어 불가 문제도 주요 전환 요인
초기 시도와 모델 개선
- 초기에 Ollama 기본 모델을 사용했으나 도구 호출 실패가 잦음
-
HuggingFace의 GGUF 고정밀 모델을 사용하면서 성능이 크게 향상
- Wi-Fi 불안정으로 음성 출력을 끊김 없이 처리하기 위해 스트리밍 설정 및 전용 IoT 네트워크 구성
기능 확장과 LLM 프롬프트 설계
- 음성 비서가 날씨, 영업시간, 일반 지식, 음악 재생을 수행하도록 구성
-
llm-intents 통합으로 기능 확장, 그러나 초기 결과는 제한적
-
프롬프트 설계가 핵심 요소로 작용
- 서비스별
# 섹션과 구체적 지시 목록을 추가해 LLM의 도구 호출 정확도 향상
- 불필요한 감탄문·이모지 제거로 TTS 친화적 응답 형식 확보
- ChatGPT를 활용해 반복적으로 프롬프트를 개선
자동화로 문제 해결
- 음악 재생 기능은 LLM이 직접 수행하지 못해 Home Assistant 자동화 스크립트로 보완
- “Play {music}” 명령을 트리거로 하여 요청한 위성 기기에 맞는 media_player에서 음악 재생
- “Stop playing” 명령으로 중지 가능
- 이후 업데이트로 LLM이 자연스럽게 음악 검색·재생을 수행하게 되었으나, 자동화는 여전히 유용한 접근
커스텀 웨이크워드 학습
- 기본 웨이크워드 대신 “Hey Robot” 을 사용
-
microWakeWord-Trainer-Nvidia-Docker로 약 30분간 학습
- 오탐률은 Google Home 수준이며, 자동 음소거 기능으로 개선 가능
최종 결과
- 평균 사용자에게는 다소 복잡하지만, 세밀한 조정이 가능한 로컬 음성 비서 환경 완성
-
프라이버시 보호, 안정적 제어, 사용자 맞춤형 성능 조정이 가능
- 완전한 클라우드 독립형 음성 비서로 신뢰성과 즐거움을 모두 확보