Pipecat - 오픈 소스 프레임워크 기반 음성 비서

(github.com/pipecat-ai)

2P by GN⁺ 2024-05-14 | ★ favorite | 댓글 1개

Pipecat은 실시간 음성 및 멀티모달 대화형 에이전트를 만들기 위한 오픈소스 Python 프레임워크로, 단일 음성 에이전트부터 여러 전문 에이전트가 핸드오프·병렬 실행·공유 버스로 조율되는 시스템까지 지원함
핵심 설계는 음성 인식, 텍스트 음성 변환, 대화 처리, AI 서비스, 전송 계층을 조합 가능한 파이프라인으로 묶어 개발자가 에이전트 고유 로직에 집중하게 하는 것임
만들 수 있는 대상은 Voice Assistants, 멀티 에이전트 시스템, AI 컴패니언, 음성·영상·이미지 기반 멀티모달 인터페이스, 인터랙티브 스토리텔링, 고객 접수·지원 봇, 구조화된 대화 시스템까지 포함됨
공식 클라이언트 SDK는 JavaScript, React, React Native, Swift, Kotlin, C++, ESP32를 지원하며, 서버 측 서비스는 STT, LLM, TTS, Speech-to-Speech, WebRTC/WebSocket 전송, 비디오, 메모리, 비전·이미지, 오디오 처리, 분석 도구로 확장됨
빠른 시작은 pipecat init quickstart 또는 pipecat init으로 가능하고, 기본 설치는 가볍게 유지되며 서드파티 AI 서비스 지원은 필요한 extras를 추가하는 방식으로 구성함

Pipecat의 역할

Pipecat은 실시간 음성 및 멀티모달 대화형 에이전트를 구축하기 위한 오픈소스 Python 프레임워크임
단일 음성 에이전트뿐 아니라, 전문 에이전트들이 서로 핸드오프, 병렬 fan-out, sidecar 실행, 공유 버스 기반 조율을 수행하는 멀티 에이전트 시스템을 만들 수 있음
오디오, 비디오, AI 서비스, 전송 계층, 대화 파이프라인을 함께 오케스트레이션해 에이전트의 고유 동작 구현에 집중하도록 설계됨
빠르게 시작하려면 pipecat init quickstart를 실행하거나 quickstart guide를 따르면 됨

만들 수 있는 것

Voice Assistants: AI와 자연스럽게 스트리밍 대화를 하는 음성 비서
Multi-Agent Systems: 전문 에이전트가 핸드오프하거나 병렬로 fan-out되거나 공유 버스 위의 sidecar로 동작하는 구조
AI Companions: 코치, 회의 비서, 캐릭터
Multimodal Interfaces: 음성, 비디오, 이미지 등을 다루는 인터페이스
Interactive Storytelling: 생성 미디어 기반 창작 도구
Business Agents: 고객 접수, 지원 봇, 안내형 흐름
Complex Dialog Systems: 구조화된 대화로 로직을 설계하는 시스템

설계 특징

Voice-first 구조로 음성 인식, 텍스트 음성 변환, 대화 처리를 통합함
다양한 AI 서비스와 도구를 연결할 수 있는 플러그형 구조를 제공함
모듈형 컴포넌트로 복잡한 동작을 만드는 조합 가능한 파이프라인을 지원함
각 파이프라인을 에이전트로 다루며, 핸드오프, 병렬 fan-out, sidecar 워커, 분산 배포로 조합할 수 있음
WebSockets나 WebRTC 같은 전송 계층을 통해 초저지연 실시간 상호작용을 목표로 함

생태계와 도구

공식 클라이언트 SDK는 여러 플랫폼에서 Pipecat에 연결하도록 제공됨
- JavaScript, React, React Native
- Swift, Kotlin, C++, ESP32
Pipecat Flows는 상태 관리를 포함한 사전 정의 또는 동적 대화 경로를 Pipecat 안에서 구성하게 해줌
- 동작 예시는 flows examples에서 확인할 수 있음
Voice UI Kit는 음성 AI 애플리케이션을 빠르게 만들기 위한 컴포넌트, 훅, 템플릿 모음임
Pipecat CLI는 pipecat-ai와 함께 제공되며, uv tool install "pipecat-ai[cli]"로 설치함
- pipecat init은 새 프로젝트를 시작하고, Claude Code나 Codex 같은 AI 코딩 어시스턴트가 프로젝트를 만들 수 있도록 설정함
- 실행 가능한 봇을 1분 이내에 스캐폴딩할 수 있으며, 이후 CLI로 에이전트를 모니터링하고 프로덕션에 배포할 수 있음
Whisker는 Pipecat 파이프라인과 프로세서를 위한 실시간 디버거임
Tail은 Pipecat용 터미널 대시보드임
Pipecat Skills는 Claude Code와 함께 프로젝트 스캐폴딩, Pipecat Cloud 배포 등을 지원함
- 설치 명령: claude plugin marketplace add pipecat-ai/skills

지원 서비스 범위

Speech-to-Text는 AssemblyAI, AWS, Azure, Deepgram, Google, Groq Whisper, Mistral, NVIDIA, OpenAI Whisper, Whisper, xAI 등 여러 서비스를 지원함
LLM은 Anthropic, AWS, Azure, Cerebras, DeepSeek, Gemini, Grok, Groq, Mistral, NVIDIA NIM, Ollama, OpenAI, OpenAI Responses, OpenRouter, Perplexity, Qwen, Together AI 등을 포함함
Text-to-Speech는 AWS, Azure, Cartesia, Deepgram, ElevenLabs, Google, Groq, Hume, Kokoro, Mistral, NVIDIA, OpenAI, Piper, Resemble, Rime, Together, XTTS 등과 연결됨
Speech-to-Speech는 AWS Nova Sonic, Gemini Multimodal Live, Grok Voice Agent, OpenAI Realtime, Ultravox를 지원함
전송 계층은 Daily WebRTC, FastAPI Websocket, LiveKit WebRTC, SmallWebRTCTransport, Vonage WebRTC, WebSocket Server, WhatsApp, Local을 포함함
그 밖에 Twilio·Telnyx·Vonage 등 serializer, HeyGen·Tavus·Simli 등 비디오, mem0 메모리, fal·Google Imagen·Moondream 기반 비전·이미지, Silero VAD·Krisp Viva·RNNoise 등 오디오 처리, OpenTelemetry·Sentry 분석 도구를 지원함
전체 목록은 full services documentation에서 확인할 수 있음

설치와 시작

로컬 머신에서 Pipecat을 실행한 뒤 준비되면 에이전트 프로세스를 클라우드로 옮길 수 있음
시작 전 uv 설치가 필요함

curl -LsSf https://astral.sh/uv/install.sh | sh

CLI 기반 빠른 시작은 Pipecat CLI를 설치한 뒤 새 phone 또는 web/mobile 봇을 대화형으로 스캐폴딩함

uv tool install "pipecat-ai[cli]"
pipecat init

수동 설치는 새 프로젝트에서 uv init과 uv add pipecat-ai를 사용하거나 기존 프로젝트에 uv add pipecat-ai를 추가함

uv init my-pipecat-app
cd my-pipecat-app
uv add pipecat-ai

uv add pipecat-ai

환경 파일은 cp env.example .env로 설정함
기본 패키지는 core framework만 포함하며, 서드파티 AI 서비스가 필요하면 extras를 추가함

uv add "pipecat-ai[option,...]"

pip 사용자는 pip install pipecat-ai와 pip install "pipecat-ai[option,...]"로 설치할 수 있음

예제와 개발

Focused examples는 특정 서비스나 개념 1~2개를 보여주는 작은 에이전트 예제임
Example apps는 개발 시작점으로 사용할 수 있는 완성형 애플리케이션임
Pipecat 개발에는 최소 Python 3.11이 필요하고, 권장 버전은 Python 3.12 이상임
저장소 개발 환경은 uv sync --group dev --all-extras --no-extra gstreamer --no-extra local로 설정함
- local, gstreamer 같은 일부 extras는 시스템 의존성이 필요할 수 있음
테스트는 저장소 루트에서 uv run pytest로 실행하며, 특정 테스트는 uv run pytest tests/test_name.py로 실행함

기여와 도움

버그는 GitHub issue로 열고, 기능 아이디어는 Discord discussion에서 시작함
코드 기여는 CONTRIBUTING.md 가이드를 따르며, 문서 개선은 Docs PR로 받을 수 있음
도움을 받을 수 있는 경로는 Discord, docs, X임

GN⁺ 2024-05-14 [-]

Hacker News 의견들

오픈소스 구현이 나와서 반갑고, https://www.retellai.com/, https://fixie.ai/ 같은 스타트업들이 이 영역에 많이 들어오는 걸 봐왔음
결국 늘 음성-음성 모델이 필요해지는데, 현재 접근은 보통 음성→텍스트→텍스트→음성에 에이전트 여러 개가 듣기 1개 + 말하기 1개를 맡는 식으로 보임
최근 발표된 gpt-4o와 어떻게 맞물릴지 기대됨
- 목록에 https://vapi.ai도 추가할 만함. 도구들이 꽤 좋음
  이 분야의 여러 계층과 플레이어를 계속 따라가려 하는 중임
- fixie.ai에서는 SLM, 즉 음성 언어 모델을 작업 중이고, 곧 만져볼 수 있는 걸 공개할 예정임
- 음성-음성 모델은 어떻게 동작하는지 궁금함. 말의 뉘앙스를 잡기 위해 훨씬 더 많은 토큰을 쓰는 방식인지?
훌륭하지만 오픈소스 쪽에도 데모에서 본 것 같은 오디오-오디오 모델이 정말 필요함. 비슷한 걸 아는 사람이 있는지 궁금함
수정: 누군가 하나를 찾음: https://news.ycombinator.com/item?id=40346992
- 지금 작업 중인 Pipecat 예제 대부분은 음성-음성에 초점을 맞추고 있음. 예제들이 그 구현 방법을 안내하고, 호스팅된 스토리텔링 예제도 바로 시험해볼 수 있음: https://storytelling-chatbot.fly.dev/
  README의 예제가 이 점을 더 잘 보여주도록 업데이트하는 게 좋겠음
- 오디오-오디오 모델은 확실히 한 단계 진전이고, 전반적으로 그 방향으로 갈 것 같음
  실시간 음성 AI 맥락에서는 지연이 약 800ms 이하로 내려가면 대부분의 사람과 용례에서 자연스럽게 반응하는 느낌이 남
  GPT-4o 발표 페이지는 오디오 프롬프트에서 첫 토큰까지 평균 약 320ms라고 하는데, 이건 확실히 다음 단계라 매우 흥미로움. 지금 GPT-4 Turbo가 포함된 어떤 파이프라인으로도 800ms에 도달하기는 어려워서 큰 의미가 있음
  현재 가장 빠른 전사, 추론, 음성합성 모델을 파이프라인으로 엮으면 첫 토큰까지 약 500ms는 가능함. 예를 들면 Deepgram 전사, Groq Llama-3, Deepgram Aura 음성 조합임
Siri는 2011년 10월, Amazon Alexa는 2014년 11월, Google Assistant 음성 스피커는 2016년 5월에 나왔음
보기에 Siri는 아직도 아무도 쓰고 싶어 하지 않는 엉망인 상태고, Alexa는 직접 써본 적이 없어 말하기 어렵지만, Google Home 스피커와 Android 폰에서는 몇 년째 큰 개선을 못 봤음. 오히려 나빠져서, 예전처럼 AnyList[0]에 항목을 직접 추가할 수 없고 Google Keep만 가능해짐
오래전에 될 줄 알았던 아주 단순한 예로도 “방금 말한 걸 더 크게 반복해줘”나 “부엌과 식당 조명을 꺼줘” 같은 두 단계 요청을 아직 해석하지 못함
운전 중, 침대에 누워 있을 때, 요리 중, 다른 일로 바쁠 때 음성 비서는 꽤 유용한데도 출시 초반 이후 거의 정체된 느낌임. 아마 수익화 가능한 방법을 아무도 찾지 못한 것 같음
소비자용으로 더 나은 음성 비서를 얻으려면 무엇이 필요할까? Willow[1]도 크게 뜨지는 못한 듯함
[0] https://help.anylist.com/articles/google-assistant-overview/
[1] https://heywillow.io/
덧붙이면, 요즘 머릿속에 있던 걸 쏟아내느라 스레드를 가로챈 것 같음. Pipecat은 정말 멋져 보이고 잘되길 바라며, 주말에 실험해볼 시간이 나면 좋겠음
- 주로 Google Home을 쓰지만 Echo Frames도 있어서 Alexa도 꽤 정기적으로 씀. 주 용도는 홈 자동화인데, 이 시나리오에서는 Alexa가 Google Home보다 훨씬 반응성이 좋음
  Google Home이 여러 면에서 나빠진 것 같다는 데 동의함. AnyList를 잘 쓰는 입장에서 그 변화는 특히 답답했음
- 어떤 작업에서는 Siri도 괜찮음. 예를 들면 “x에게 문자 보내줘”, “집에 도착하면 x 하라고 알려줘” 같은 것들임
  인터넷 연결이 없어도 꽤 잘함. 다만 받아쓰기는 예외라, 인터넷이 있을 때가 훨씬 좋음
- 음성 비서가 넘어야 할 질적 도약이 있는데, 지난 18개월 전까지는 그게 불가능했을 것 같은 느낌임. 그래서 제품 자체가 정체된 것도 맞음
  다만 Amazon 입장이라면, 지난 1년 중 어느 시점의 기술 수준에 선을 긋고 그 기반으로 제품 반복 개발을 시작했을지 애매함
- Siri와 Alexa를 둘 다 쓰지만, 제한된 기능만 쓰는 기준으로는 Alexa를 더 많이 쓰고도 Alexa가 Siri보다 나쁘다고 봄
  그래도 Alexa는 “X를 켜고 Y를 꺼줘”, “X를 Y초 동안 켜줘” 같은 식으로 두 가지를 동시에 처리할 수는 있음
  시간이 지나며 더 나빠졌다고 느끼고, 마이크에 먼지가 쌓여 음성 캡처가 나빠질 수 있다는 글을 보고 먼지 제거기를 써봤지만 해결되지 않았음
  앱에서 Alexa가 실제로 캡처한 음성을 들어보니 Echo와 Echo Dot 4세대 모두 마이크 품질이 정말 안 좋음. 지난달 저품질 음원으로 Whisper를 많이 테스트해봤는데, Amazon이 쓰는 것보다 그런 모델이 내 음성을 훨씬 잘 해석할 것 같음
- Alexa, 즉 Amazon Echo Show를 쓰고 용도는 뉴스 브리핑, 날씨 확인, 음악 재생, 타이머 설정 정도임
  Alexa는 엉망이고 계속 더 멍청해지고 있음. 설정을 완전히 무시해서 꺼둔 설정을 다시 켜기도 함
  질문에 답하지 않고 다른 새 기능을 써보겠냐고 묻는 일이 잦고, Flash Briefing 목록에서 명시적으로 제거한 뉴스 채널을 임의로 다시 추가하기도 함
  이렇게까지 나쁜 게 계속 이해되지 않음
https://feycher.com도 방금 만들었고 비슷하지만 실시간 립싱크도 지원함. 관심 있으면 이야기해볼 수 있음
오픈소스 음성 오케스트레이션인 bolna도 만들고 있음: https://github.com/bolna-ai/bolna
OpenAI가 음성 모드에서 쓰는 LiveKit Agents도 오픈소스임:
https://github.com/livekit/agents
음성 활동 감지(VAD) 전반이 매우 흥미롭고, 특히 화자가 여러 명일 때 어떻게 동작하는지 더 배우고 싶음
이걸 써서 전화 통화 실시간 번역을 하려면 어떻게 시작하면 될까?
- Daily가 이제 발신과 착신을 지원함: https://docs.daily.co/guides/products/dial-in-dial-out#main
  즉 봇을 통화에 연결한 뒤 전화번호로 발신하라고 시킬 수 있고, 실제로 그렇게 동작함
- 전화 통화를 왜 실시간 번역하려는지 궁금함. 그리고 Whisper가 있음
방금 발표된 GPT-4o의 실시간 음성이 이런 프로젝트들에 어떤 영향을 줄지 궁금함
실시간 다국어 번역 대화 데모는 정말 놀라웠음
- Pipecat에서 이제는 고대의 관절염 걸린 모델이 된 GPT-4 Turbo를 사용한 번역 데모가 있음 :-) https://github.com/pipecat-ai/pipecat/tree/main/examples/tra...
  GPT-4o 오디오 입력이 API로 제공되는 즉시 Pipecat에 4o 지원을 추가할 예정임. 양방향 실시간 오디오에는 새로운 WebSocket이나 WebRTC 엔드포인트가 필요할 것 같음
- 같은 궁금증이 있음
  대규모 언어 모델과 음성합성, 음성인식 모델을 낮은 지연으로 이어주는 파이프라인을 만드는 것도 괜찮지만, GPT-4o 같은 네이티브 멀티모달 모델과 비교하면 명백히 열세로 보임
  미래는 음성과 말투의 뉘앙스를 이해할 수 있는 음성 네이티브 모델이고, 그 미래가 그렇게 멀지도 않음

답변달기

Pipecat - 오픈 소스 프레임워크 기반 음성 비서

Pipecat의 역할

만들 수 있는 것

설계 특징

생태계와 도구

지원 서비스 범위

설치와 시작

예제와 개발

기여와 도움

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들