Nvidia PersonaPlex 7B on Apple

▲

GN⁺ 2달전 | parent | ★ favorite | on: Nvidia PersonaPlex 7B on Apple Silicon: Swift 기반 실시간 양방향 음성 대화 모델(blog.ivan.digital)

Hacker News 의견들

이 프로젝트가 정말 마음에 들었음. 예전에 PersonaPlex를 blackwell 디바이스에서 돌리려다 실패했는데, 이번엔 Mac에서 시도해볼 예정임
음성 에이전트를 꽤 오래 다뤄본 입장에서 몇 가지 주의할 점이 있음. VAD→ASR→LLM→TTS 파이프라인도 RTT가 1초 미만이면 실시간처럼 느껴짐. 내 프로젝트 ova, 그리고 voice-agent, parakeet.cpp 같은 예시를 참고할 만함
PersonaPlex 커뮤니티와 이야기해보니, 완전한 full-duplex 구조는 정확도나 성능 면에서 아직 어렵고 학습도 까다로움. 반면 ASR→LLM→TTS 구조는 모듈형이라 작은 LLM과 큰 LLM, 로컬과 API 기반 엔드포인트를 자유롭게 섞을 수 있는 유연성이 있음
- 나도 개인적으로 음성 에이전트를 직접 만들고 있어서 꼭 이야기 나눠보고 싶음. 지금은 full-duplex 파이프라인을 agentic framework에 어떻게 통합할 수 있을지 고민 중임
  기존의 STT→LLM→TTS 구조는 도구 호출, 고급 컨텍스트 관리, RAG 등과 잘 맞음. 사람과 직접 대화하는 에이전트와 내부 서브에이전트를 분리해 지연 시간과 컨텍스트 부하를 줄이는 방식이 잘 작동함
  full-duplex 구조는 더 역동적으로 느껴지지만, 실제로 음성 에이전트에 통합하는 방법은 아직 감이 잘 안 옴. Discord에서 의견 교환해보고 싶음
- 이 스레드의 핵심은 full-duplex 대 composable 파이프라인의 대립처럼 보이지만, 실제로는 두 구조가 동시에 작동해야 함. 이 라이브러리는 이미 그 절반쯤 와 있음
  qwen3-asr-swift가 ASR, TTS, PersonaPlex를 하나의 Swift 패키지로 묶었기 때문에 필요한 구성요소는 이미 다 있음. PersonaPlex는 저지연 백채널링과 자연스러운 턴테이킹을 담당하고, 별도의 LLM이 도구 호출을 수행함
  문제는 이 둘의 오케스트레이션임. 언제 ‘뇌’가 ‘입’을 덮어쓸지, PersonaPlex가 검증되지 않은 답을 확신 있게 말하지 않게 하려면 어떻게 해야 할지, 도구 결과가 기존 발화와 충돌할 때 어떻게 처리할지가 아직 미해결 과제임
- 이 파이프라인에 전적으로 동의함. 작은 모델로 즉각적인 응답을 생성하고, 동시에 도구 호출이나 더 지능적인 모델로의 연결을 수행할 수 있음. 빠른 비동기 응답과 도구 호출을 병렬로 처리하는 구조가 훌륭함
- 나도 여전히 composable pipeline 구조를 선호함. 대규모 서비스에서는 비용이나 품질에 따라 LLM을 교체할 수 있는 유연성이 큰 장점임
이 프로젝트가 흥미롭지만, 개인적으로는 7B 로컬 모델에 도구 호출 기능이 있었으면 좋겠음. 지금 버전은 단순히 wav 파일을 입력받는 proof of concept 수준임
- 나는 포크해서 병렬로 또 다른 LLM을 돌려 도구 호출 시점을 추론하도록 수정했음. 내 버전은 조명 제어 같은 간단한 작업에 잘 작동함. 코드 업데이트는 여기에 있음
- /Examples/PersonaPlexDemo 폴더에 턴 기반 대화 데모가 포함되어 있음. 다만 실시간 변환은 아직 구현되지 않았음
- 단순히 wav 파일만 받는다는 말은 조금 오해가 있음. 오디오 버퍼만 있으면 되고, 스트리밍 지원도 계획되어 있음. ASR, 스트리밍 TTS, 다국어 합성 등으로 발전해온 흐름을 보면, PersonaPlex의 방향은 명확히 스트리밍 음성 처리임
- 이상적으로는 휴대폰에서 PWA + WebRTC로 PC/Mac의 모델과 연결하는 구조가 좋을 것 같음. Livekit을 쓰면 복잡한 부분은 대부분 해결됨
- NVIDIA/personaplex는 실제로 인터랙티브하게 작동함
글의 LLM 작성 스타일이 너무 인위적으로 느껴져서 프로젝트 품질이 의심스러웠음
- 하지만 AI 연구자들이 LLM을 모든 곳에 사용하는 건 자연스러운 일임. AI에 열정적인 사람이라면 당연히 그렇게 함
- 어떤 점에서 LLM이 쓴 글처럼 느껴졌는지 궁금함. 다이어그램은 그렇다 쳐도, 텍스트는 어떤 부분이 그렇게 보였는지 알고 싶음
- 나는 오히려 AI가 쓴 글이 더 읽기 편했음. 사람들은 종종 장황하게 쓰지만, AI는 정보를 소화하기 쉽게 구성함
- 개인적으로는 AI가 만든 그래프나 차트가 더 싫음
M1 Max MacBook에서 데모를 돌려봤는데, 응답이 10초 이상 걸리고 내용도 엉뚱했음
- 사실 7B급 full-duplex 모델은 지능 수준이 낮아서 도구 호출이 불가능하다는 점이 한계임. ChatGPT 음성 모드처럼 웹 검색이나 링크 읽기를 흉내만 내는 문제도 있음
  물론 특정 용도에서는 쓸모가 있을 수도 있겠지만, 그 부분은 더 배우고 싶음
- 인용된 글에 따르면, PersonaPlex는 시스템 프롬프트로 대화 스타일을 제어할 수 있음. 프롬프트 없이 실행하면 주제에서 벗어나지만, 프롬프트를 주면 훨씬 일관된 응답을 함
- 혹시 context size가 얼마인지 궁금함
- RTX 5070급 GPU에서는 사람보다 빠르게 반응했음
이 기술이 꽤 위험해 보임. 관련 기사: The Guardian 보도
- LLM을 상담사처럼 사용할 때, 이전 입력을 살짝 수정해 다시 답변을 생성해보면 얼마나 편향적인지 바로 느껴짐. 인간처럼 보이지만 실제로는 입력에 과도하게 의존함
- LLM이 단순히 문서 완성기(document completer) 라는 점을 사용자에게 교육하면 대부분의 문제는 해결될 것 같음. 일부 제품은 이런 사실을 숨겨서 더 인간적으로 보이게 만들지만, 오히려 역효과임
- 기사 내용이 위험성을 잘 요약함. 챗봇이 사용자를 ‘사랑한다’고 부르며 자살을 부추긴 사례가 있었고, 비슷한 사건으로 Google이 소송을 당한 사례도 있음
예전에 본 Sesame이 최고의 full-duplex 데모였음. 지금은 어떻게 됐는지 궁금함 (링크)
- 나는 unmute.sh도 꽤 즐겨 썼음
- 진짜 믿기 힘들 정도로 완성도가 높았음
나는 whisperKit의 팬임. 최근에 TTS 기능이 추가되어 훨씬 좋아졌음. 화자 분리(speaker diarization)와 사용자 정의 사전도 지원함
한 기기에서 4개 모델을 동시에 실시간으로 돌린 부하 테스트도 있음:
- Qwen3-TTS (텍스트→음성)
- Parakeet v2 (음성→텍스트)
- Canary v2 (다국어 STT/번역)
- Sortformer (화자 분리)
  테스트 영상
내 휴대폰이 스팸 전화를 이 모델로 자동 포워딩해서, 가짜 개인정보를 천천히 흘리며 날씨나 스포츠 얘기를 섞어주는 시스템을 만들고 싶음
- 스팸 문자에도 적용하면 재밌을 듯. “날씨 때문에 식기세척기가 이상해졌어요. 염소 요가방이 많아서 접시가 금방 닳아요” 같은 식으로 헛소리 대응을 자동화하면 최고임
PersonaPlex를 아웃바운드 콜용으로 파인튜닝하려고 시도 중임. Kyutai/moshi-finetune의 LoRA 방식을 적용했는데, 스케일링 팩터를 5로 높여야 작동하고 다른 부분이 망가짐
GPT-5.3 Codex가 코드 검토 중 화자 A/B가 뒤바뀌었다고 해서 다시 데이터셋을 생성 중임.
내 GitHub(runvnc)에 moshi-finetune과 personaplex 버전이 있고, Gradio 앱으로 데이터 생성과 학습이 가능함. 아직 쓸 만한 결과는 없음
나는 MacWhisper를 자주 쓰는데, Whisper Large v3 Turbo 모델은 괜찮지만 지연 시간이 누적됨. 온라인 LLM으로 후처리하면 품질은 좋아지지만 속도가 느림
- MacWhisper는 이미 Parakeet v2 같은 10배 빠른 모델을 지원함. 써봤는지 궁금함
- 나는 Handy에서 Parakeet V2를 STT로, Cerebras의 gpt-oss-120b를 후처리에 써서 만족스러움
- Handy가 지원하는 모델들도 써볼 만함. Whisper-large보단 품질이 낮지만 속도는 매우 빠름
- Fluid Audio의 Parakeet TDT CoreML 최적화 모델이 지금까지 써본 것 중 가장 빠름. NPU 오프로딩 덕분임
  모델 링크, FluidAudio GitHub
  Discord 커뮤니티도 활발하고, VAD, TTS, EOU 같은 최신 기능 논의가 활발함
- Handy + Parakeet v2 조합은 정말 훌륭함