11P by xguru 3달전 | favorite | 댓글 3개
  • WhisperLive 및 WhisperSpeech의 기능을 기반으로 Mistral LLM과 연동하여 AI와의 원활한 대화를 제공
    • WhisperLive : OpenAI의 Whisper를 거의 실시간으로 동작하도록 구현하여 음성을 텍스트로 변환
    • WhisperSpeech : Whisper를 반전시켜서 구축한 TTS 시스템
  • LLM과 Whisper는 모두 TensorRT 엔진으로 효율적으로 실행되도록 최적화되어 성능과 실시간 처리 기능을 극대화하고, WhiperSpeech는 torch.compile로 최적화

실시간 번역이 되면 빠르고 좋겠네요.

Hacker News 의견

  • 대화형 시나리오가 잘 작동하기 위해 필요한 두 가지 기능:
    • 중단 기능: 사용자가 "잠깐만"이라고 말할 때 LLM이 일시 중지할 수 있어야 함.
    • 특정 신호에 반응: 사용자가 "너는 어떻게 생각해?"와 같은 특정 신호를 기다렸다가 반응해야 함.
    • 이 두 가지 기능에 더해 낮은 지연 시간이 중요하며, 마치 다른 사람과 대화하는 것처럼 느껴져야 함.
  • WhisperFusion, WhisperLive, WhisperSpeech와 같은 프로젝트에 대해 관심을 표현하며, 각 시스템의 지연 시간과 WhisperLive의 WER(Word Error Rate) 수치에 대해 궁금해함. 이러한 모델에 대한 중요한 정보가 부족한 것 같다고 언급함.
  • 프로젝트가 훌륭하지만 주로 패키징 문제라고 지적:
    • 많은 Python 애플리케이션들이 setuptools의 절반을 느리고 버그가 많은 방식으로 구현하고 있음을 비판함.
    • TensorRT가 핵심 기능을 "예제" 디렉토리에 배포하는 것에 대해 의문을 제기함.
    • huggingface_cli에 대해, 이미 이름으로 무언가를 다운로드할 수 있는 방법이 있으며(PyPi 인덱스 등), 이를 모델에 적용하는 것이 더 나을 수 있음을 언급함.
  • Vocode 프로젝트에 대한 논의를 회상하며, 10개월 전에 이에 대한 토론이 있었고, 데모를 사용해보고 인상 깊었다고 언급함. 현재 개발이나 생산 환경에서 사용하는 사람이 있는지 궁금해함.
  • 한 사용자는 전용 앱으로 이 기술을 이식하여 화면에 있는 내용과 텍스트를 인식하고 거의 실시간으로 도움을 줄 수 있는 어시스턴트를 상상함.
  • Whisper를 스트리밍 전사(transcription)에 잘 사용하는 방법에 대해 궁금해하며, 비슷한 목표를 가진 프로젝트를 소개함.
  • LLM 부분이 TGWUI+llama.cpp 설정과 어떻게 다른지, 또는 유사한지에 대한 요약을 요청함. 특히, 사용자의 하드웨어에서 "초저지연"이 실현되지 않는 것에 대해 의문을 제기함.
  • 사용자는 프로젝트가 완전히 로컬에서 실행되는지, 아니면 OpenAI의 원격 시스템에 API 액세스가 필요한지 물음. 사용자는 OpenAI를 사용하여 TTS와 STT를 구축 중이지만, 단일 명령을 기다리기 위해 끊임없이 오디오 스트림을 OpenAI에 보내고 싶지 않음을 표현함.
  • Siri와 Alexa가 되어야 했던 것이라고 생각하며, 향후 몇 년 동안 이러한 기술이 더 많이 나타날 것으로 예상함. 로컬에서 실행되고 영구적인 기록을 남기지 않는다면, 배경에서의 청취 문제도 해결될 것이라고 언급함.
  • TensorRT를 사용한다고 언급하며, 어떤 GPU가 지원되는지, Jetson에서 실행할 수 있는지에 대해 궁금해함.