10P by neo 5달전 | favorite | 댓글 1개

WhisperSpeech 개요

  • WhisperSpeech는 Whisper를 역으로 구축하여 만든 오픈 소스 텍스트-투-스피치 시스템임.
  • 이 모델은 강력하면서도 쉽게 커스터마이징할 수 있도록 설계되었으며, 상업적 용도로 안전하게 사용할 수 있음.
  • 현재 모델은 영어 LibreLight 데이터셋을 기반으로 훈련되었으며, 다음 릴리스에서는 다양한 언어를 지원할 예정임.

진행 상황 업데이트 [2024-01-18]

  • 최근 한 주 동안 추론 성능 최적화에 집중함.
  • torch.compile 통합, kv-캐싱 추가, 일부 레이어 조정을 통해 소비자용 4090에서 실시간보다 12배 빠른 속도로 작업 중임.
  • 단일 문장에서 여러 언어를 혼합하는 기능을 추가함.
  • 음성 복제를 쉽게 테스트할 수 있는 방법도 추가함.

진행 상황 업데이트 [2024-01-10]

  • 더 빠르면서도 고품질의 음성을 생성하는 새로운 SD S2A 모델을 배포함.
  • 참조 오디오 파일을 기반으로 한 음성 복제 예제도 추가함.

진행 상황 업데이트 [2023-12-10]

  • 영어와 폴란드어를 지원하는 새로운 모델 3개를 추가함.
  • 새로운 샘플 음성을 제공하며, Colab에서 직접 시도해볼 수 있음.

다운로드

  • Google Colab 링크를 시작점으로 사용하거나 제공된 노트북을 로컬에서 실행할 것을 권장함.
  • 수동 다운로드나 모델을 처음부터 훈련하고 싶다면, HuggingFace에서 WhisperSpeech 사전 훈련 모델과 변환된 데이터셋을 이용할 수 있음.

로드맵

  • 더 큰 감정적인 음성 데이터셋 수집
  • 감정과 억양에 따라 생성을 조절하는 방법 찾기
  • 다양한 언어로 자유롭게 사용 가능한 음성을 수집하기 위한 커뮤니티 노력 창출
  • 최종 다국어 모델 훈련

아키텍처

  • AudioLM, SPEAR TTS, MusicGen과 유사한 일반적인 아키텍처를 가짐.
  • 강력한 오픈 소스 모델을 기반으로 구축: 의미 토큰 생성과 전사를 위한 OpenAI의 Whisper, 음향 모델링을 위한 Meta의 EnCodec, 고품질 보코더로서 Charactr Inc의 Vocos.

감사의 말

  • 이 작업은 Collabora, LAION, Jülich Supercomputing Centre의 후원과 개인 기여자들의 도움으로 가능함.

컨설팅

  • 오픈 소스 및 독점 AI 프로젝트에 대한 도움을 제공할 수 있음.

인용

  • 다양한 뛰어난 오픈 소스 프로젝트와 연구 논문에 의존함.

GN⁺의 의견

  • WhisperSpeech는 음성 합성 분야에서 혁신적인 오픈 소스 프로젝트로, 다양한 언어를 지원하며 상업적 용도로 안전하게 사용할 수 있는 강력한 텍스트-투-스피치 모델을 제공함.
  • 최신 기술을 활용하여 실시간보다 훨씬 빠른 성능을 달성하고, 음성 복제와 같은 고급 기능을 쉽게 테스트할 수 있는 접근성을 갖추고 있음.
  • 이 프로젝트는 커뮤니티 기반으로 발전하고 있으며, 다양한 언어로의 확장과 감정적인 요소를 포함한 음성 생성을 목표로 하고 있어, 음성 기술의 미래에 중요한 역할을 할 것으로 기대됨.
Hacker News 의견
  • Whisper 다국어 ASR 모델 프로젝트

    • Whisper 다국어 ASR 모델은 방대한 데이터로 훈련되어 음성의 의미 내용을 잘 나타내는 인코더 출력을 가짐.
    • 이 인코더는 SPEAR-TTS/VALL-E 등의 모델 아키텍처에서 의미 인코더의 오픈소스 대체품으로 사용 가능.
    • 예측된 음향 토큰은 Vocos 보코더로 업샘플링/노이즈 제거/향상됨.
    • 현재 주요 병목 현상은 적합한 데이터셋을 확보하고 정제하는 데 필요한 인력 부족.
  • WhisperSpeech 개발자의 의견

    • 모델 개선을 위해 몇 달간 열심히 작업했으나 여전히 개선할 여지가 많음.
    • Collabora의 후원으로 진정한 오픈소스 프로젝트로, 개선이나 통합을 원하는 이들에게 도움을 제공하고자 함.
    • 비즈니스 용도로 사용하고자 하는 경우 엔지니어링 지원을 구매할 수 있음.
  • 중국어 음성 합성에 대한 관심

    • 중국어 음성 합성, 특히 억양과 감정 표현에 대한 성능에 관심이 있음.
    • EmotiVoice가 지금까지 본 최고 품질의 오픈소스 모델로, CLI 래퍼를 만들어 플래시카드용 오디오 생성에 사용함.
    • EmotiVoice를 사용하여 GPU로 자신의 목소리를 복제할 수 있지만 아직 테스트하지 않음.
  • Mycroft의 Mimic 3에 대한 언급

    • Mycroft의 Mimic 3는 최신 기술을 사용하지 않지만 여전히 인상적이며 라즈베리 파이에서 실시간으로 음성을 생성할 수 있을 만큼 작음.
    • 목소리 중 일부는 다른 것보다 나으며, WhisperSpeech의 예시와 동등한 수준임.
  • 국제 음성 기호(IPA) 기반 모델에 대한 질문

    • IPA 기반의 모델 개발/진행 상황에 대한 질문.
    • 이 방법은 다른 억양으로 목소리를 바꾸거나 다국어를 지원하는 데 유용할 수 있음.
    • MBROLA 음성과 같은 모델에 대해 한 언어의 음소를 다른 언어의 음소로 매핑하는 것으로 제한적으로 수행 가능.
    • IPA 접근 방식은 음성 품질과 음색의 변화를 더 잘 학습할 수 있게 할 수 있음.
  • Piper를 사용한 맞춤형 목소리 훈련에 대한 관찰

    • Piper를 사용하여 맞춤형 목소리를 훈련하는 비디오를 보고, 데이터셋에 필요한 메타데이터가 소스 오디오 파일의 텍스트에 대한 것임을 알게 됨.
    • Collabora의 훈련 방법은 이 과정을 자동화하고 훈련을 위해 오디오 파일만 필요로 함.
  • 폴란드어 샘플에 대한 평가

    • 폴란드어 샘플이 매우 좋으며, 오디오북 녹음처럼 들림.
  • 목소리 조절 가능성에 대한 질문

    • TTS를 채팅 시스템에 적용하는 데 있어 목소리의 조절 가능성에 대한 관심.
    • 각 사용자마다 고유한 목소리를 가질 수 있도록 가능한 많은 다른 목소리가 필요함.
  • 윈스턴 처칠의 낮은 품질 클립으로 훈련된 데모에 대한 의문

    • 낮은 품질의 오디오 클립으로 훈련된 데모에 대해 '쓰레기 입력, 쓰레기 출력'이라는 의문 제기.
  • TTS에 대한 긍정적인 평가

    • 지금까지 들어본 TTS 중 최고로, 인간처럼 목소리가 변조됨.