WhisperSpeech – Whisper를 역으로 구

▲

GN⁺ 2024-01-19 | parent | ★ favorite | on: WhisperSpeech – Whisper를 역으로 구축한 오픈 소스 음성합성 시스템(github.com/collabora)

Hacker News 의견

Whisper 다국어 ASR 모델 프로젝트
- Whisper 다국어 ASR 모델은 방대한 데이터로 훈련되어 음성의 의미 내용을 잘 나타내는 인코더 출력을 가짐.
- 이 인코더는 SPEAR-TTS/VALL-E 등의 모델 아키텍처에서 의미 인코더의 오픈소스 대체품으로 사용 가능.
- 예측된 음향 토큰은 Vocos 보코더로 업샘플링/노이즈 제거/향상됨.
- 현재 주요 병목 현상은 적합한 데이터셋을 확보하고 정제하는 데 필요한 인력 부족.
WhisperSpeech 개발자의 의견
- 모델 개선을 위해 몇 달간 열심히 작업했으나 여전히 개선할 여지가 많음.
- Collabora의 후원으로 진정한 오픈소스 프로젝트로, 개선이나 통합을 원하는 이들에게 도움을 제공하고자 함.
- 비즈니스 용도로 사용하고자 하는 경우 엔지니어링 지원을 구매할 수 있음.
중국어 음성 합성에 대한 관심
- 중국어 음성 합성, 특히 억양과 감정 표현에 대한 성능에 관심이 있음.
- EmotiVoice가 지금까지 본 최고 품질의 오픈소스 모델로, CLI 래퍼를 만들어 플래시카드용 오디오 생성에 사용함.
- EmotiVoice를 사용하여 GPU로 자신의 목소리를 복제할 수 있지만 아직 테스트하지 않음.
Mycroft의 Mimic 3에 대한 언급
- Mycroft의 Mimic 3는 최신 기술을 사용하지 않지만 여전히 인상적이며 라즈베리 파이에서 실시간으로 음성을 생성할 수 있을 만큼 작음.
- 목소리 중 일부는 다른 것보다 나으며, WhisperSpeech의 예시와 동등한 수준임.
국제 음성 기호(IPA) 기반 모델에 대한 질문
- IPA 기반의 모델 개발/진행 상황에 대한 질문.
- 이 방법은 다른 억양으로 목소리를 바꾸거나 다국어를 지원하는 데 유용할 수 있음.
- MBROLA 음성과 같은 모델에 대해 한 언어의 음소를 다른 언어의 음소로 매핑하는 것으로 제한적으로 수행 가능.
- IPA 접근 방식은 음성 품질과 음색의 변화를 더 잘 학습할 수 있게 할 수 있음.
Piper를 사용한 맞춤형 목소리 훈련에 대한 관찰
- Piper를 사용하여 맞춤형 목소리를 훈련하는 비디오를 보고, 데이터셋에 필요한 메타데이터가 소스 오디오 파일의 텍스트에 대한 것임을 알게 됨.
- Collabora의 훈련 방법은 이 과정을 자동화하고 훈련을 위해 오디오 파일만 필요로 함.
폴란드어 샘플에 대한 평가
- 폴란드어 샘플이 매우 좋으며, 오디오북 녹음처럼 들림.
목소리 조절 가능성에 대한 질문
- TTS를 채팅 시스템에 적용하는 데 있어 목소리의 조절 가능성에 대한 관심.
- 각 사용자마다 고유한 목소리를 가질 수 있도록 가능한 많은 다른 목소리가 필요함.
윈스턴 처칠의 낮은 품질 클립으로 훈련된 데모에 대한 의문
- 낮은 품질의 오디오 클립으로 훈련된 데모에 대해 '쓰레기 입력, 쓰레기 출력'이라는 의문 제기.
TTS에 대한 긍정적인 평가
- 지금까지 들어본 TTS 중 최고로, 인간처럼 목소리가 변조됨.