▲GN⁺ 2024-01-19 | parent | ★ favorite | on: WhisperSpeech – Whisper를 역으로 구축한 오픈 소스 음성합성 시스템(github.com/collabora)Hacker News 의견 Whisper 다국어 ASR 모델 프로젝트 Whisper 다국어 ASR 모델은 방대한 데이터로 훈련되어 음성의 의미 내용을 잘 나타내는 인코더 출력을 가짐. 이 인코더는 SPEAR-TTS/VALL-E 등의 모델 아키텍처에서 의미 인코더의 오픈소스 대체품으로 사용 가능. 예측된 음향 토큰은 Vocos 보코더로 업샘플링/노이즈 제거/향상됨. 현재 주요 병목 현상은 적합한 데이터셋을 확보하고 정제하는 데 필요한 인력 부족. WhisperSpeech 개발자의 의견 모델 개선을 위해 몇 달간 열심히 작업했으나 여전히 개선할 여지가 많음. Collabora의 후원으로 진정한 오픈소스 프로젝트로, 개선이나 통합을 원하는 이들에게 도움을 제공하고자 함. 비즈니스 용도로 사용하고자 하는 경우 엔지니어링 지원을 구매할 수 있음. 중국어 음성 합성에 대한 관심 중국어 음성 합성, 특히 억양과 감정 표현에 대한 성능에 관심이 있음. EmotiVoice가 지금까지 본 최고 품질의 오픈소스 모델로, CLI 래퍼를 만들어 플래시카드용 오디오 생성에 사용함. EmotiVoice를 사용하여 GPU로 자신의 목소리를 복제할 수 있지만 아직 테스트하지 않음. Mycroft의 Mimic 3에 대한 언급 Mycroft의 Mimic 3는 최신 기술을 사용하지 않지만 여전히 인상적이며 라즈베리 파이에서 실시간으로 음성을 생성할 수 있을 만큼 작음. 목소리 중 일부는 다른 것보다 나으며, WhisperSpeech의 예시와 동등한 수준임. 국제 음성 기호(IPA) 기반 모델에 대한 질문 IPA 기반의 모델 개발/진행 상황에 대한 질문. 이 방법은 다른 억양으로 목소리를 바꾸거나 다국어를 지원하는 데 유용할 수 있음. MBROLA 음성과 같은 모델에 대해 한 언어의 음소를 다른 언어의 음소로 매핑하는 것으로 제한적으로 수행 가능. IPA 접근 방식은 음성 품질과 음색의 변화를 더 잘 학습할 수 있게 할 수 있음. Piper를 사용한 맞춤형 목소리 훈련에 대한 관찰 Piper를 사용하여 맞춤형 목소리를 훈련하는 비디오를 보고, 데이터셋에 필요한 메타데이터가 소스 오디오 파일의 텍스트에 대한 것임을 알게 됨. Collabora의 훈련 방법은 이 과정을 자동화하고 훈련을 위해 오디오 파일만 필요로 함. 폴란드어 샘플에 대한 평가 폴란드어 샘플이 매우 좋으며, 오디오북 녹음처럼 들림. 목소리 조절 가능성에 대한 질문 TTS를 채팅 시스템에 적용하는 데 있어 목소리의 조절 가능성에 대한 관심. 각 사용자마다 고유한 목소리를 가질 수 있도록 가능한 많은 다른 목소리가 필요함. 윈스턴 처칠의 낮은 품질 클립으로 훈련된 데모에 대한 의문 낮은 품질의 오디오 클립으로 훈련된 데모에 대해 '쓰레기 입력, 쓰레기 출력'이라는 의문 제기. TTS에 대한 긍정적인 평가 지금까지 들어본 TTS 중 최고로, 인간처럼 목소리가 변조됨.
Hacker News 의견
Whisper 다국어 ASR 모델 프로젝트
WhisperSpeech 개발자의 의견
중국어 음성 합성에 대한 관심
Mycroft의 Mimic 3에 대한 언급
국제 음성 기호(IPA) 기반 모델에 대한 질문
Piper를 사용한 맞춤형 목소리 훈련에 대한 관찰
폴란드어 샘플에 대한 평가
목소리 조절 가능성에 대한 질문
윈스턴 처칠의 낮은 품질 클립으로 훈련된 데모에 대한 의문
TTS에 대한 긍정적인 평가