WhisperSpeech – Whisper를 역으로 구축한 오픈 소스 음성합성 시스템

(github.com/collabora)

10P by GN⁺ 2024-01-19 | ★ favorite | 댓글 1개

WhisperSpeech 개요

WhisperSpeech는 Whisper를 역으로 구축하여 만든 오픈 소스 텍스트-투-스피치 시스템임.
이 모델은 강력하면서도 쉽게 커스터마이징할 수 있도록 설계되었으며, 상업적 용도로 안전하게 사용할 수 있음.
현재 모델은 영어 LibreLight 데이터셋을 기반으로 훈련되었으며, 다음 릴리스에서는 다양한 언어를 지원할 예정임.

진행 상황 업데이트 [2024-01-18]

최근 한 주 동안 추론 성능 최적화에 집중함.
torch.compile 통합, kv-캐싱 추가, 일부 레이어 조정을 통해 소비자용 4090에서 실시간보다 12배 빠른 속도로 작업 중임.
단일 문장에서 여러 언어를 혼합하는 기능을 추가함.
음성 복제를 쉽게 테스트할 수 있는 방법도 추가함.

진행 상황 업데이트 [2024-01-10]

더 빠르면서도 고품질의 음성을 생성하는 새로운 SD S2A 모델을 배포함.
참조 오디오 파일을 기반으로 한 음성 복제 예제도 추가함.

진행 상황 업데이트 [2023-12-10]

영어와 폴란드어를 지원하는 새로운 모델 3개를 추가함.
새로운 샘플 음성을 제공하며, Colab에서 직접 시도해볼 수 있음.

다운로드

Google Colab 링크를 시작점으로 사용하거나 제공된 노트북을 로컬에서 실행할 것을 권장함.
수동 다운로드나 모델을 처음부터 훈련하고 싶다면, HuggingFace에서 WhisperSpeech 사전 훈련 모델과 변환된 데이터셋을 이용할 수 있음.

로드맵

더 큰 감정적인 음성 데이터셋 수집
감정과 억양에 따라 생성을 조절하는 방법 찾기
다양한 언어로 자유롭게 사용 가능한 음성을 수집하기 위한 커뮤니티 노력 창출
최종 다국어 모델 훈련

아키텍처

AudioLM, SPEAR TTS, MusicGen과 유사한 일반적인 아키텍처를 가짐.
강력한 오픈 소스 모델을 기반으로 구축: 의미 토큰 생성과 전사를 위한 OpenAI의 Whisper, 음향 모델링을 위한 Meta의 EnCodec, 고품질 보코더로서 Charactr Inc의 Vocos.

감사의 말

이 작업은 Collabora, LAION, Jülich Supercomputing Centre의 후원과 개인 기여자들의 도움으로 가능함.

컨설팅

오픈 소스 및 독점 AI 프로젝트에 대한 도움을 제공할 수 있음.

인용

다양한 뛰어난 오픈 소스 프로젝트와 연구 논문에 의존함.

GN⁺의 의견

WhisperSpeech는 음성 합성 분야에서 혁신적인 오픈 소스 프로젝트로, 다양한 언어를 지원하며 상업적 용도로 안전하게 사용할 수 있는 강력한 텍스트-투-스피치 모델을 제공함.
최신 기술을 활용하여 실시간보다 훨씬 빠른 성능을 달성하고, 음성 복제와 같은 고급 기능을 쉽게 테스트할 수 있는 접근성을 갖추고 있음.
이 프로젝트는 커뮤니티 기반으로 발전하고 있으며, 다양한 언어로의 확장과 감정적인 요소를 포함한 음성 생성을 목표로 하고 있어, 음성 기술의 미래에 중요한 역할을 할 것으로 기대됨.

GN⁺ 2024-01-19 [-]

Hacker News 의견

Whisper 다국어 ASR 모델 프로젝트
- Whisper 다국어 ASR 모델은 방대한 데이터로 훈련되어 음성의 의미 내용을 잘 나타내는 인코더 출력을 가짐.
- 이 인코더는 SPEAR-TTS/VALL-E 등의 모델 아키텍처에서 의미 인코더의 오픈소스 대체품으로 사용 가능.
- 예측된 음향 토큰은 Vocos 보코더로 업샘플링/노이즈 제거/향상됨.
- 현재 주요 병목 현상은 적합한 데이터셋을 확보하고 정제하는 데 필요한 인력 부족.
WhisperSpeech 개발자의 의견
- 모델 개선을 위해 몇 달간 열심히 작업했으나 여전히 개선할 여지가 많음.
- Collabora의 후원으로 진정한 오픈소스 프로젝트로, 개선이나 통합을 원하는 이들에게 도움을 제공하고자 함.
- 비즈니스 용도로 사용하고자 하는 경우 엔지니어링 지원을 구매할 수 있음.
중국어 음성 합성에 대한 관심
- 중국어 음성 합성, 특히 억양과 감정 표현에 대한 성능에 관심이 있음.
- EmotiVoice가 지금까지 본 최고 품질의 오픈소스 모델로, CLI 래퍼를 만들어 플래시카드용 오디오 생성에 사용함.
- EmotiVoice를 사용하여 GPU로 자신의 목소리를 복제할 수 있지만 아직 테스트하지 않음.
Mycroft의 Mimic 3에 대한 언급
- Mycroft의 Mimic 3는 최신 기술을 사용하지 않지만 여전히 인상적이며 라즈베리 파이에서 실시간으로 음성을 생성할 수 있을 만큼 작음.
- 목소리 중 일부는 다른 것보다 나으며, WhisperSpeech의 예시와 동등한 수준임.
국제 음성 기호(IPA) 기반 모델에 대한 질문
- IPA 기반의 모델 개발/진행 상황에 대한 질문.
- 이 방법은 다른 억양으로 목소리를 바꾸거나 다국어를 지원하는 데 유용할 수 있음.
- MBROLA 음성과 같은 모델에 대해 한 언어의 음소를 다른 언어의 음소로 매핑하는 것으로 제한적으로 수행 가능.
- IPA 접근 방식은 음성 품질과 음색의 변화를 더 잘 학습할 수 있게 할 수 있음.
Piper를 사용한 맞춤형 목소리 훈련에 대한 관찰
- Piper를 사용하여 맞춤형 목소리를 훈련하는 비디오를 보고, 데이터셋에 필요한 메타데이터가 소스 오디오 파일의 텍스트에 대한 것임을 알게 됨.
- Collabora의 훈련 방법은 이 과정을 자동화하고 훈련을 위해 오디오 파일만 필요로 함.
폴란드어 샘플에 대한 평가
- 폴란드어 샘플이 매우 좋으며, 오디오북 녹음처럼 들림.
목소리 조절 가능성에 대한 질문
- TTS를 채팅 시스템에 적용하는 데 있어 목소리의 조절 가능성에 대한 관심.
- 각 사용자마다 고유한 목소리를 가질 수 있도록 가능한 많은 다른 목소리가 필요함.
윈스턴 처칠의 낮은 품질 클립으로 훈련된 데모에 대한 의문
- 낮은 품질의 오디오 클립으로 훈련된 데모에 대해 '쓰레기 입력, 쓰레기 출력'이라는 의문 제기.
TTS에 대한 긍정적인 평가
- 지금까지 들어본 TTS 중 최고로, 인간처럼 목소리가 변조됨.