# WhisperSpeech – Whisper를 역으로 구축한 오픈 소스 음성합성 시스템

> Clean Markdown view of GeekNews topic #12931. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=12931](https://news.hada.io/topic?id=12931)
- GeekNews Markdown: [https://news.hada.io/topic/12931.md](https://news.hada.io/topic/12931.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-01-19T09:54:55+09:00
- Updated: 2024-01-19T09:54:55+09:00
- Original source: [github.com/collabora](https://github.com/collabora/WhisperSpeech)
- Points: 10
- Comments: 1

## Topic Body

### WhisperSpeech 개요  
- WhisperSpeech는 Whisper를 역으로 구축하여 만든 오픈 소스 텍스트-투-스피치 시스템임.  
- 이 모델은 강력하면서도 쉽게 커스터마이징할 수 있도록 설계되었으며, 상업적 용도로 안전하게 사용할 수 있음.  
- 현재 모델은 영어 LibreLight 데이터셋을 기반으로 훈련되었으며, 다음 릴리스에서는 다양한 언어를 지원할 예정임.  
  
### 진행 상황 업데이트 [2024-01-18]  
- 최근 한 주 동안 추론 성능 최적화에 집중함.  
- `torch.compile` 통합, kv-캐싱 추가, 일부 레이어 조정을 통해 소비자용 4090에서 실시간보다 12배 빠른 속도로 작업 중임.  
- 단일 문장에서 여러 언어를 혼합하는 기능을 추가함.  
- 음성 복제를 쉽게 테스트할 수 있는 방법도 추가함.  
  
### 진행 상황 업데이트 [2024-01-10]  
- 더 빠르면서도 고품질의 음성을 생성하는 새로운 SD S2A 모델을 배포함.  
- 참조 오디오 파일을 기반으로 한 음성 복제 예제도 추가함.  
  
### 진행 상황 업데이트 [2023-12-10]  
- 영어와 폴란드어를 지원하는 새로운 모델 3개를 추가함.  
- 새로운 샘플 음성을 제공하며, Colab에서 직접 시도해볼 수 있음.  
  
### 다운로드  
- Google Colab 링크를 시작점으로 사용하거나 제공된 노트북을 로컬에서 실행할 것을 권장함.  
- 수동 다운로드나 모델을 처음부터 훈련하고 싶다면, HuggingFace에서 WhisperSpeech 사전 훈련 모델과 변환된 데이터셋을 이용할 수 있음.  
  
### 로드맵  
- 더 큰 감정적인 음성 데이터셋 수집  
- 감정과 억양에 따라 생성을 조절하는 방법 찾기  
- 다양한 언어로 자유롭게 사용 가능한 음성을 수집하기 위한 커뮤니티 노력 창출  
- 최종 다국어 모델 훈련  
  
### 아키텍처  
- AudioLM, SPEAR TTS, MusicGen과 유사한 일반적인 아키텍처를 가짐.  
- 강력한 오픈 소스 모델을 기반으로 구축: 의미 토큰 생성과 전사를 위한 OpenAI의 Whisper, 음향 모델링을 위한 Meta의 EnCodec, 고품질 보코더로서 Charactr Inc의 Vocos.  
  
### 감사의 말  
- 이 작업은 Collabora, LAION, Jülich Supercomputing Centre의 후원과 개인 기여자들의 도움으로 가능함.  
  
### 컨설팅  
- 오픈 소스 및 독점 AI 프로젝트에 대한 도움을 제공할 수 있음.  
  
### 인용  
- 다양한 뛰어난 오픈 소스 프로젝트와 연구 논문에 의존함.  
  
### GN⁺의 의견  
- WhisperSpeech는 음성 합성 분야에서 혁신적인 오픈 소스 프로젝트로, 다양한 언어를 지원하며 상업적 용도로 안전하게 사용할 수 있는 강력한 텍스트-투-스피치 모델을 제공함.  
- 최신 기술을 활용하여 실시간보다 훨씬 빠른 성능을 달성하고, 음성 복제와 같은 고급 기능을 쉽게 테스트할 수 있는 접근성을 갖추고 있음.  
- 이 프로젝트는 커뮤니티 기반으로 발전하고 있으며, 다양한 언어로의 확장과 감정적인 요소를 포함한 음성 생성을 목표로 하고 있어, 음성 기술의 미래에 중요한 역할을 할 것으로 기대됨.

## Comments


### Comment 22386

- Author: neo
- Created: 2024-01-19T09:54:55+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=39036796) 
- **Whisper 다국어 ASR 모델 프로젝트**
  - Whisper 다국어 ASR 모델은 방대한 데이터로 훈련되어 음성의 의미 내용을 잘 나타내는 인코더 출력을 가짐.
  - 이 인코더는 SPEAR-TTS/VALL-E 등의 모델 아키텍처에서 의미 인코더의 오픈소스 대체품으로 사용 가능.
  - 예측된 음향 토큰은 Vocos 보코더로 업샘플링/노이즈 제거/향상됨.
  - 현재 주요 병목 현상은 적합한 데이터셋을 확보하고 정제하는 데 필요한 인력 부족.

- **WhisperSpeech 개발자의 의견**
  - 모델 개선을 위해 몇 달간 열심히 작업했으나 여전히 개선할 여지가 많음.
  - Collabora의 후원으로 진정한 오픈소스 프로젝트로, 개선이나 통합을 원하는 이들에게 도움을 제공하고자 함.
  - 비즈니스 용도로 사용하고자 하는 경우 엔지니어링 지원을 구매할 수 있음.

- **중국어 음성 합성에 대한 관심**
  - 중국어 음성 합성, 특히 억양과 감정 표현에 대한 성능에 관심이 있음.
  - EmotiVoice가 지금까지 본 최고 품질의 오픈소스 모델로, CLI 래퍼를 만들어 플래시카드용 오디오 생성에 사용함.
  - EmotiVoice를 사용하여 GPU로 자신의 목소리를 복제할 수 있지만 아직 테스트하지 않음.

- **Mycroft의 Mimic 3에 대한 언급**
  - Mycroft의 Mimic 3는 최신 기술을 사용하지 않지만 여전히 인상적이며 라즈베리 파이에서 실시간으로 음성을 생성할 수 있을 만큼 작음.
  - 목소리 중 일부는 다른 것보다 나으며, WhisperSpeech의 예시와 동등한 수준임.

- **국제 음성 기호(IPA) 기반 모델에 대한 질문**
  - IPA 기반의 모델 개발/진행 상황에 대한 질문.
  - 이 방법은 다른 억양으로 목소리를 바꾸거나 다국어를 지원하는 데 유용할 수 있음.
  - MBROLA 음성과 같은 모델에 대해 한 언어의 음소를 다른 언어의 음소로 매핑하는 것으로 제한적으로 수행 가능.
  - IPA 접근 방식은 음성 품질과 음색의 변화를 더 잘 학습할 수 있게 할 수 있음.

- **Piper를 사용한 맞춤형 목소리 훈련에 대한 관찰**
  - Piper를 사용하여 맞춤형 목소리를 훈련하는 비디오를 보고, 데이터셋에 필요한 메타데이터가 소스 오디오 파일의 텍스트에 대한 것임을 알게 됨.
  - Collabora의 훈련 방법은 이 과정을 자동화하고 훈련을 위해 오디오 파일만 필요로 함.

- **폴란드어 샘플에 대한 평가**
  - 폴란드어 샘플이 매우 좋으며, 오디오북 녹음처럼 들림.

- **목소리 조절 가능성에 대한 질문**
  - TTS를 채팅 시스템에 적용하는 데 있어 목소리의 조절 가능성에 대한 관심.
  - 각 사용자마다 고유한 목소리를 가질 수 있도록 가능한 많은 다른 목소리가 필요함.

- **윈스턴 처칠의 낮은 품질 클립으로 훈련된 데모에 대한 의문**
  - 낮은 품질의 오디오 클립으로 훈련된 데모에 대해 '쓰레기 입력, 쓰레기 출력'이라는 의문 제기.

- **TTS에 대한 긍정적인 평가**
  - 지금까지 들어본 TTS 중 최고로, 인간처럼 목소리가 변조됨.