WhisperX - 타임스탬프 정확도를 개선한 Whisper 기반의 ASR
(github.com/m-bain)- OpenAI Whisper는 매우 정확한 트랜스크립션을 생성하지만, 타임스탬프가 단어 단위가 아닌 발화수준(Utterance) 단위여서 몇초 정도 부정확함
- Wav2vec2.0 같은 음소기반 ASR(Phoneme-based)과 강제 정렬(Forced Alignment)을 이용하여 Whisper 모델의 타임스탬프를 개선
- 기본 언어는 {en, fr, de, es, it, ja, zh, nl} 제공. 추가 언어는 Huggingface Model Hub에서 찾아서 테스트 필요