5P by xguru 2022-12-31 | favorite | 댓글과 토론
  • OpenAI Whisper는 매우 정확한 트랜스크립션을 생성하지만, 타임스탬프가 단어 단위가 아닌 발화수준(Utterance) 단위여서 몇초 정도 부정확함
  • Wav2vec2.0 같은 음소기반 ASR(Phoneme-based)과 강제 정렬(Forced Alignment)을 이용하여 Whisper 모델의 타임스탬프를 개선
  • 기본 언어는 {en, fr, de, es, it, ja, zh, nl} 제공. 추가 언어는 Huggingface Model Hub에서 찾아서 테스트 필요