구글 Universal Speech Model - 모든 언어의 음성인식을 위한 모델
(sites.research.google)- 20억개 파라미터 모델로 1200만 시간의 음성, 280억개의 문장, 300개의 언어로 학습
- 잘 알려진 언어부터 소수가 사용하는 언어까지 모두 음성인식 수행가능
- 2천만명 이하가 사용하여 훈련 데이터를 찾기가 힘든 언어들 까지
- 유튜브의 영상들로 평가 결과, Whisper(OpenAI)보다 더 단어 에러율이 작은 것으로 나타남
Whisper - OpenAI가 오픈소스로 공개한 다국어 음성 인식 시스템(ASR)
OpenAI, Whisper v2 모델 공개
성능이 좋다고는 하지만, 논문과 API만 공개해서요. 오픈소스로 공개한 Whisper가 활용도는 아직 더 좋은듯 합니다.