구글 Universal Speech Model - 모든 언어의 음성인식을 위한 모델

xguru · 2023-03-31T10:02:02+09:00

20억개 파라미터 모델로 1200만 시간의 음성, 280억개의 문장, 300개의 언어로 학습 잘 알려진 언어부터 소수가 사용하는 언어까지 모두 음성인식 수행가능 2천만명 이하가 사용하여 훈련 데이터를 찾기가 힘든 언어들 까지 유튜브의 영상들로 평가 결과, Whisper(OpenAI)보다 더 단어 에러율이 작은 것으로 나타남