구글 Universal Speech Model(USM) : 100개 이상의 언어를 지원하는 최첨단 Speech AI
(ai.googleblog.com)- 작년 11월에 시작한 "1,000개 언어 이니셔티브(1000개 언어를 지원하는 머신러닝 모델 만들기)"를 진행중
- 현재 USM은 2B(20억)개의 파라미터로 300개가 넘는 언어, 1200만 시간의 음성, 280억개의 문장으로 훈련됨
- 유튜브에서 자막 생성을 위해 사용. 영어/중국어뿐만 아니라, Amharic, Cebuano, Assamese, Azerbaijani 같은 언어까지 지원
- 목표 달성을 위한 두가지 중요한 과제
- 기존의 감독 학습방법은 확장성이 부족
- 언어를 늘리기 위해서 모델을 효율적으로 생성
- 접근 방식 : Self-supervised learning with fine-tuning(미세 조정을 통한 자기주도 학습)
- 논문과 API(연구자들만 신청가능) 공개