16P by xguru 12달전 | favorite | 댓글 3개
  • Massively Multilingual Speech
  • 기존 약 100개 언어만 지원하는 음성 인식 모델을 넘어 지구상에 사용되는 7000개 이상의 언어를 향해, 수천개의 언어를 지원하는 단일 음성 모델을 만드는 프로젝트
  • 1100+개 다국어 음성 인식(ASR) 모델 과 음성 합성(TTS) 모델, 4000+개 언어 식별(LID) 모델, 1400+개 언어 사전 학습 모델 등을 제공
  • 사람들이 디바이스내에서 원하는 언어로 정보에 접근하고 사용가능하게 하는 것을 목표
  • 프로젝트의 일환으로 1100개 언어의 각 언어당 평균 32시간 분량의 신약성서 읽기 데이터 세트를 구축했고, 라벨링 되지 않은 다양한 기독교 문서 녹음들을 이용해서 사용 가능 언어를 4000개로 확대

다운로드 가능한 모델 파일들

  • Pretraied 모델 : MMS-300M (3.5GB) 과 MMS-1B (10GB)
  • ASR 음성인식 모델과 딕셔너리 공개: MMS-1B:FL102 (102개 언어, 4.5GB), MMS-1B:L1107 (1107개 언어, 13GB), MMS-1B-all(1162개 언어, 13.7GB)
  • TTS 음성합성 모델 : 1107개 언어별로 생성기와 vocabulary 파일
  • LID 언어 식별 모델 : 126, 256, 512, 1024, 2048, 4017개 모델과 딕셔너리

요즘 음성 인식이나 TTS 모델이 많이 나오고 있군요.
조만간 이 분야도 성능이 크게 올라갈 날이 머지않은 것 같습니다.

그런데 기독교 신자면 음성 인식률이 올라갈까요? 🤔