Mozilla Common Voice
(voice.mozilla.org)누구나 사용할수 있는 음성인식 기술을 만들고, 사용가능하게 만들기 위해 다양한 언어의 데이터를 모으고 정제하는 오픈소스 음성데이터베이스.
한국어는 아직 데이터가 많이 부족합니다. 참여해서 같이 만들어보아요.
대부분의 회사들이 만드는 음성 데이터셋은 외부에서 사용이 어렵습니다.
그래서 오픈으로 만드는 데이터가 중요합니다. 특히나 한국어는 더더욱.
댓글과 토론
사이트 한국어 번역: https://pontoon.mozilla.org/projects/common-voice/
문장 수집 사이트: https://common-voice.github.io/sentence-collector
사이트 번역이 완료되고, 5000문장 이상 수집되어야 음성 수집, 검증이 가능해지는 것 같습니다. 관심 있으신 분들의 많은 참여 바랍니다.
기존에 공개된 한국어 음성인식 오픈소스는 Kaldi 를 이용한 Zeroth 프로젝트도 있습니다.
( 깃헙 내용으로는 최종 모델은 2018년 7월 버전인듯 하네요 )