Mozilla Common Voice
(voice.mozilla.org)누구나 사용할수 있는 음성인식 기술을 만들고, 사용가능하게 만들기 위해 다양한 언어의 데이터를 모으고 정제하는 오픈소스 음성데이터베이스.
한국어는 아직 데이터가 많이 부족합니다. 참여해서 같이 만들어보아요.
대부분의 회사들이 만드는 음성 데이터셋은 외부에서 사용이 어렵습니다.
그래서 오픈으로 만드는 데이터가 중요합니다. 특히나 한국어는 더더욱.
사이트 한국어 번역: https://pontoon.mozilla.org/projects/common-voice/
문장 수집 사이트: https://common-voice.github.io/sentence-collector
사이트 번역이 완료되고, 5000문장 이상 수집되어야 음성 수집, 검증이 가능해지는 것 같습니다. 관심 있으신 분들의 많은 참여 바랍니다.
제가 똑같은 댓글을 달았다 지웠네요 ㅎㅎㅎ
https://discourse.mozilla.org/t/…
여기에 그렇게 설명이 되어있네요.
앗.. 넵 ㅎㅎ 저도 삭제하려다가 삭제 버튼이 없어서 당황했어요..
관련해서 한국어 코퍼스들이 좀 있던데 저작권 문제 때문에 올려도 될지 모르겠내요.
기존에 공개된 한국어 음성인식 오픈소스는 Kaldi 를 이용한 Zeroth 프로젝트도 있습니다.
( 깃헙 내용으로는 최종 모델은 2018년 7월 버전인듯 하네요 )