5P by xguru 2019-12-06 | favorite | 댓글 7개

누구나 사용할수 있는 음성인식 기술을 만들고, 사용가능하게 만들기 위해 다양한 언어의 데이터를 모으고 정제하는 오픈소스 음성데이터베이스.
한국어는 아직 데이터가 많이 부족합니다. 참여해서 같이 만들어보아요.
대부분의 회사들이 만드는 음성 데이터셋은 외부에서 사용이 어렵습니다.
그래서 오픈으로 만드는 데이터가 중요합니다. 특히나 한국어는 더더욱.

Goal 설정하는 부분에서 한국어가 없어서 진행이 안되내요..

한국어 데이터셋은 아직 문장 사이트 로컬라이징이나 문장 셋이 부족해서 안되는 거였군요.

사이트 한국어 번역: https://pontoon.mozilla.org/projects/common-voice/
문장 수집 사이트: https://common-voice.github.io/sentence-collector

사이트 번역이 완료되고, 5000문장 이상 수집되어야 음성 수집, 검증이 가능해지는 것 같습니다. 관심 있으신 분들의 많은 참여 바랍니다.

제가 똑같은 댓글을 달았다 지웠네요 ㅎㅎㅎ

https://discourse.mozilla.org/t/…
여기에 그렇게 설명이 되어있네요.

앗.. 넵 ㅎㅎ 저도 삭제하려다가 삭제 버튼이 없어서 당황했어요..
관련해서 한국어 코퍼스들이 좀 있던데 저작권 문제 때문에 올려도 될지 모르겠내요.

아 댓글 삭제는 댓글 위 아이디옆 시간 링크를 누르시면 댓글페이지 안에서 삭제가 가능합니다.

기존에 공개된 한국어 음성인식 오픈소스는 Kaldi 를 이용한 Zeroth 프로젝트도 있습니다.
( 깃헙 내용으로는 최종 모델은 2018년 7월 버전인듯 하네요 )

https://github.com/goodatlas/zeroth