14P by spilist2 8달전 | favorite | 댓글과 토론

(SHOW에 더 적합해보이지만 제가 만든 게 아니라서 SHOW 대신 NEWS에 올립니다.)

====

한국어 음성인식을 사용해볼 수 있는 개발자 사이트의 API로 AI-Hub에서 공개한 다양한 테스트셋의 에러율(Character Error Rate) 을 음성인식 API별로 측정한 리포지토리입니다. 본 리포지토리는 다음과 같은 내용을 다루고 있습니다.

  • Return Zero(리턴제로), Google, OpenAI Whisper, ETRI, Naver 등 다양한 음성인식 API를 사용하여 AI Hub 테스트셋에 대한 에러율(Character Error Rate) 측정
  • 한국어 음성인식 평가 방법에 대한 소개

====

본 프로젝트는 다양한 음성인식 API들의 성능을 객관적으로 평가하기 위해 공개되었습니다. 현재 시장에서 제공되는 다양한 음성인식 서비스의 성능 차이를 분석하고, 이를 통해 사용자와 개발자에게 더 나은 접근성을 제공하고자 합니다.

논문으로 공개되는 자료들은 보통 영어에 대해서만 성능 평가를 하고 WER(Word Error Rate)을 paperswithcode에 공개를 합니다. 하지만 한국어 음성인식은 WER이 아닌 CER(Character Error Rate)로 평가되어야 적절한데 잘 정리된 리더보드를 찾아볼 수가 없었습니다.

KsponSpeech가 2018년에 첫 공개되었지만, AI-Hub에 내국인만 접근 가능하고 음성인식을 연구하고 개발하는 한국인들이 적은 탓에 다양한 리소스로 공개되지 못했습니다.

리턴제로는 음성인식을 자체적으로 연구 개발하면서 이러한 리소스를 많은 사람들이 접할 수 있도록, KsponSpeech를 음성인식 분야에서 많이 쓰이는 speechbrain에 기여하여 현재 최신 recipe에서 사용해 볼 수 있고, huggingface에서도 접근할 수 있도록 기여하였습니다.

최근에는 다양한 종류의 음성 데이터들이 AI-Hub에 공개되었고, 이러한 다양한 데이터 세트에 대하여 한국어 음성인식 엔진이 어디까지 왔는지 평가해보고 알리는 것이 한국어 음성인식의 발전에 도움이 된다고 생각했습니다.