1P by neo 6달전 | favorite | 댓글 1개

모질라 커먼 보이스 프로젝트 소개

  • 모질라 커먼 보이스는 기계가 실제 사람들이 어떻게 말하는지를 배울 수 있도록 돕는 프로젝트임.
  • 음성 기술을 사용 가능하게 만들기 위해 개발자들은 방대한 양의 음성 데이터가 필요함.
  • 대부분의 데이터는 대기업에 의해 사용되며 대다수 사람들에게는 접근할 수 없어 혁신을 저해한다고 생각함.

음성 데이터 기록 및 검증 현황

  • 현재까지 29,000시간의 음성이 기록되었으며, 그 중 18,000시간이 검증됨.

다양한 언어 지원

  • 커먼 보이스 프로젝트는 전 세계 다양한 언어를 지원하며, 사용자들은 자신의 언어로 기여할 수 있음.

고품질 공개 데이터셋 구축 지원

  • 프로필을 만들지 않아도 기여할 수 있지만, 익명의 인구통계 데이터를 제공하여 제출된 데이터를 풍부하게 만들 수 있음.
  • 프로필 정보는 음성 인식의 정확성을 훈련하는 데 사용되는 오디오 데이터의 질을 향상시킴.
  • 사용자는 여러 언어에 걸쳐 자신의 진행 상황과 지표를 추적할 수 있음.
  • 전 세계 다른 기여자들과 진행 상황을 비교할 수 있음.
  • 개인 및 프로젝트 목표에 대한 진행 상황을 확인할 수 있음.
  • 원한다면 프로젝트 업데이트와 새로운 정보에 대한 이메일 목록에 선택적으로 가입할 수 있음.

GN⁺의 의견

이 기사에서 가장 중요한 것은 모질라가 음성 인식 기술을 개발하고자 하는 개발자들에게 필요한 대규모 음성 데이터를 제공하기 위해 커먼 보이스 프로젝트를 시작했다는 점입니다. 이 프로젝트는 기술 혁신을 촉진하고자 하는 모질라의 노력을 보여주며, 전 세계 다양한 언어를 지원함으로써 많은 사람들이 기술 발전에 기여할 수 있는 기회를 제공합니다. 이는 기술의 민주화를 추구하는 모질라의 철학을 반영하며, 많은 사람들에게 흥미롭고 매력적인 이니셔티브가 될 것입니다.

Hacker News 의견
    • FF의 TTS는 사용하기 쉬운 텍스트-음성 변환 시스템을 원하는 사람들에게 중요한 프로젝트임. 브라우저에 내장되어 있어서 콘솔에서 간단한 코드를 실행하여 다양한 TTS 예제를 들을 수 있음. 일부 브라우저는 오프라인으로도 가능하지만 다른 브라우저는 클라우드 기반 TTS 시스템을 사용함.
    • Common Voice Android는 프로젝트에 기여하고 싶은 사람들에게 유용한 앱임. 사용자는 자신이 구사하는 언어로 음성을 녹음하고 다른 사용자의 기여를 검증할 수 있음. 공식 웹사이트 버전보다 사용자 친화적인 디자인을 가지고 있음.
    • 크라우드소싱 데이터셋은 OpenAI와 같은 회사들의 행위가 공정 이용에 해당하지 않는다고 법원이 결정할 경우, 기초 모델을 구축하는 유일한 방법이 될 수 있음. 이러한 시나리오가 발생할 가능성을 낮게 보지 않음.
    • 이 데이터셋은 최근의 음성 모델들이 훈련된 것보다 훨씬 작지만, 자기 감독 학습보다는 지도 학습을 위한 것이며, 특정 언어에 대한 모델의 성능을 향상시키기 위한 미세 조정에 여전히 유용함.
    • AI와 딥페이크 기술의 최근 사건들을 고려할 때, 이와 같은 프로젝트에 '내 목소리 기부'에 동의하기 전에 어떤 보증이 필요함. 프로젝트가 음성 인식을 위한 것인지, 생성을 위한 것인지 명확하지 않음.
    • 모질라가 관련된 음성-텍스트 소프트웨어를 취소하거나 다른 회사로 이전한 적이 있었는지 궁금함. 아니면 그것은 다른 것이었을까?
    • 리눅스 파이어폭스의 리더 모드에서 텍스트-음성 변환 기능이 매우 나쁜 이유는 무엇인가? 스티븐 호킹의 텍스트-음성 변환보다 훨씬 나쁨.
    • OpenAI가 진정으로 개방적이길 바랐지만, 이제는 마이크로소프트의 꼭두각시가 되어 기업 이익 목표를 추구함. 이와 HuggingFace와 같은 프로젝트는 보기 좋으며, HuggingFace가 GitHub처럼 마이크로소프트에 인수되지 않기를 바람.
    • 여기 있는 사람들 중 '독서 목소리'와 평소 대화 목소리가 다른 사람이 얼마나 되는가? 대부분의 훈련 데이터가 '대본처럼' 들린다면 대화 모델을 훈련시킬 수 있는가?
    • 관련된 뉴스 링크들이 제공되어 있으며, 이는 Mozilla Common Voice 프로젝트의 진행 상황과 음성 데이터셋의 확장에 대한 정보를 제공함.