공통 음성 기술

▲

GN⁺ 2023-12-08 | parent | ★ favorite | on: 공통 음성 기술(commonvoice.mozilla.org)

Hacker News 의견

- FF의 TTS는 사용하기 쉬운 텍스트-음성 변환 시스템을 원하는 사람들에게 중요한 프로젝트임. 브라우저에 내장되어 있어서 콘솔에서 간단한 코드를 실행하여 다양한 TTS 예제를 들을 수 있음. 일부 브라우저는 오프라인으로도 가능하지만 다른 브라우저는 클라우드 기반 TTS 시스템을 사용함.
- Common Voice Android는 프로젝트에 기여하고 싶은 사람들에게 유용한 앱임. 사용자는 자신이 구사하는 언어로 음성을 녹음하고 다른 사용자의 기여를 검증할 수 있음. 공식 웹사이트 버전보다 사용자 친화적인 디자인을 가지고 있음.
- 크라우드소싱 데이터셋은 OpenAI와 같은 회사들의 행위가 공정 이용에 해당하지 않는다고 법원이 결정할 경우, 기초 모델을 구축하는 유일한 방법이 될 수 있음. 이러한 시나리오가 발생할 가능성을 낮게 보지 않음.
- 이 데이터셋은 최근의 음성 모델들이 훈련된 것보다 훨씬 작지만, 자기 감독 학습보다는 지도 학습을 위한 것이며, 특정 언어에 대한 모델의 성능을 향상시키기 위한 미세 조정에 여전히 유용함.
- AI와 딥페이크 기술의 최근 사건들을 고려할 때, 이와 같은 프로젝트에 '내 목소리 기부'에 동의하기 전에 어떤 보증이 필요함. 프로젝트가 음성 인식을 위한 것인지, 생성을 위한 것인지 명확하지 않음.
- 모질라가 관련된 음성-텍스트 소프트웨어를 취소하거나 다른 회사로 이전한 적이 있었는지 궁금함. 아니면 그것은 다른 것이었을까?
- 리눅스 파이어폭스의 리더 모드에서 텍스트-음성 변환 기능이 매우 나쁜 이유는 무엇인가? 스티븐 호킹의 텍스트-음성 변환보다 훨씬 나쁨.
- OpenAI가 진정으로 개방적이길 바랐지만, 이제는 마이크로소프트의 꼭두각시가 되어 기업 이익 목표를 추구함. 이와 HuggingFace와 같은 프로젝트는 보기 좋으며, HuggingFace가 GitHub처럼 마이크로소프트에 인수되지 않기를 바람.
- 여기 있는 사람들 중 '독서 목소리'와 평소 대화 목소리가 다른 사람이 얼마나 되는가? 대부분의 훈련 데이터가 '대본처럼' 들린다면 대화 모델을 훈련시킬 수 있는가?
- 관련된 뉴스 링크들이 제공되어 있으며, 이는 Mozilla Common Voice 프로젝트의 진행 상황과 음성 데이터셋의 확장에 대한 정보를 제공함.