특정인의 목소리 5초만 가지고 음성을 실시간 복제하는 오픈소스

(github.com)

Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS) 논문의 구현체.

얼굴 합성과 음성 합성 기술이 발전하게되면, 궁극적으로는 외모와 목소리가 갖는 의미가 달라지지 않을까 싶어요. 외형적인 것, 물질적인 것으로는 더이상 개인을 특정할 수 없게 되는 거죠. 더욱 인간의 정신, 본질에 집중하는 시대가 올 것 같습니다.

함께 보면 좋은 글 β