Kokoro-82M 모델로 전자책을 오디오북으로 변환하

▲

GN⁺ 2025-01-16 | parent | ★ favorite | on: Kokoro-82M 모델로 전자책을 오디오북으로 변환하기(claudio.uk)

Hacker News 의견

오디오북의 내레이터가 텍스트를 잘 해석하는 경우가 있어, AI 음성 사용에 대해 혼합된 감정을 가짐
- 여러 내레이터와 각 캐릭터의 다른 목소리가 있는 오디오북이 특별한 경험을 제공함
- 대화 중 누가 말하는지 알 수 있는 유일한 단서가 목소리 톤의 변화일 때가 있음
- 아마추어 전자책이나 Project Gutenberg 같은 공공 도메인 오디오북보다 AI 음성을 선호함
AI 생성 음성은 1분 이상 듣기 힘들며, 유튜브에서 AI 음성이 나오면 즉시 스킵함
- 우리의 뇌가 화자의 감정, 멈춤, 보이지 않는 미소 등을 느끼려고 하기 때문일 수 있음
- 모델이 개선되어 AI 생성 음성을 식별하기 어려워질 것임
커스텀 음성으로 TTS 생성을 위한 오픈 소스 옵션 추천을 요청함
- Coqui TTS를 시도할 예정임
텍스트와 오디오를 버튼 하나로 전환할 수 있는 전자책 리더기를 원함
- 소파에서 책을 읽다가 설거지를 하면서 오디오 모드로 전환할 수 있는 기능을 상상함
특정 오디오북 내레이터의 목소리로 전자책을 오디오북으로 만드는 아이디어를 가지고 있음
- Infinite Conversation 프로젝트에서 영감을 받았으나 아직 실행하지 못함
다양한 TTS 모델을 시도했으나 대부분 평균적이거나 Mac에서 작동하지 않거나 매우 느렸음
- 이번 모델은 빠르고 설치가 쉬우며, 괜찮은 음성을 제공함
- 오디오북 버전이 없는 책은 읽지 않음
- 과거에 elevenlabs를 사용했으나, 개인용으로는 가격이 비쌈
2025년에는 신경망을 사용하여 배경 음악, 음향 효과, 극적인 내레이션이 있는 오디오북을 생성할 수 있을 것임
"kokoro"는 일본어로 "마음"을 의미함
Calibre 전자책 관리 소프트웨어에 플러그인이 추가되어 epub 라이브러리의 선택된 제목을 오디오 버전으로 쉽게 변환할 수 있기를 바람
가변 속도 인수를 추가하여 매우 만족함