▲GN⁺ 2025-01-16 | parent | ★ favorite | on: Kokoro-82M 모델로 전자책을 오디오북으로 변환하기(claudio.uk)Hacker News 의견 오디오북의 내레이터가 텍스트를 잘 해석하는 경우가 있어, AI 음성 사용에 대해 혼합된 감정을 가짐 여러 내레이터와 각 캐릭터의 다른 목소리가 있는 오디오북이 특별한 경험을 제공함 대화 중 누가 말하는지 알 수 있는 유일한 단서가 목소리 톤의 변화일 때가 있음 아마추어 전자책이나 Project Gutenberg 같은 공공 도메인 오디오북보다 AI 음성을 선호함 AI 생성 음성은 1분 이상 듣기 힘들며, 유튜브에서 AI 음성이 나오면 즉시 스킵함 우리의 뇌가 화자의 감정, 멈춤, 보이지 않는 미소 등을 느끼려고 하기 때문일 수 있음 모델이 개선되어 AI 생성 음성을 식별하기 어려워질 것임 커스텀 음성으로 TTS 생성을 위한 오픈 소스 옵션 추천을 요청함 Coqui TTS를 시도할 예정임 텍스트와 오디오를 버튼 하나로 전환할 수 있는 전자책 리더기를 원함 소파에서 책을 읽다가 설거지를 하면서 오디오 모드로 전환할 수 있는 기능을 상상함 특정 오디오북 내레이터의 목소리로 전자책을 오디오북으로 만드는 아이디어를 가지고 있음 Infinite Conversation 프로젝트에서 영감을 받았으나 아직 실행하지 못함 다양한 TTS 모델을 시도했으나 대부분 평균적이거나 Mac에서 작동하지 않거나 매우 느렸음 이번 모델은 빠르고 설치가 쉬우며, 괜찮은 음성을 제공함 오디오북 버전이 없는 책은 읽지 않음 과거에 elevenlabs를 사용했으나, 개인용으로는 가격이 비쌈 2025년에는 신경망을 사용하여 배경 음악, 음향 효과, 극적인 내레이션이 있는 오디오북을 생성할 수 있을 것임 "kokoro"는 일본어로 "마음"을 의미함 Calibre 전자책 관리 소프트웨어에 플러그인이 추가되어 epub 라이브러리의 선택된 제목을 오디오 버전으로 쉽게 변환할 수 있기를 바람 가변 속도 인수를 추가하여 매우 만족함
Hacker News 의견
오디오북의 내레이터가 텍스트를 잘 해석하는 경우가 있어, AI 음성 사용에 대해 혼합된 감정을 가짐
AI 생성 음성은 1분 이상 듣기 힘들며, 유튜브에서 AI 음성이 나오면 즉시 스킵함
커스텀 음성으로 TTS 생성을 위한 오픈 소스 옵션 추천을 요청함
텍스트와 오디오를 버튼 하나로 전환할 수 있는 전자책 리더기를 원함
특정 오디오북 내레이터의 목소리로 전자책을 오디오북으로 만드는 아이디어를 가지고 있음
다양한 TTS 모델을 시도했으나 대부분 평균적이거나 Mac에서 작동하지 않거나 매우 느렸음
2025년에는 신경망을 사용하여 배경 음악, 음향 효과, 극적인 내레이션이 있는 오디오북을 생성할 수 있을 것임
"kokoro"는 일본어로 "마음"을 의미함
Calibre 전자책 관리 소프트웨어에 플러그인이 추가되어 epub 라이브러리의 선택된 제목을 오디오 버전으로 쉽게 변환할 수 있기를 바람
가변 속도 인수를 추가하여 매우 만족함