# Kokoro-82M 모델로 전자책을 오디오북으로 변환하기

> Clean Markdown view of GeekNews topic #18752. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=18752](https://news.hada.io/topic?id=18752)
- GeekNews Markdown: [https://news.hada.io/topic/18752.md](https://news.hada.io/topic/18752.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-01-16T09:46:22+09:00
- Updated: 2025-01-16T09:46:22+09:00
- Original source: [claudio.uk](https://claudio.uk/posts/epub-to-audiobook.html)
- Points: 24
- Comments: 3

## Summary

Kokoro v0.19는 82M 파라미터를 가진 텍스트-음성 변환 모델로, 다양한 언어와 고품질 목소리를 지원하며 전자책을 오디오북으로 변환할 수 있는 Audiblez 도구를 통해 활용할 수 있습니다. Audiblez는 .epub 파일을 오디오 파일로 변환하며, Python 3 환경에서 설치 및 실행할 수 있습니다. 한국어도 포함되어 있어서 기대했는데 한국어는 품질이 별로라고 하네요.

## Topic Body

- Kokoro v0.19는 최근에 발표된 텍스트-음성 변환 모델로, 82M의 파라미터를 가지고 있으며 매우 높은 품질의 출력을 제공함  
  - Apache 라이선스, 100시간 미만의 오디오로 학습되었음  
  - 미국 영어, 영국 영어, 프랑스어, 한국어, 일본어, 중국어를 지원하며, 다양한 고품질의 목소리를 제공함  
- ## Kokoro의 활용  
  - 사용자는 전자책을 오디오북으로 변환할 수 있는 Audiblez라는 도구를 통해 Kokoro를 활용할 수 있음.  
  - Audiblez는 .epub 파일을 파싱하여 책의 본문을 잘 녹음된 오디오 파일로 변환함.  
  - 예를 들어, M2 MacBook Pro에서 약 100,000 단어의 책을 변환하는 데 약 2시간이 소요됨.  
- ## 설치 및 실행 방법  
  - Python 3가 설치된 컴퓨터에서 pip을 통해 Audiblez를 설치할 수 있음.  
  - Python 3.13에서는 작동하지 않음.  
  - 약 360MB의 추가 파일을 다운로드해야 함.  
  - .epub 파일을 오디오북으로 변환하려면 명령어를 실행해야 함.  
- ## 지원 언어 및 목소리  
  - `-l` 옵션을 사용하여 언어를 지정할 수 있으며, 지원되는 언어 코드는 en-us, en-gb, fr-fr, ja, ko, cmn임.  
  - `-v` 옵션을 사용하여 목소리를 지정할 수 있으며, 다양한 목소리를 제공함.  
- ## 챕터 감지  
  - 챕터 감지는 약간 불안정하지만 대부분의 .epub 파일에서 핵심 챕터를 찾을 수 있음.  
  - 관심 있는 챕터가 포함되지 않을 경우, 코드의 is_chapter 함수를 조정해 볼 수 있음.  
- ## 소스 코드 및 개선 사항  
  - Audiblez 프로젝트는 GitHub에서 확인할 수 있음.  
  - 향후 개선 사항으로는 더 나은 챕터 감지, 챕터 내비게이션 추가, 이미지에 대한 내레이션 추가 등이 있음.

## Comments



### Comment 33521

- Author: crawler
- Created: 2025-01-16T13:44:39+09:00
- Points: 1

이거보다 크고 좋은 모델들도 있긴 한데 용도가 다르다고 봐야 할 거 같아요  
Kokoro는 크기가 작아서 빠르고 품질도 나쁘지 않다는 면에서 반응이 되게 좋습니다

### Comment 33517

- Author: munggo
- Created: 2025-01-16T12:33:04+09:00
- Points: 3

한국어 버전은 러시아어 처럼 들리네요. 들을 수 없는 수준입니다.

### Comment 33499

- Author: neo
- Created: 2025-01-16T09:46:22+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=42708773) 
- 오디오북의 내레이터가 텍스트를 잘 해석하는 경우가 있어, AI 음성 사용에 대해 혼합된 감정을 가짐
  - 여러 내레이터와 각 캐릭터의 다른 목소리가 있는 오디오북이 특별한 경험을 제공함
  - 대화 중 누가 말하는지 알 수 있는 유일한 단서가 목소리 톤의 변화일 때가 있음
  - 아마추어 전자책이나 Project Gutenberg 같은 공공 도메인 오디오북보다 AI 음성을 선호함

- AI 생성 음성은 1분 이상 듣기 힘들며, 유튜브에서 AI 음성이 나오면 즉시 스킵함
  - 우리의 뇌가 화자의 감정, 멈춤, 보이지 않는 미소 등을 느끼려고 하기 때문일 수 있음
  - 모델이 개선되어 AI 생성 음성을 식별하기 어려워질 것임

- 커스텀 음성으로 TTS 생성을 위한 오픈 소스 옵션 추천을 요청함
  - Coqui TTS를 시도할 예정임

- 텍스트와 오디오를 버튼 하나로 전환할 수 있는 전자책 리더기를 원함
  - 소파에서 책을 읽다가 설거지를 하면서 오디오 모드로 전환할 수 있는 기능을 상상함

- 특정 오디오북 내레이터의 목소리로 전자책을 오디오북으로 만드는 아이디어를 가지고 있음
  - Infinite Conversation 프로젝트에서 영감을 받았으나 아직 실행하지 못함

- 다양한 TTS 모델을 시도했으나 대부분 평균적이거나 Mac에서 작동하지 않거나 매우 느렸음
  - 이번 모델은 빠르고 설치가 쉬우며, 괜찮은 음성을 제공함
  - 오디오북 버전이 없는 책은 읽지 않음
  - 과거에 elevenlabs를 사용했으나, 개인용으로는 가격이 비쌈

- 2025년에는 신경망을 사용하여 배경 음악, 음향 효과, 극적인 내레이션이 있는 오디오북을 생성할 수 있을 것임

- "kokoro"는 일본어로 "마음"을 의미함

- Calibre 전자책 관리 소프트웨어에 플러그인이 추가되어 epub 라이브러리의 선택된 제목을 오디오 버전으로 쉽게 변환할 수 있기를 바람

- 가변 속도 인수를 추가하여 매우 만족함
