Abogen - EPUB, PDF, 텍스트에서 오디오북 생성

(github.com/denizsafak)

10P by GN⁺ 11달전 | ★ favorite | 댓글 1개

Abogen은 ePub, PDF, 텍스트 파일을 고품질 오디오북으로 손쉽게 변환하는 오픈소스 도구임
변환 과정에서 음성과 동기화된 자막(subtitle)도 자동 생성됨
사용자 맞춤 목소리 믹싱, 인코딩 포맷, 챕터 분할, 일괄 처리(큐 모드) 등 다양한 기능 제공임
최신 Kokoro-82M 음성 합성 엔진을 사용하여 자연스러운 TTS 품질과 다국어를 지원함
다른 프로젝트 대비 직관적 GUI, 프로젝트별 폴더 관리, 메타데이터 자동처리 장점이 있음

Abogen 개요와 중요성

Abogen은 텍스트 파일(ePub, PDF, .txt 등)을 자연스러운 오디오북으로 빠르게 변환하는 오픈소스 텍스트-음성 변환(TTS) 도구임
직관적 인터페이스, 다중 파일 일괄 처리, 사용자 목소리 믹싱, 다양한 출력포맷, 챕터 관리, 메타데이터 지원 등 풍부한 기능을 제공함
타 오픈소스 프로젝트와 달리 간단한 조작으로 고퀄리티 오디오(특히 Kokoro-82M 기반 TTS)와 자막을 손쉽게 얻을 수 있음
초기 설치 과정과 복잡한 파이썬 환경 세팅이 자동화되어 초급 개발자도 쉽게 활용 가능함
특히 프로젝트별 챕터·메타데이터 처리, GUI 환경, 커스텀 보이스 기능은 업계에서 경쟁 우위로 평가됨

주요 특징 요약

텍스트-음성 변환(TTS)으로 ePub, PDF, 텍스트 파일을 수 초 내 오디오로 변환
동기화된 자막(subtitles) 자동 생성, 오디오 및 자막이 완벽히 일치하는 형태 지원
목소리 믹서를 활용해 여러 음성 모델을 혼합, 자신만의 목소리 프로필 생성
큐 모드 기능으로 여러 파일 일괄 처리 및 파일별 개별 세팅 유지 지원
챕터 마커/메타데이터 자동 생성, 프로젝트 폴더 관리 기능
다양한 출력 포맷: WAV, FLAC, MP3, OPUS, M4B 등 지원, 자막도 SRT/ASS 등 선택 가능
주요 언어 지원: 미국/영국 영어, 스페인어, 프랑스어, 힌디어, 이탈리아어, 일본어, 포르투갈어, 중국어 등
Kokoro-82M TTS 엔진 기반의 고품질, 자연스러운 발음 효과 제공
GUI 및 명령행 방식 모두 지원, Docker 컨테이너 사용 가능

Abogen 기능별 상세 정리

#시작 및 설치 배경

기존 TTS 도구들은 설치, 환경 설정, 품질, 커스터마이즈, 다중 파일 처리에 제한이 많음
Abogen은 간편하면서 강력한 인터페이스로 텍스트–오디오 컨버팅, 자막 생성, 보이스 믹싱 등 고급 기능을 초보자도 쉽게 접할 수 있게 제작됨
여러 OS(Windows, Linux, macOS)에서 사용 가능하며, 사전 Python 설치 필요 없이 자동으로 내장/설치 환경 구성 지원

#주요 사용법

ePub, PDF 또는 텍스트 파일을 드래그앤드롭 하거나 내장 편집기 사용 가능
설정: 읽기 속도, 목소리(모델·성별·언어), 자막 스타일(문장별·단어별), 오디오·자막 출력 포맷, 출력 경로 등 세부 선택 가능
변환 시작 버튼 클릭만으로 바로 결과 생성

#실제 시연

저사양 GPU에서도 약 3,000자 텍스트를 11초 만에 3분 28초 오디오로 생성 가능
하드웨어 사양에 따라 처리 속도 차이 발생

#설정 옵션

입력 방식: 드래그앤드롭, 내장 에디터, 큐 관리로 여러 파일 동시 처리 가능
읽기 속도: 0.1x ~ 2.0x 세밀 조절
보이스 선택 및 미리듣기: 언어·성별별 모델, 커스텀 믹서로 나만의 보이스 프로필 지정
자막 생성: 문장, 콤마 단위, n단어 단위 자막 자동화
오디오 출력: WAV, FLAC, MP3, OPUS, M4B(챕터 포함)
자막 포맷: SRT, ASS 등 사용자화 지원
챕터·프로젝트 관리: 챕터별 오디오, 병합본, 메타데이터 포함 프로젝트 폴더로 저장
테마, 로그, 바로가기 등 UI 옵션 다양

#Voice Mixer

여러 음성 모델을 가중치 조절로 조합, 유니크한 보이스를 직접 생성·저장·반복 사용 가능
목소리 믹싱 결과를 보이스 프로필로 미리듣기 및 적용

#큐 모드

파일별 개별 설정 유지, 여러 텍스트·eBook을 한 번에 자동 변환
각 파일은 큐에 추가 시의 세팅을 별도 저장, 메인 설정 변경과 무관

#챕터 마커/메타데이터

자동으로 챕터 분할 태그를 삽입
- 수동으로도 `` 태그 삽입 가능
- 오류 발생 시 해당 챕터만 빠르게 재처리 유리
메타데이터 태그로 제목, 저자, 연도 등 정보를 추가해 오디오북 앱에서 정보 제공
- 텍스트 파일 첫 부분에 추가 가능

#지원 언어

Kokoro-82M 엔진의 다국어 지원
영어(미국/영국), 스페인어, 프랑스어, 힌디어, 이탈리아어, 일본어, 브라질 포르투갈어, 중국어 등
다른 언어 자막은 엔진의 기술적 한계로 추후 추가 요청 가능

#출력 및 활용

MPV 등 고급 미디어 플레이어 추천, 동기화 자막 지원
Docker 기반 서버 구동 지원

#비슷한 프로젝트와의 차별점

Abogen은 독립형 GUI 및 커스터마이즈 기능, 프로젝트별 폴더 관리, 챕터·메타데이터 자동화, 큐 처리, 믹스 보이스 등 최고 수준 편의 제공
audiblez, autiobooks, pdf-narrator, epub_to_audiobook, ebook2audiobook와 유사점 있으나 GUI 사용성과 고급 TTS 엔진, 챕터/자막 동기화가 차별화 포인트임

#로드맵 및 컨트리뷰션

OCR(문서 인식) 추가, 다국어 GUI 강화 등 계획
누구나 포크 후 기능 추가, 버그 수정 등 오픈소스 기여 가능

#기술 크레딧 및 라이선스

Kokoro-82M TTS, PyQt 기반 GUI, EbookLib 연동 등 각종 파트너 오픈소스 기술 활용
MIT 라이선스(상업적 이용 및 수정 자유), 엔진(Kokoro)는 Apache-2.0 라이선스

#주의사항 및 한계

자막 동기화 기능은 현재 영어에 한해 제공(타 언어 지원은 Kokoro 엔진 개발 필요)
일부 기능(Docker 내 오디오 프리뷰 등) 제한
설치 및 환경 세팅 상세 가이드는 공식 문서 참고

GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기

GN⁺ 11달전 [-]

Hacker News 의견

나는 Calibre-Web에서 책을 제공받고, Abogen을 통해 오디오 버전으로 만들고, Audiobookshelf에서 이를 제공해주는 파이프라인을 상상함, 청각장애인에게도 정말 좋은 솔루션이 될 것 같음 Calibre-Web audiobookshelf 참고
이 도구를 사용해서 텍스트로 된 책을 오디오북으로 만들어 개인적으로 소비하는 것은 괜찮지만, 작가가 이것을 활용해 배포용 파일을 만드는 것은 매우 위험함, 독립 작가들은 작품을 홍보하는 데 많은 어려움을 겪고 있고, 요즘에는 잠재 독자들이 AI가 사용되었다는 흔적만 보여도 바로 관심을 끊어버림, 나의 경우 연기를 잘 하면서 모국어가 영어가 아닌 성우들이나, 집에서는 다른 언어를 사용하는 성우들을 고용하기 시작했음, 억양을 조금 더 진하게 요청하기도 하는데, 이 방식이 AI로부터 구분되는 데 도움도 되고, 새로운 경험을 원하는 사람들에게 책의 매력을 더해줌, 예전에 지중해 인근 출신 연기자들이 얼마나 생동감 있게 오디오북을 녹음하는지 오디션에서 경험해보고 깜짝 놀랐음
- 나는 Amazon의 WhisperSync 기능을 자주 이용함, 이 기능 덕분에 책을 읽으면서 동시에 들을 수 있음, 이동 중에도 가끔 시각적으로 내용을 확인하거나 나중에 하이라이트할 수 있어서 정말 편리함, 단점이라면 이 기능을 지원하는 책이 많지 않고, Kindle 앱에 기본 탑재된 읽기 기능은 품질이 별로임, 그래서 개인적으로는 훌륭한 사람이 써내려간 책에 추가로 AI 음성 기능이 나오면 정말 좋겠음
- 요즘 잠재 독자들이 AI 흔적만 보여도 책을 건너뛴다는 게 진짜 보편적인지 잘 모르겠음, 텍스트를 읽을 때 결과물만 좋으면 AI로 읽든 뭐든 대부분 신경 안 쓰는 것 같음, 사람들이 AI가 쓴 책은 원하지 않지만, AI 음성으로 텍스트 읽는 건 기사나 책 들을 때 꽤 오래전부터 편하게 사용 중임, 이건 연기나 목소리 연출과는 별개임
이것은 단순히 텍스트를 음성으로 변환하는 것인지, 아니면 진짜 오디오북처럼 만들어주는 것인지 궁금함, 좋은 오디오북은 성우가 등장인물을 각기 다르게 연기해주고 억양과 방언도 다르게 표현하는 경우가 많음, 이런 것들은 chatgpt 같은 도구로도 몇 문장은 쓸 수 있을 것 같지만 8~20시간짜리 오디오북 전체에서는 쉽지 않음, 현 수준에서는 epub을 최첨단 수준의 오디오북으로 만드는 데 여전히 기본적인 장벽이 있다고 생각함, 내가 놓친 게 있는지 궁금함
- Elevenlabs에는 "풀 캐스트" 스타일 생성 기능이 있어서 각기 다른 캐릭터에 다른 목소리가 배정되기도 함, 하지만 방언에는 자동으로 민감하지는 않음, 현재 시스템들로도 문맥이나 프롬프트에 따라 억양이나 말투를 바꾸는 게 가능하기는 한데, 그 신뢰성은 잘 모르겠음
- 믹서를 사용해서 다양한 캐릭터 음성을 섞어 여러 느낌을 낼 수 있음, 직접 다른 캐릭터에 맞는 목소리를 코드로 넣어보는 것도 가능함
- 사실 나는 여러 캐릭터 음성 연출을 별로 안 좋아함, 맥락에 따라 인용문을 적절한 어조와 억양으로 읽어주는 건 좋은데, 인물마다 목소리를 다르게 하는 건 싫어함
이 도구는 abogen 앱 실행 시 pip가 필요하므로 pip 사용이 가능한 환경에서 돌려야 함, uv tool run abogen 명령으로 시작할 수 있지만, 모델 설치 단계에서 멈춤, uv venv && uv pip install pip && source .venv/bin/activate && abogen 하면 제대로 도는 것 확인함, 패키징된 GUI도 잘 되어 있고, PDF 파일에서 페이지나 섹션 선택하는 UI도 좋고, 내 랩탑 GTX 1650으로 속도도 빠름, 결과물은 .ogg 오디오와 .ass 자막 파일로 나오고, mpv로 불러오면 터미널에서 듣고 읽기 함께 가능함, 한 가지 아쉬운 점은 PDF 원본의 줄바꿈이 그대로 남아 문장 중간에 길게 끊기는 경우가 있어서 이해에 방해가 됨, single newline 건너뛰는 기능을 켜면 확실히 개선됨
- 나는 RTX 4060으로 110페이지짜리 책을 약 한 시간 만에 wav로 변환함, 줄바꿈 건너뛰기 기능을 켜지 않으면 결과물이 별로였음, 이 옵션 켜면 진짜 대단함, af_heart 목소리가 개인적으로 아주 마음에 들고 af_jessica는 좀 거슬림, 오디오북에서 가장 큰 문제는 성우에 대한 호불호가 책 내용만큼이나 중요하다는 점임, 이런 날이 곧 올 것 같았고 실로 감탄스러움, 오디오북에 워낙 익숙해져서 실제 책을 다 읽는 게 어려울 정도임, 시장성이 없어서 성우가 직접 읽어주지 않을 책 20권 정도를 이 기능으로 내가 좋아하는 목소리로 쉽게 변환 가능하게 된 게 정말 놀라움
나는 오디오북을 정말 좋아하지만, 나레이션에 까다로움, 나에게 맞지 않는 성우라서 중간에 듣기를 포기한 오디오북들도 많음, 이런 서비스를 내가 진짜 쓸 수 있으려면 아직 시간이 오래 걸릴 것 같음
- 나는 좋은 성우 덕분에 시리즈 전체를 구매해서 들은 경우도 있음, 예를 들어 Grim Noir Chronicles나 Soundbooth Theater의 풀 캐스트 작품들이 그랬음, 단순히 텍스트를 진동으로 바꾸는 것만 원한다면 TTS 기술도 충분하지만, 아직 AI 나레이션은 인간 성우가 줄 수 있는 그런 경험을 제공하지 못한다고 생각함
- 나도 성우 때문에 오디오북을 중간에 포기했던 경험이 있지만, 오히려 반대로 AI의 중립적이고 괜찮은 목소리라면 예전에 힘들게 들었던 책을 끝까지 들을 수도 있을 것 같음, 차라리 공식 나레이션의 어색한 목소리보다 깔끔한 AI 음성이 나은 선택일 수도 있다고 기대함
- R. C. Bray가 내레이션하던 시리즈가 갑자기 다른 성우로 바뀌며 급격히 듣기 어려워져서 아예 완독을 포기한 사례도 있음, 반면 Wil Wheaton처럼 내가 일부러 찾는 성우도 있음, 결국 오디오북에서 성우가 작품을 살리기도, 망치기도 함
- 가장 좋아하는 오디오북이 궁금함
텍스트 외에 코드, 도표, 이미지 등이 있는 책에는 잘 적용이 안 될 것 같음 (이건 당연한 부분임), 만약 PDF 페이지를 받아서 "순수 산문" 버전으로 변환해주는 오픈소스 신경망이 있는지도 궁금함, 예를 들어 그림과 텍스트가 같이 있는 페이지면 그림의 내용이나 묘사까지 텍스트로 나타내주는 식임
블로그나 기사 등 짧은 분량에는 Kokoro TTS를 써봤지만, 기대에 못 미쳤음, 지금은 Gemini 2.5 Flash TTS가 성능도 훨씬 좋고 무료 한도도 관대함 (생성당 10분, 하루 90분), 짧은 글에는 음성의 일관성 문제가 별로 안 느껴지는데, 책 전체처럼 길어지면 이게 분명히 문제임
- Kokoro는 TTS로 나쁘지 않지만, 감정 표현이 부족함, 이 모델의 크기를 생각하면 어쩔 수 없는 것 같기도 함
철학책들을 오디오북으로 만들어 접근성을 높이려고 이 도구를 써봤는데, 중요한 문제가 있었음, Kokoro에 입력 문장이 너무 길면 끝 부분 단어나 문장이 건너뛰어지거나 흐려짐, abogen은 문장 단위로 텍스트를 잘라서 넣는데, 문장이 길면 그대로 Kokoro에 들어가서 오디오북 자체를 쓸 수 없을 수준임, 그래서 nltk와 정규식으로 더 세밀하게 나누는 내 tkinter GUI 앱을 직접 만들고 있음
- 나는 "kokoro-tts" CLI가 쪼개기/분할 기능이 더 좋아서 만족스럽게 쓰고 있음 kokoro-tts, 이 도구는 각 챕터별 오디오 파일과 메타데이터도 같이 만들어줌, m4b-tool로 오디오 파일들 이어붙이고 챕터 정보도 추가할 수 있음 m4b-tool, 이 작업 방식에 대해 포스트를 써보고 싶은 마음도 큼 정말 유용함
- 나는 요즘 딥러닝 TTS가 출력 결과가 너무 비결정적이라 불만임, 고전적인 방식은 예측 가능한 발음을 제공해서 차라리 더 낫다고 느낌
PDF를 잘 정리된 ePub으로 만들어주는 솔루션이 나오길 개인적으로 기대하고 있음
Kokoro TTS를 CLI용 audiblez와 같이 사용해봤음, 작은 모델이지만 속도도 빠르고 음질도 인상 깊었음, 다만 몇 가지 아쉬운 점이 있음: a) 문장 끝의 마침표와 "Mr." "Mrs." 같은 약어의 마침표를 구분하지 못해서 어색한 멈춤이 생김, b) 줄임표 (...) 처리가 잘 안 됨, c) 문맥이 달라도 단어 발음이 항상 동일함
- SSML phoneme 태그를 활용해보는 것도 방법임, 일부 TTS가 이를 지원함, 강력한 LLM으로 사전처리를 해서 이런 문제를 피할 수 있음
- Mr. / Mrs. 문제 같은 사례는 꽤 쉽게 고칠 수 있을 것 같음, 적어도 흔한 경우의 일부라도 제거가 가능하다고 생각함

답변달기

Abogen - EPUB, PDF, 텍스트에서 오디오북 생성

Abogen 개요와 중요성

주요 특징 요약

Abogen 기능별 상세 정리

#시작 및 설치 배경

#주요 사용법

#실제 시연

#설정 옵션

#Voice Mixer

#큐 모드

#챕터 마커/메타데이터

#지원 언어

#출력 및 활용

#비슷한 프로젝트와의 차별점

#로드맵 및 컨트리뷰션

#기술 크레딧 및 라이선스

#주의사항 및 한계

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견