10P by GN⁺ 3일전 | ★ favorite | 댓글 1개
  • Abogen은 ePub, PDF, 텍스트 파일을 고품질 오디오북으로 손쉽게 변환하는 오픈소스 도구임
  • 변환 과정에서 음성과 동기화된 자막(subtitle)도 자동 생성됨
  • 사용자 맞춤 목소리 믹싱, 인코딩 포맷, 챕터 분할, 일괄 처리(큐 모드) 등 다양한 기능 제공임
  • 최신 Kokoro-82M 음성 합성 엔진을 사용하여 자연스러운 TTS 품질과 다국어를 지원함
  • 다른 프로젝트 대비 직관적 GUI, 프로젝트별 폴더 관리, 메타데이터 자동처리 장점이 있음

Abogen 개요와 중요성

  • Abogen은 텍스트 파일(ePub, PDF, .txt 등)을 자연스러운 오디오북으로 빠르게 변환하는 오픈소스 텍스트-음성 변환(TTS) 도구임
  • 직관적 인터페이스, 다중 파일 일괄 처리, 사용자 목소리 믹싱, 다양한 출력포맷, 챕터 관리, 메타데이터 지원 등 풍부한 기능을 제공함
  • 타 오픈소스 프로젝트와 달리 간단한 조작으로 고퀄리티 오디오(특히 Kokoro-82M 기반 TTS)와 자막을 손쉽게 얻을 수 있음
  • 초기 설치 과정과 복잡한 파이썬 환경 세팅이 자동화되어 초급 개발자도 쉽게 활용 가능함
  • 특히 프로젝트별 챕터·메타데이터 처리, GUI 환경, 커스텀 보이스 기능은 업계에서 경쟁 우위로 평가됨

주요 특징 요약

  • 텍스트-음성 변환(TTS)으로 ePub, PDF, 텍스트 파일을 수 초 내 오디오로 변환
  • 동기화된 자막(subtitles) 자동 생성, 오디오 및 자막이 완벽히 일치하는 형태 지원
  • 목소리 믹서를 활용해 여러 음성 모델을 혼합, 자신만의 목소리 프로필 생성
  • 큐 모드 기능으로 여러 파일 일괄 처리 및 파일별 개별 세팅 유지 지원
  • 챕터 마커/메타데이터 자동 생성, 프로젝트 폴더 관리 기능
  • 다양한 출력 포맷: WAV, FLAC, MP3, OPUS, M4B 등 지원, 자막도 SRT/ASS 등 선택 가능
  • 주요 언어 지원: 미국/영국 영어, 스페인어, 프랑스어, 힌디어, 이탈리아어, 일본어, 포르투갈어, 중국어 등
  • Kokoro-82M TTS 엔진 기반의 고품질, 자연스러운 발음 효과 제공
  • GUI 및 명령행 방식 모두 지원, Docker 컨테이너 사용 가능

Abogen 기능별 상세 정리

#시작 및 설치 배경

  • 기존 TTS 도구들은 설치, 환경 설정, 품질, 커스터마이즈, 다중 파일 처리에 제한이 많음
  • Abogen은 간편하면서 강력한 인터페이스로 텍스트–오디오 컨버팅, 자막 생성, 보이스 믹싱 등 고급 기능을 초보자도 쉽게 접할 수 있게 제작됨
  • 여러 OS(Windows, Linux, macOS)에서 사용 가능하며, 사전 Python 설치 필요 없이 자동으로 내장/설치 환경 구성 지원

#주요 사용법

  • ePub, PDF 또는 텍스트 파일을 드래그앤드롭 하거나 내장 편집기 사용 가능
  • 설정: 읽기 속도, 목소리(모델·성별·언어), 자막 스타일(문장별·단어별), 오디오·자막 출력 포맷, 출력 경로 등 세부 선택 가능
  • 변환 시작 버튼 클릭만으로 바로 결과 생성

#실제 시연

  • 저사양 GPU에서도 약 3,000자 텍스트를 11초 만에 3분 28초 오디오로 생성 가능
  • 하드웨어 사양에 따라 처리 속도 차이 발생

#설정 옵션

  • 입력 방식: 드래그앤드롭, 내장 에디터, 큐 관리로 여러 파일 동시 처리 가능
  • 읽기 속도: 0.1x ~ 2.0x 세밀 조절
  • 보이스 선택 및 미리듣기: 언어·성별별 모델, 커스텀 믹서로 나만의 보이스 프로필 지정
  • 자막 생성: 문장, 콤마 단위, n단어 단위 자막 자동화
  • 오디오 출력: WAV, FLAC, MP3, OPUS, M4B(챕터 포함)
  • 자막 포맷: SRT, ASS 등 사용자화 지원
  • 챕터·프로젝트 관리: 챕터별 오디오, 병합본, 메타데이터 포함 프로젝트 폴더로 저장
  • 테마, 로그, 바로가기 등 UI 옵션 다양

#Voice Mixer

  • 여러 음성 모델을 가중치 조절로 조합, 유니크한 보이스를 직접 생성·저장·반복 사용 가능
  • 목소리 믹싱 결과를 보이스 프로필로 미리듣기 및 적용

#큐 모드

  • 파일별 개별 설정 유지, 여러 텍스트·eBook을 한 번에 자동 변환
  • 각 파일은 큐에 추가 시의 세팅을 별도 저장, 메인 설정 변경과 무관

#챕터 마커/메타데이터

  • 자동으로 챕터 분할 태그를 삽입
    • 수동으로도 `` 태그 삽입 가능
    • 오류 발생 시 해당 챕터만 빠르게 재처리 유리
  • 메타데이터 태그로 제목, 저자, 연도 등 정보를 추가해 오디오북 앱에서 정보 제공
    • 텍스트 파일 첫 부분에 추가 가능

#지원 언어

  • Kokoro-82M 엔진의 다국어 지원
  • 영어(미국/영국), 스페인어, 프랑스어, 힌디어, 이탈리아어, 일본어, 브라질 포르투갈어, 중국어 등
  • 다른 언어 자막은 엔진의 기술적 한계로 추후 추가 요청 가능

#출력 및 활용

  • MPV 등 고급 미디어 플레이어 추천, 동기화 자막 지원
  • Docker 기반 서버 구동 지원

#비슷한 프로젝트와의 차별점

  • Abogen은 독립형 GUI 및 커스터마이즈 기능, 프로젝트별 폴더 관리, 챕터·메타데이터 자동화, 큐 처리, 믹스 보이스 등 최고 수준 편의 제공
  • audiblez, autiobooks, pdf-narrator, epub_to_audiobook, ebook2audiobook와 유사점 있으나 GUI 사용성과 고급 TTS 엔진, 챕터/자막 동기화가 차별화 포인트임

#로드맵 및 컨트리뷰션

  • OCR(문서 인식) 추가, 다국어 GUI 강화 등 계획
  • 누구나 포크 후 기능 추가, 버그 수정 등 오픈소스 기여 가능

#기술 크레딧 및 라이선스

  • Kokoro-82M TTS, PyQt 기반 GUI, EbookLib 연동 등 각종 파트너 오픈소스 기술 활용
  • MIT 라이선스(상업적 이용 및 수정 자유), 엔진(Kokoro)는 Apache-2.0 라이선스

#주의사항 및 한계

  • 자막 동기화 기능은 현재 영어에 한해 제공(타 언어 지원은 Kokoro 엔진 개발 필요)
  • 일부 기능(Docker 내 오디오 프리뷰 등) 제한
  • 설치 및 환경 세팅 상세 가이드는 공식 문서 참고
Hacker News 의견
  • 나는 Calibre-Web에서 책을 제공받고, Abogen을 통해 오디오 버전으로 만들고, Audiobookshelf에서 이를 제공해주는 파이프라인을 상상함, 청각장애인에게도 정말 좋은 솔루션이 될 것 같음 Calibre-Web audiobookshelf 참고

  • 이 도구를 사용해서 텍스트로 된 책을 오디오북으로 만들어 개인적으로 소비하는 것은 괜찮지만, 작가가 이것을 활용해 배포용 파일을 만드는 것은 매우 위험함, 독립 작가들은 작품을 홍보하는 데 많은 어려움을 겪고 있고, 요즘에는 잠재 독자들이 AI가 사용되었다는 흔적만 보여도 바로 관심을 끊어버림, 나의 경우 연기를 잘 하면서 모국어가 영어가 아닌 성우들이나, 집에서는 다른 언어를 사용하는 성우들을 고용하기 시작했음, 억양을 조금 더 진하게 요청하기도 하는데, 이 방식이 AI로부터 구분되는 데 도움도 되고, 새로운 경험을 원하는 사람들에게 책의 매력을 더해줌, 예전에 지중해 인근 출신 연기자들이 얼마나 생동감 있게 오디오북을 녹음하는지 오디션에서 경험해보고 깜짝 놀랐음

    • 나는 Amazon의 WhisperSync 기능을 자주 이용함, 이 기능 덕분에 책을 읽으면서 동시에 들을 수 있음, 이동 중에도 가끔 시각적으로 내용을 확인하거나 나중에 하이라이트할 수 있어서 정말 편리함, 단점이라면 이 기능을 지원하는 책이 많지 않고, Kindle 앱에 기본 탑재된 읽기 기능은 품질이 별로임, 그래서 개인적으로는 훌륭한 사람이 써내려간 책에 추가로 AI 음성 기능이 나오면 정말 좋겠음
    • 요즘 잠재 독자들이 AI 흔적만 보여도 책을 건너뛴다는 게 진짜 보편적인지 잘 모르겠음, 텍스트를 읽을 때 결과물만 좋으면 AI로 읽든 뭐든 대부분 신경 안 쓰는 것 같음, 사람들이 AI가 쓴 책은 원하지 않지만, AI 음성으로 텍스트 읽는 건 기사나 책 들을 때 꽤 오래전부터 편하게 사용 중임, 이건 연기나 목소리 연출과는 별개임
  • 이것은 단순히 텍스트를 음성으로 변환하는 것인지, 아니면 진짜 오디오북처럼 만들어주는 것인지 궁금함, 좋은 오디오북은 성우가 등장인물을 각기 다르게 연기해주고 억양과 방언도 다르게 표현하는 경우가 많음, 이런 것들은 chatgpt 같은 도구로도 몇 문장은 쓸 수 있을 것 같지만 8~20시간짜리 오디오북 전체에서는 쉽지 않음, 현 수준에서는 epub을 최첨단 수준의 오디오북으로 만드는 데 여전히 기본적인 장벽이 있다고 생각함, 내가 놓친 게 있는지 궁금함

    • Elevenlabs에는 "풀 캐스트" 스타일 생성 기능이 있어서 각기 다른 캐릭터에 다른 목소리가 배정되기도 함, 하지만 방언에는 자동으로 민감하지는 않음, 현재 시스템들로도 문맥이나 프롬프트에 따라 억양이나 말투를 바꾸는 게 가능하기는 한데, 그 신뢰성은 잘 모르겠음
    • 믹서를 사용해서 다양한 캐릭터 음성을 섞어 여러 느낌을 낼 수 있음, 직접 다른 캐릭터에 맞는 목소리를 코드로 넣어보는 것도 가능함
    • 사실 나는 여러 캐릭터 음성 연출을 별로 안 좋아함, 맥락에 따라 인용문을 적절한 어조와 억양으로 읽어주는 건 좋은데, 인물마다 목소리를 다르게 하는 건 싫어함
  • 이 도구는 abogen 앱 실행 시 pip가 필요하므로 pip 사용이 가능한 환경에서 돌려야 함, uv tool run abogen 명령으로 시작할 수 있지만, 모델 설치 단계에서 멈춤, uv venv && uv pip install pip && source .venv/bin/activate && abogen 하면 제대로 도는 것 확인함, 패키징된 GUI도 잘 되어 있고, PDF 파일에서 페이지나 섹션 선택하는 UI도 좋고, 내 랩탑 GTX 1650으로 속도도 빠름, 결과물은 .ogg 오디오와 .ass 자막 파일로 나오고, mpv로 불러오면 터미널에서 듣고 읽기 함께 가능함, 한 가지 아쉬운 점은 PDF 원본의 줄바꿈이 그대로 남아 문장 중간에 길게 끊기는 경우가 있어서 이해에 방해가 됨, single newline 건너뛰는 기능을 켜면 확실히 개선됨

    • 나는 RTX 4060으로 110페이지짜리 책을 약 한 시간 만에 wav로 변환함, 줄바꿈 건너뛰기 기능을 켜지 않으면 결과물이 별로였음, 이 옵션 켜면 진짜 대단함, af_heart 목소리가 개인적으로 아주 마음에 들고 af_jessica는 좀 거슬림, 오디오북에서 가장 큰 문제는 성우에 대한 호불호가 책 내용만큼이나 중요하다는 점임, 이런 날이 곧 올 것 같았고 실로 감탄스러움, 오디오북에 워낙 익숙해져서 실제 책을 다 읽는 게 어려울 정도임, 시장성이 없어서 성우가 직접 읽어주지 않을 책 20권 정도를 이 기능으로 내가 좋아하는 목소리로 쉽게 변환 가능하게 된 게 정말 놀라움
  • 나는 오디오북을 정말 좋아하지만, 나레이션에 까다로움, 나에게 맞지 않는 성우라서 중간에 듣기를 포기한 오디오북들도 많음, 이런 서비스를 내가 진짜 쓸 수 있으려면 아직 시간이 오래 걸릴 것 같음

    • 나는 좋은 성우 덕분에 시리즈 전체를 구매해서 들은 경우도 있음, 예를 들어 Grim Noir Chronicles나 Soundbooth Theater의 풀 캐스트 작품들이 그랬음, 단순히 텍스트를 진동으로 바꾸는 것만 원한다면 TTS 기술도 충분하지만, 아직 AI 나레이션은 인간 성우가 줄 수 있는 그런 경험을 제공하지 못한다고 생각함
    • 나도 성우 때문에 오디오북을 중간에 포기했던 경험이 있지만, 오히려 반대로 AI의 중립적이고 괜찮은 목소리라면 예전에 힘들게 들었던 책을 끝까지 들을 수도 있을 것 같음, 차라리 공식 나레이션의 어색한 목소리보다 깔끔한 AI 음성이 나은 선택일 수도 있다고 기대함
    • R. C. Bray가 내레이션하던 시리즈가 갑자기 다른 성우로 바뀌며 급격히 듣기 어려워져서 아예 완독을 포기한 사례도 있음, 반면 Wil Wheaton처럼 내가 일부러 찾는 성우도 있음, 결국 오디오북에서 성우가 작품을 살리기도, 망치기도 함
    • 가장 좋아하는 오디오북이 궁금함
  • 텍스트 외에 코드, 도표, 이미지 등이 있는 책에는 잘 적용이 안 될 것 같음 (이건 당연한 부분임), 만약 PDF 페이지를 받아서 "순수 산문" 버전으로 변환해주는 오픈소스 신경망이 있는지도 궁금함, 예를 들어 그림과 텍스트가 같이 있는 페이지면 그림의 내용이나 묘사까지 텍스트로 나타내주는 식임

  • 블로그나 기사 등 짧은 분량에는 Kokoro TTS를 써봤지만, 기대에 못 미쳤음, 지금은 Gemini 2.5 Flash TTS가 성능도 훨씬 좋고 무료 한도도 관대함 (생성당 10분, 하루 90분), 짧은 글에는 음성의 일관성 문제가 별로 안 느껴지는데, 책 전체처럼 길어지면 이게 분명히 문제임

    • Kokoro는 TTS로 나쁘지 않지만, 감정 표현이 부족함, 이 모델의 크기를 생각하면 어쩔 수 없는 것 같기도 함
  • 철학책들을 오디오북으로 만들어 접근성을 높이려고 이 도구를 써봤는데, 중요한 문제가 있었음, Kokoro에 입력 문장이 너무 길면 끝 부분 단어나 문장이 건너뛰어지거나 흐려짐, abogen은 문장 단위로 텍스트를 잘라서 넣는데, 문장이 길면 그대로 Kokoro에 들어가서 오디오북 자체를 쓸 수 없을 수준임, 그래서 nltk와 정규식으로 더 세밀하게 나누는 내 tkinter GUI 앱을 직접 만들고 있음

    • 나는 "kokoro-tts" CLI가 쪼개기/분할 기능이 더 좋아서 만족스럽게 쓰고 있음 kokoro-tts, 이 도구는 각 챕터별 오디오 파일과 메타데이터도 같이 만들어줌, m4b-tool로 오디오 파일들 이어붙이고 챕터 정보도 추가할 수 있음 m4b-tool, 이 작업 방식에 대해 포스트를 써보고 싶은 마음도 큼 정말 유용함
    • 나는 요즘 딥러닝 TTS가 출력 결과가 너무 비결정적이라 불만임, 고전적인 방식은 예측 가능한 발음을 제공해서 차라리 더 낫다고 느낌
  • PDF를 잘 정리된 ePub으로 만들어주는 솔루션이 나오길 개인적으로 기대하고 있음

  • Kokoro TTS를 CLI용 audiblez와 같이 사용해봤음, 작은 모델이지만 속도도 빠르고 음질도 인상 깊었음, 다만 몇 가지 아쉬운 점이 있음: a) 문장 끝의 마침표와 "Mr." "Mrs." 같은 약어의 마침표를 구분하지 못해서 어색한 멈춤이 생김, b) 줄임표 (...) 처리가 잘 안 됨, c) 문맥이 달라도 단어 발음이 항상 동일함

    • SSML phoneme 태그를 활용해보는 것도 방법임, 일부 TTS가 이를 지원함, 강력한 LLM으로 사전처리를 해서 이런 문제를 피할 수 있음
    • Mr. / Mrs. 문제 같은 사례는 꽤 쉽게 고칠 수 있을 것 같음, 적어도 흔한 경우의 일부라도 제거가 가능하다고 생각함