Chatterbox TTS

(github.com/resemble-ai)

3P by GN⁺ 5달전 | ★ favorite | 댓글 1개

Chatterbox는 Resemble AI가 공개한 최신 오픈소스 TTS(음성 합성) 모델임
경쟁사인 ElevenLabs와 비교 평가에서 지속적으로 선호 결과를 보임
감정 과장 제어 등 독자적인 기능을 탑재해 다양한 음성 표현 가능함
5억 개 파라미터 Llama 백본과 50만 시간의 정제된 데이터로 훈련 진행함
모든 생성 음성에 Perth 워터마킹 내장으로 무단 사용 및 위변조 방지 지원함

Chatterbox TTS 소개 및 중요성

Chatterbox는 Resemble AI에서 개발한 생산 환경 등급의 오픈소스 TTS(텍스트 음성 변환) 모델임
MIT 라이선스를 적용해 자유롭게 활용 가능, 닫힌 소스 상용 모델(예: ElevenLabs)과 비교시에도 우수한 품질을 입증 받은 결과 공개함
동영상, 밈, 게임, AI 에이전트 등 콘텐츠 제작 전반에 적용 가능, 오픈소스 TTS 최초로 감정 과장 제어 기능을 제공함
Hugging Face Gradio 앱이나 자체 API로 시연 및 실사용 가능, 대규모 또는 높은 정확도 필요시 상용 API(200ms 이하 초저지연) 제공함

주요 특징

최첨단 제로샷 TTS: 별도의 데이터 없이도 다양한 화자 스타일 표현 가능
0.5B Llama 백본: 대형 언어 모델 구조를 음성 합성에 접목함
감정 과장/강도 조절: 각 화자별 개성/감정의 강도를 세밀하게 제어할 수 있는 기능 제공
Alignment-informed inference: 음소와 오디오 정렬 정보를 반영해 초고안정 생성 품질 구현
0.5M 시간 정제 데이터: 대규모/고품질 음성 데이터셋으로 학습 진행
내장 워터마킹: Resemble AI의 Perth(Perceptual Threshold) 워터마킹으로 생성물 추적·무단사용 방지
음성 변환 스크립트: 손쉽게 사용 가능한 voice conversion 기능 내장
성능 검증: ElevenLabs 대비 우수 평가 결과 확보

사용 팁

일반 TTS/음성 에이전트: 기본값(Exaggeration=0.5, cfg_weight=0.5)으로 대부분 상황에서 균형 잡힌 품질 구현
- 빠른 화자 스타일일 경우 cfg_weight 값을 0.3 부근으로 조절 시 더 자연스러운 속도 제공
감정적/극적인 음성 합성: Exaggeration을 0.7 이상으로 높이고 cfg_weight 감소 시 극적인 발화 효과 강화
- 감정 강도(exaggeration)가 높을수록 발화 속도 빨라짐, cfg_weight를 낮추면 더 천천히 또렷한 발화 조정 가능

지원 언어

현재는 영어만 지원함

참고/의존 오픈소스

Cosyvoice, Real-Time-Voice-Cloning, HiFT-GAN, Llama 3, S3Tokenizer 등 다양한 최신 음성·언어 모델 기술 반영함

Perth 워터마킹 내장

Perth(Perceptual Threshold) 워터마킹: 모든 생성 음성에 오디오 품질 저하 없는 신경망 워터마크를 삽입함
워터마크는 MP3 압축, 오디오 편집, 가공에도 유지됨
정확도 100%에 가까운 자동 탐지 가능, 원본 추적·위변조 방지 및 책임감 있는 AI 사용 지원

워터마크 추출 예시

별도 스크립트로 해당 워터마크 포함 여부 검증 가능
Python 패키지 perth, librosa 활용해 오디오에서 워터마크 값(0 또는 1) 추출 가능

커뮤니티

공식 Discord 커뮤니티 운영 중, 누구나 합류 및 협업 가능

면책 조항

본 모델은 악의적 용도 사용 금지, 프롬프트는 인터넷에서 공개된 데이터만 활용함

▲

GN⁺ 5달전 [-]

Hacker News 의견

모든 Chatterbox로 생성된 오디오 파일에는 Resemble AI의 Perth(Perceptual Threshold) 워터마커가 포함됨 안내를 보게 됨
imperceptible neural watermarks라서 MP3 압축, 오디오 편집, 각종 변조에도 살아남으면서 100%에 가까운 탐지 정확도를 가진다고 광고
근데 tts.py에서 apply_watermark 함수 호출만 주석 처리하면 워터마크 넣는 걸 쉽게 비활성화할 수 있는 것 아닌지 궁금증
이런 워터마크라면 원래 모델 자체에 숨겨서 손쉽게 제거되지 않게 하는 게 목적이라 생각
오픈소스 모델에 워터마크를 별도 후처리 단계로 추가하는데, 이럴 거면 왜 굳이 워터마크를 넣는 건지 의문
이런 건 일종의 CYA(Cover Your Ass, 자기 보호) 제스처라고 추측
오리지널 Stable Diffusion에도 content filter가 있었던 것처럼
또 트레이닝 데이터 혼입 방지도 의도 가능성
심지어 parser에 --no-watermark 플래그도 들어가 있음
최종적으로는 이걸 하나의 “기능”처럼 써서 더 큰 제품에 포함시킬 사용자를 위해 넣은 것 같음
OpenAI, Google, ElevenLabs 아닌 업체는 적극적으로 오픈소스 하지 않으면 완전히 관련성 없어질 것임
TTS 시장 리더는 이미 뚜렷하고, Resemble, PlayHT 등은 개발자들에게 무게와 소스코드를 공개해야 어느 정도 시장 점유율이라도 가져올 수 있음
워터마킹은 미디어의 남용 비판 대응용 CYA 성격
이런 쪽 이슈가 없으면 미디어와 반 AI 진영(404Media 등)에서 악용 이슈를 제기할 것임
소스, 가중치 공개, 별도 API/파인튜닝 옵션 제공 방식이 옳은 방향
참고로 404Media 기사
데모 페이지는 여기 안내
만약 데모 오디오가 너무 골라낸 예시 아니라면 정말 좋은 릴리즈라 생각
매번 하는 말이지만 실제로 음성 AI는 TTS 품질보다도 음성 인식(트랜스크립션) 쪽이 한계라는 점을 실험에서 계속 체감
최근에 바뀐 게 없다면 여전히 한계점
최근 경험으론 LLM이 트랜스크립션 오류까지도 잘 읽고 활용해 주는 수준
아직 LLM에게 여러 버전의 트랜스크립션이나 confidence level을 넘겨 본 적 없지만, 활용하면 잘 써 먹을 것 같다는 기대
실제로 Speechmatics 써봤는데 트랜스크립션 품질 꽤 쓸만했다는 경험
Huggingface 데모로 직접 써보면, 페이지 데모에서처럼 감정 표현이 그렇게까지 자연스럽지는 않았고 골라낸 예시 느낌도 듦
합성 데이터로 트랜스크립션 문제를 극복할 수 있지 않을까 궁금증
데모에 욕설이 직접 들어간 것 정말 좋게 봄
Pulp Fiction에서 따온 문장인 것도 재밌음
기존 데모들은 맨날 심심하고 무난해서 지겨웠음
인디 TTS 커뮤니티에서는 Navy Seals copypasta 많이 쓰이는데, Resemble처럼 서비스 회사가 이런 문장 집어넣은 건 신선
Copypasta 위키, Navy Seal copypasta 사례
여기에서 무료로 돌려볼 수 있음
재미있게 써봤다는 체험
내 오스트레일리아 악센트를 넣으니 아주 영국식, 그것도 엄청 부드러운 RP 발음으로 나옴
너무 자연스럽게 들리는데 내 억양을 재현하는 느낌은 확실히 아님
실사용에는 명료하고 자연스러운 음성이 중요한 경우가 많으니 그런 곳엔 완벽히 적합
아쉽게도 트레이닝이나 파인튜닝 코드가 공개되어 Flux나 Stable Diffusion처럼 “완전히 열린” 수준은 아님
“open” 모델 중 더 좋은 것들로는
- Zeroshot TTS: MaskGCT, MegaTTS3
- Zeroshot VC: Seed-VC, MegaTTS3
  실제로는 Seed-VC만 훈련/파인튜닝 코드가 있지만, 모두 Chatterbox보다 제로샷 성능 좋음
  특히 ByteDance의 MegaTTS3는 ElevenLabs 빼고는 따라올 회사가 없을 정도
  ByteDance는 돈, 인력, 데이터 모두 압도
  만약 파인튜닝 없이 제로샷 음성 재현이 목적인 경우 이런 모델들이 더 나은 선택
생산 환경 TTS API 배포 구현 예시도 오픈소스로 나옴
배포 가능한 모델 링크도 첨부
샘플 추론 코드, 음성 복제 예시 안내
아직 스트리밍 지원 작업 중 안내
정말 흔한 억양엔 뛰어나게 동작한다 생각
근데 생각보다 꽤 흔한 억양에서도 다른 억양(예: 스코틀랜드 녹음인데 오스트레일리아 억양)이 묻어 나옴
요크셔 지방 억양도 잘못 집음
스코틀랜드 억양 넣었더니 내 오스트레일리아 억양조차도 영국식 RP로 변신해버림
이건 모델보다 스코틀랜드 억양 특성이 더 문제라는 의견
영국 악센트 배우 같은 느낌 믿음
하드웨어 사양 질문, 최소 스펙에서 돌아가는지 궁금
GitHub 이슈 페이지에 따르면, 최적화가 아직 잘 안 된 상태
그래서 기본 상태에서는 제법 높은 사양의 소비자용 하드웨어가 필요
하지만 앞으로 최적화될 여지가 높다고 봄
이슈 링크
이 이슈 기준으론 6~7GB VRAM 필요
모델이 충분히 가치 있으면 누군가 더 적은 VRAM으로 돌릴 방법 찾아줄 것 같음
실제로 구형 Nvidia 2060에서 돌려봤는데 VRAM 피크 약 5GB
이런 질문 절대 사소하지 않은 질문, 오히려 최고의 질문
무료로 돌릴 수 있지만 실제 비용 때문에 셀프 호스팅의 의미가 없어질 수도 있음
나도 같은 의문 있어서 찾아봤던 사람
고가 GPU 필요한지, 아니면 12년 된 노트북에서도 도는지 궁금
구형 CPU에서의 구동 경험 공유하려 했으나 30분 넘게 설치와 오류만 반복
겪은 문제 나열:
- Python 3.13 미지원 및 uv로 3.12 가상환경 재설정
- numpy 1.26.4 미인식, uv pip가 pytorch 저장소만 검색
- pip install chatterbox-tts 버전이 CPU only 모드에서 버그
- 기본 main 버전은 Debian에 protobuf-compiler 필요
- 알 수 없는 CMake 오류, Python dev 헤더 없다는 불만
  남의 Python 프로젝트 돌릴 때마다 반복되는 이 삽질 때문에 지치는 심정
감정 표현 과장이 흥미로웠지만, Elevenlabs처럼 텍스트 설명만으로 원하는 음성색을 “조각”하듯 만들 수 있는 서비스는 아직 못 찾았음
SparkTTS가 파라미터를 좀 더 제공하고 있고 GitHub 코드에 더 정교한 감정 조절 가능성도 보임
내 경우엔 prosody와 tonality 조작을 텍스트에서 과하게 주어 일부 모델에서 원하는 컨셉에 접근한 경험은 있음
그래도 Elevenlabs에서의 직관적인 감정 디자인에 비해 훨씬 번거로운 작업
데모를 직접 내 목소리 일부로 테스트한 소감
- 출력이 내 목소리 느낌 어느 정도 따라가긴 했지만 엄청 유사하지는 않았음
  그래도 아주 짧은 샘플로 여기까지 따라온다는 점은 꽤 놀라움
- CFG/pace 수치를 조금만 높여도 오디오가 바로 알아들을 수 없는 상태로 망가짐
- 내 억양이 오스트레일리아인데 출력은 영국식, 미국식으로 제각각 나옴
- 감정 과장 표현 재밌었지만, 어떤 감정이 나오는지는 매번 달랐음
이런 TTS 모델이 책 낭독까지 설득력 있게 할 수 있는지, 몇 문단 지나면 음성 일관성이 깨지는 건 아닌지 궁금
대부분 TTS 시스템은 긴 텍스트에서 품질이 망가지니, 실제로는 단락별로 끊어서 낭독 후 다시 이어붙이는 게 좋음
또 one-shot 샘플 웨이브가 노이즈 섞이면 Chatterbox가 가끔 끝에 정체불명 소리까지 출력해 주는 보너스
특히 단테의 신곡 같은 걸 읽을 때는 “지옥의 소리” 체험
언젠가 품질이 충분히 좋아지면 Audible에 AI 내레이션 오디오북 넘쳐날 것 같음
(Amazon이 해당 사실을 고지할지 여부만 의문)
직접 epub 책 한 권을 오디오북으로 생성해 봤는데 이 도구로 아주 나쁘지 않은 결과 얻은 경험
audiobook 변환 툴 audiblez
해당 분야 회사 컨설팅 중인데, 분명히 현재 기술로 책 낭독에는 문제 없다고 단언
1년 전 친구에게 Carl Rogers 치료 오디오북을 재미 삼아 Attenbrough 스타일로 합성해 들려줬는데, 이미 그때도 꽤 훌륭한 품질
1년이 지난 지금은 분명 더 좋아졌다고 본다

답변달기