macOS에서 mlx-audio를 이용해 실행해봤음. Prince Canuma의 트윗 덕분에 가능했음
내가 사용한 스크립트는 여기에 있음 uv로 실행하면 처음에 4.5GB 모델을 다운로드함. 예시 명령어는 다음과 같음 uv run https://tools.simonwillison.net/python/q3_tts.py 'I am a pirate, give me your gold!' -i 'gruff voice' -o pirate.wav
정말 멋짐. uv의 또 다른 승리임
직접 voice cloning을 해보고 싶다면 Hugging Face 데모에서 가능함
"Voice Clone" 탭으로 가서 예시 텍스트를 붙여넣고 마이크로 자신의 음성을 녹음한 뒤, 다른 텍스트를 입력하면 자신의 목소리로 읽어주는 버전을 생성할 수 있음
내가 생성한 오디오 샘플은 여기에 공유했음
솔직히 좀 무섭게 느껴짐. z-image-turbo와 함께라면 이제 화면 속 모든 것은 가짜일 수 있다고 가정해야 함. 암호학적 검증 없이는 신뢰할 수 없는 시대에 들어섰음
HF 데모가 과부하였지만 로컬에서는 잘 작동했음. 1.7B 모델은 화자의 톤을 잘 잡지만 억양 변화는 부족해서 단조롭게 들림. 아마 데모에서 표현력 조절 기능을 노출하지 않아서일 것 같음. 그래도 0.6B보다 잡음 처리는 훨씬 나았음. FlashAttention 없이 5090 GPU에서 0.3배속 정도로 느렸지만 품질은 인상적이었음
놀라운 기술임. 내 복제된 목소리가 정말 나처럼 들렸음. 좋은 용도도 나쁜 용도도 많을 것 같음 — 예를 들어 돌아가신 할머니가 손주에게 동화책을 읽어주는 것부터, 사기나 자동 팟캐스트 제작까지 가능함
게시한 녹음만으로는 복제 성능을 판단하기 어려움. 원래 목소리 샘플도 함께 있어야 함
재미있게 써봤음. 내 목소리 몇 분만 녹음해두면 언젠가 내가 나에게 책을 읽어주는 오디오북을 만들 수도 있을 것 같음
흥미로운 모델임. 1080 GPU에서 0.6B 모델을 돌려봤는데, 200자 단위로는 OOM 없이 생성 가능했음. 도덕경 오디오북을 만들어보려 했는데, 결과가 매번 달라서 마치 마법의 룰렛 같았음. 어떤 부분은 명확하고 어떤 부분은 웃거나 신음하는 식으로 감정이 들쭉날쭉했음. Ryan 화자가 가장 안정적이었고, Eric은 과장된 중국식 억양처럼 들렸음. 감정이 일정했다면 지금까지 써본 TTS 중 최고였을 것임
감정을 직접 지정해봤는지? 비워두면 랜덤 감정(rng) 으로 설정될 수도 있음
1080에서의 RTF(실시간 비율) 이 궁금함. 0.6B 모델이 엣지 디바이스에서 실시간 추론 가능한지 확인 중임
Qwen 팀에게 부탁하고 싶음 — Opus 4.5의 코딩 능력을 능가하는 모델을 내줬으면 함. 모델은 마음에 들지만, 그 회사의 폐쇄적 리더십과 정치적 분열성은 싫음
그들이 기다리던 코멘트일지도 모름
나도 같은 문제를 겪음 (덴마크인임). Open Code와 Minimax m2.1(월 10달러)로 테스트했는데 꽤 잘 작동했음. GLM 4.7도 훌륭함. 자세한 비교는 이 글에 있음. 굳이 싫어하는 회사에 돈을 보낼 필요는 없음
“정치적으로 분열적”이라는 게 무슨 의미인지 궁금함
GLM 4.7로 좋은 결과를 얻고 있음. 두 개의 max 계정을 24/7 돌리고 있고, 코드 리뷰는 Claude로 일부 처리함. 비용이 문제라면 GLM 4.7이 좋은 선택임
새로 나온 GLM 4.7을 시도해봤는지 묻고 싶음
이런 기술이 소름 돋을 정도로 발전한 건 오랜만임. 2018년부터 AI TTS를 써왔지만, 이번 모델은 처음으로 옛 라디오 드라마 복원이 가능하다고 느꼈음. 예를 들어 테이프 손상으로 일부 대사가 사라진 부분을 문맥으로 복원할 수 있을 것 같음. Bob Bailey 같은 배우들의 수십 시간 분량 오디오를 다시 살릴 수 있을지도 모름
들은 샘플들이 미야자키 스타일 애니 더빙처럼 들렸음. 혹시 그런 데이터로 학습된 걸까 궁금함
나도 “Have Gun - Will Travel” 라디오 에피소드를 복원하는 프로젝트를 계획 중임. 테이프 손상이나 효과음 간섭으로 알아듣기 힘든 부분을 복원할 수 있다면 정말 놀라운 일임. 물론 악용 가능성도 크지만
Mac에서 실행해본 사람 있는지 궁금함. 설치 가이드가 NVIDIA GPU(CUDA, FlashAttention) 를 전제로 되어 있어서, PyTorch Metal/MPS 백엔드에서 작동할지 모르겠음
FlashAttention 없이 --no-flash-attn 옵션으로 실행 가능함. 나도 Windows에서 그렇게 함
modal을 이용해 Metal 환경을 임대하는 걸 추천함
FlashAttention 의존성이 있어서 현재로선 불가능함. 누군가 Metal용 포팅을 해주길 바람
마지막 Age Control 예시는 “미국식 억양”으로 설정했는데, 내 귀엔 호주인이 미국식 억양을 흉내내는 것처럼 들렸음
오디오북 제작에 정말 적합할 것 같음. 기존 AI TTS는 여전히 자연스러움이 부족했음
성우 업계는 이제 천천히 익어가는 중임. 일부 데모는 인디 성우보다 훨씬 완성도 높은 음성을 들려줬음
언젠가 내 할머니가 이걸로 사기당할까 걱정됨
지금까지는 그게 주요 사용 사례처럼 보임
하지만 요즘 할머니들은 QVC와 전화 점술사 세대라서, 이제는 그런 일에 쉽게 속지 않을지도 모름
Hacker News 의견들
macOS에서 mlx-audio를 이용해 실행해봤음. Prince Canuma의 트윗 덕분에 가능했음
내가 사용한 스크립트는 여기에 있음
uv로 실행하면 처음에 4.5GB 모델을 다운로드함. 예시 명령어는 다음과 같음uv run https://tools.simonwillison.net/python/q3_tts.py 'I am a pirate, give me your gold!' -i 'gruff voice' -o pirate.wav직접 voice cloning을 해보고 싶다면 Hugging Face 데모에서 가능함
"Voice Clone" 탭으로 가서 예시 텍스트를 붙여넣고 마이크로 자신의 음성을 녹음한 뒤, 다른 텍스트를 입력하면 자신의 목소리로 읽어주는 버전을 생성할 수 있음
내가 생성한 오디오 샘플은 여기에 공유했음
흥미로운 모델임. 1080 GPU에서 0.6B 모델을 돌려봤는데, 200자 단위로는 OOM 없이 생성 가능했음. 도덕경 오디오북을 만들어보려 했는데, 결과가 매번 달라서 마치 마법의 룰렛 같았음. 어떤 부분은 명확하고 어떤 부분은 웃거나 신음하는 식으로 감정이 들쭉날쭉했음. Ryan 화자가 가장 안정적이었고, Eric은 과장된 중국식 억양처럼 들렸음. 감정이 일정했다면 지금까지 써본 TTS 중 최고였을 것임
Qwen 팀에게 부탁하고 싶음 — Opus 4.5의 코딩 능력을 능가하는 모델을 내줬으면 함. 모델은 마음에 들지만, 그 회사의 폐쇄적 리더십과 정치적 분열성은 싫음
이런 기술이 소름 돋을 정도로 발전한 건 오랜만임. 2018년부터 AI TTS를 써왔지만, 이번 모델은 처음으로 옛 라디오 드라마 복원이 가능하다고 느꼈음. 예를 들어 테이프 손상으로 일부 대사가 사라진 부분을 문맥으로 복원할 수 있을 것 같음. Bob Bailey 같은 배우들의 수십 시간 분량 오디오를 다시 살릴 수 있을지도 모름
Mac에서 실행해본 사람 있는지 궁금함. 설치 가이드가 NVIDIA GPU(CUDA, FlashAttention) 를 전제로 되어 있어서, PyTorch Metal/MPS 백엔드에서 작동할지 모르겠음
--no-flash-attn옵션으로 실행 가능함. 나도 Windows에서 그렇게 함마지막 Age Control 예시는 “미국식 억양”으로 설정했는데, 내 귀엔 호주인이 미국식 억양을 흉내내는 것처럼 들렸음
오디오북 제작에 정말 적합할 것 같음. 기존 AI TTS는 여전히 자연스러움이 부족했음
성우 업계는 이제 천천히 익어가는 중임. 일부 데모는 인디 성우보다 훨씬 완성도 높은 음성을 들려줬음
언젠가 내 할머니가 이걸로 사기당할까 걱정됨