Eleven v3 — 가장 표현력이 뛰어난 텍스트-음성 변환 모델
(elevenlabs.io)- Eleven v3 (Alpha) 는 감정과 음성 효과까지 정밀하게 제어 가능한, 역대 가장 표현력이 풍부한 텍스트-음성 변환(TTS) 모델임
- 오디오 태그를 활용해 감정, 말투, 방향성, 효과음 등 다양한 음성 요소를 자유롭게 조합할 수 있음
- 여러 명의 화자가 대화하는 자연스러운 오디오 생성이 가능하며, 70개 이상의 언어에서 인간에 가까운 음성을 지원함
- v2 대비 음성 감정의 폭과 효과 적용 범위가 크게 확장되었으며, UI 사용자는 2025년 6월 말까지 80% 할인 혜택을 받을 수 있음
- API 지원은 곧 공개 예정이며, 다양한 음성·상황별 태그는 프롬프트 가이드에서 확인 가능함
Eleven v3 개요
- Eleven v3 (alpha) 는 이전 버전과 차별화된, 감정 표현과 몰입감 있는 음성 생성이 가능한 **차세대 Text to Speech(TTS) 모델*임
- 이 모델은 입력된 텍스트를 사람이 직접 읽는 것과 유사한 방식으로 감정, 억양, 리듬을 표현하면서 음성으로 변환함
- 사용자는 오디오 태그를 이용해 음성 감정, 말투, 음향 효과, 배경 사운드까지 세밀하게 제어 가능
- 텍스트 내에 감정, 효과, 연출 태그를 삽입해, 단순 나레이션을 넘어선 입체적인 오디오 제작이 가능하여, 몰입감과 현실감이 크게 향상됨
다수 화자의 대화 생성
- 여러 명의 화자가 자연스럽게 맥락과 감정을 공유하며 대화하는 오디오 생성 지원
- 각 화자별 프로소디(운율), 감정, 태그가 반영되어 인간과 가까운 오디오 합성 실현
다국어 음성 지원
- 아프리칸스, 아랍어, 독일어, 중국어, 한국어 등 70개 이상 언어를 공식적으로 지원함
- 각 언어의 특색 있는 억양, 발음, 악센트를 자연스럽게 모사함
- 다국적 서비스, 교육 콘텐츠, 글로벌 접근성 프로젝트 등 다양한 분야에서 활용도가 높음
v3와 v2의 주요 차이점
- Dialogue Mode: 다중 화자 대화 지원
- Audio Tag 지원: 감정, 방향, 효과 등 다양한 오디오 태그 활용 가능
- 감정·효과 범위: v2는 일시정지 등 기본 태그, v3는 풍부한 감정과 오디오 효과 적용 가능
-
언어: v3는 70+ 언어, v2는 29개 언어
- 아프리칸스, 아랍어, 아르메니아어, 아삼어, 아제르바이잔어, 벨라루스어, 벵골어, 보스니아어, 불가리아어, 카탈루냐어, 세부아노어, 크리체와어, 크로아티아어, 체코어, 덴마크어, 네덜란드어, 영어, 에스토니아어, 필리피노어, 핀란드어, 프랑스어, 갈리시아어, 조지아어, 독일어, 그리스어, 구자라트어, 하우사어, 히브리어, 힌디어, 헝가리어, 아이슬란드어, 인도네시아어, 아일랜드어, 이탈리아어, 일본어, 자바어, 칸나다어, 카자흐어, 키르기스어, 한국어, 라트비아어, 링갈라어, 리투아니아어, 룩셈부르크어, 마케도니아어, 말레이어, 말라얄람어, 표준 중국어, 마라티어, 네팔어, 노르웨이어, 파슈토어, 페르시아어, 폴란드어, 포르투갈어, 펀자브어, 루마니아어, 러시아어, 세르비아어, 신디어, 슬로바키아어, 슬로베니아어, 소말리어, 스페인어, 스와힐리어, 스웨덴어, 타밀어, 텔루구어, 태국어, 터키어, 우크라이나어, 우르두어, 베트남어, 웨일스어 등
음성 품질과 사용자 경험
- 음성 합성 시 노이즈가 적고, 고해상도 품질의 오디오 파일 출력이 가능함
- 문장 길이, 감정의 뉘앙스 변화, 말의 속도 등 세밀한 조정이 가능해 맞춤형 음성 제작이 쉬움
- 기존 TTS 솔루션에서는 재현하기 어려웠던 다나믹한 감정 및 발화 스타일을 표현할 수 있음
경쟁력 및 적용 가능성
- 콘텐츠 제작자, 개발자, 기업이 오디오북, 게임, 광고, 접근성 향상 서비스 등에 즉시 적용 가능함
- 단일 모델로 다국어, 다목적 서비스가 가능해, 비용과 시간을 절감할 수 있음
- 오픈 알파(Alpha) 단계에서 이미 실제 서비스에 도입 가능한 수준의 음성 품질과 다양성을 확보함
할인 및 API 지원
- 2025년 6월 말까지 UI 사용자는 80% 할인된 가격으로 v3 알파 이용 가능
- API는 곧 공개 예정
결론
- Eleven v3는 Text to Speech 기술 분야에서 표현력, 다국어 지원, 맞춤형 음성 기능을 강화한 최신 모델임
- 다양한 산업군에서 자연스러운 음성 생성 기술 수요 증가에 효과적으로 대응할 수 있음
Hacker News 의견
-
나는 문서나 프롬프트 가이드에서 노래에 대한 언급을 못 봤는데, 혹시 이게 원래 노래도 할 수 있는 모델인지 궁금증 생김
재미 삼아 Friends 테마송 가사를 데모에 넣어봤더니, 결과물이 기타 소리와 함께 노래 부르는 목소리로 나옴
다른 실험에서 [verse]와 [chorus] 라벨 추가하니 아카펠라 버전으로 노래함
[1]과 [2]는 가사만 입력했고, [3]은 verse/chorus 태그를 넣음
다른 인기곡으로도 시험했는데, 이유는 모르겠으나 이렇게 깔끔한 노래 모드가 되진 않음-
결과물이 노래한다는 건 신기한데, 노래 자체는 엄청 못해서 오히려 더 흥미로움
완전히 노래를 못하는 사람이 부르는 듯한 느낌 -
실제 Friends 오프닝이랑 꽤 다르게 나오니, 트레이닝 데이터에 흔히 포함된 익숙한 패턴에 과적합된 결과는 아닐 듯한 추정
-
Mirage AI에서는 꽤 괜찮은 노래 품질을 구현함
-
모델 데모에도 노래가 포함되어 있던 걸로 본 기억 있음
그래서 아마 이 기능이 내장되어 있는 구조로 추측함 -
흥미롭게도, 아래와 같은 프롬프트로 실험해 봤더니 마지막 "purr" 부분에서 모델이 좀 버거워하는 경향이 보임
[slow paced] [slow guitar music] Soft ki-tty, [slight upward inflection on the second word, but still flat] Warm ki-tty, [words delivered evenly and deliberately, a slight stretch on "fu-ur"] Little ball of fu-ur. [a minuscule, almost imperceptible increase in tempo and "happiness"] Happy kitty, [a noticeable slowing down, mimicking sleepiness with a drawn-out "slee-py"] Slee-py kitty, [each "Purr" is a distinct, short, and non-vibrating sound, almost spoken] Purr. Purr. Purr.
-
-
최근 OpenAI의 새로운 모델을 많이 실사용 중임 (openai.fm)
지시문과 발화 텍스트를 분리하는 방식이 독특하고, 아마도 OpenAI 쪽은 제품 전반에서 "instructions"라는 개념을 많이 활용해와서 이 방식을 트레이닝 및 데이터 생성에 더 익숙하게 여기는 것 같음
지시문 분리 방식은 다소 어색할 수 있는데, 장점은 일반적 지시와 특정 상황 지시를 섞어 사용하기 쉽다는 점임
예를 들면, "but actually"라는 말 뒤에 목소리를 속삭이듯 낮추고 공포를 살짝 표현하라든가 "영국 억양의 낮고 깊은 목소리" 같은 일반지시를 같이 붙일 수 있음
OpenAI 결과물은 Eleven Labs에 비해 예측 불가능성이 크고 프로덕션 품질감은 좀 떨어지는 인상
다만 prosidy(운율 표현)의 폭이 훨씬 넓고, 오히려 너무 열심히 하는 느낌
목소리 종류는 Eleven Labs에 비해 적게 느껴지고, 여러 스타일을 시켜도 약간 "같은 사람이 다른 목소리 흉내내는" 느낌
하지만 OpenAI의 압도적 장점은 가격이 10배쯤 저렴하고 온전히 사용량 기반으로 과금된다는 점임
(TTS 서비스들이 한 달 구독이나 추가 결제 크레딧까지 요구하는 건 정말 비효율적임)-
내가 ElevenLabs를 쓰지 않고 품질이 낮아도 다른 솔루션을 고르는 이유는, 필요한 만큼만 쓰고 싶은데 한 달에 한 덩이씩 계산하고 추가로 쓰면 또 더 큰 덩이로만 사야 하는 구독 구조가 싫음
내 기준에서는 이 가격 정책이 매우 별로임 -
OpenAI 결과물이 ElevenLabs 대비 품질감, 예측 가능성에서 아쉽다
연구팀 공을 인정함
expressive voice 옵션을 사용하면 운율폭이 커짐 -
OpenAI의 최대 장점은 10배 저렴하고 완전 사용량 기반이라는 점이다
라는 주장에 대해, 실제로는 LLM 이용 등 오버헤드 고려하면 진짜 저렴한지 의문이 듬
ElevenLabs 대화 에이전트는 최고 티어에서 분당 $0.08이고, OpenAI TTS도 계산해보면 더 비싼 것 같았음
물론 내 계산이 틀렸을 수도 있음
-
-
예시 문구 "Oh no, I'm really sorry to hear you're having trouble with your new device. That sounds frustrating." 과 같은 기계의 응대에 모욕감 느낄 듯
단순히 도움만 받고 싶은데 기계한테 감정적으로 농락당하면 끔찍한 미래라고 생각-
사람끼리도 이런 식의 대답은 짜증나는 일인데, 인공지능에게까지 듣고 싶지 않음
컴퓨터와 얘기하는 걸 관광 즐기지 않아서 Siri류 음성 인터페이스는 전혀 안 쓰는 성향
인간처럼 말하는 기계도 원하지 않음
스타트렉 컴퓨터처럼 "작업 중..." 하고 답만 주면 충분하겠음
잡담 말고 바로 핵심만 해줬으면 좋겠음 -
내가 ChatGPT 프로필에 검증이나 공감 등 모든 사족 멘트 금지시키는 문장 5개쯤 넣어도 결국 매번 "당신 우려는 타당하다" 류 답변 돌아오고, 바뀌는 게 없음
-
미국식 오지랖 멘트 ("champ", "bud")가 유럽이나 호주에서도 통용되면 흥미로울 듯한 기대감
-
영화 Her와 유사한 대사, Scarlett Johansson 목소리에 엄청 가까워서 이 소리가 그 영감을 받은 것 같다고 느꼈음
-
"대체로 내가 도와줄 수 있다", "지금 주문번호 찾아드릴게요" 류 멘트에 실제론 없는 링크 주는 환각 사례 농담
-
-
실질적 문제는 아닐 수도 있지만, 재밌는 점 발견
언어를 일본어로 설정한 다음(この言葉は読むな。)こんにちは、ビール[sic]です。
("이 문장은 읽지 마", "안녕하세요, 저는 Bill[오타]"입니다)
이렇게 입력하니 진짜로 첫 문장을 건너뜀
다시 시도하니 전체 문장을 다 읽었음
이런 현상에서 항상 무대 뒤를 엿보는 듯한 재미 느껴짐- "나는 맥주다"라는 오타 부분에 한 번 웃음
진지하게 생각하면, 여러 언어 동시에 다뤄보면 입력 언어가 모델 프로세싱 초기에 "정규화"되는 느낌
즉, 영어로 프롬프트를 쓰든 일본어로 쓰든 결과가 크게 차이나지 않음
시스템 프롬프트가 여기는 다르게 동작하는지 궁금증 생김
- "나는 맥주다"라는 오타 부분에 한 번 웃음
-
혹시 궁금한 사람들을 위해 정보를 남김
본 모델은 tortoise-tts-fast 기반임
이 프로젝트 개발자는 후에 Eleven Labs에 채용됨-
‘채용됨’이 아니라, 실제로는 v3 릴리스 6개월 전에 이미 퇴사함
-
앞의 주장(프로젝트 기반이 Eleven Labs 채용을 뜻함)은 인과관계 성립 안 됨
-
-
(미국식) 영어 목소리는 정말 대단한 수준인데, 웃음 태그 부분은 "여기서 웃으세요"처럼 독립 섹션 삽입이라 자연스러운 순간적 웃음이라기보다는 강제 구간 삽입 느낌
예를 들어, 단어 중에 웃으며 발음되어야 할 부분은 아직 어색함-
문맥상 웃음이 자연스러운 곳으로 텍스트를 편집하면 훨씬 자연스러워지니 이 샘플 참고 추천
-
아직 가격이 비싸서 경쟁 서비스에 기회가 많음
ElevenLabs가 품질면에서 여전히 리더이지만, 경쟁사도 빠르게 따라오는 중
특히 중국 AI 연구소, 회사들도 완전 오픈소스 TTS 모델을 내놓고 있어 미국 기업 입장에서도 생태계 변화 촉진 중
이런 현상은 결국 사용자에게 이득임
YCombinator가 투자한 PlayHT도 좋은 기능을 많이 출시함
-
-
결과물이 진짜 탁월해서 99%는 전문 성우와 구분이 안 될 정도임
요금 정보는 못 찾았는데, 혹시 아는 사람 있는지 궁금-
Eleven v3 (알파)용 공개 API가 곧 출시될 예정이라는 공지 확인
사전 경험 참여나 가격 상담은 sales 팀에 문의하라는 문구
아직 회사 자체도 정확한 가격 결정을 미정이라 수요 먼저 파악하려는 의도 같음 -
오우... 나는 프로 성우임
-
그래도 실제 사람이 아닌 "AI"일 뿐임
실제 사람이 직접 말하는 음악, 오디오북, 시, 소설, 연극, 이런 것들이 계속 들려야 함
그게 내가 추구하는 본질적 즐거움임
-
-
이 얘기 약간 주제와 다를 수 있지만(그래도 TTS와 연관성은 있어서...), 'eleven'이란 단어 들으니 스코틀랜드 엘리베이터 음성인식 개그 영상이 떠오름
Elevator Voice Recognition 코미디 영상 -
영국식 억양(브리티시 엑센트) 샘플을 못 본 것 같음
전반적으로 TTS 시스템들은 미국식 억양만 다루고, 영국식은 Frasier같은 "미국인이 흉내낸 브리티시"로 들림-
우리 보이스 라이브러리엔 다양한 브리티시 보이스가 많음
아니면 프롬프트 맨 앞에 "[British accent]"를 붙이면 미국인이 영국식 흉내내는 식으로 생성됨 -
Frasier Crane의 억양 문제는, 미국인 배우가 미국인 캐릭터로서 (상황 따라) 미국식이지만 트랜스애틀랜틱 혹은 보스턴 브라만 억양(혹은 그 블렌드)을 연기한 것이라 논쟁거리임
두 억양 모두 영국식과 일부 유사 특징이 반영됨 -
참고로 Frasier 계열은 "브리티시 흉내"가 아니라 보스턴 브라만/트랜스애틀랜틱 계열 억양임
-
ElevenLabs v2의 억양 보이스는 아직 경쟁사 대비 훨씬 뛰어남
아랍어, 프랑스어, 힌디어, 영어 등 다양한 언어로 직접 써봤음
-
-
영어는 정말 환상적으로 들림, 축하 전하고 싶음
그런데 내가 시도한 다른 언어들은 여전히 강한 영어식 억양이 남아있음-
이탈리아어로는 완전히 코믹한 미국 억양으로 시작하는데, 10~20단어쯤 지나면 갑자기 진짜 이탈리아식 발음으로 바뀜
Alice 보이스 사용했고, 내부적으로는 en-us 베이스로 시작한 뒤 설정 언어에 맞게 급격히 맞추는 느낌
백그라운드에서 무슨 일이 있는지 궁금증 -
프랑스어는 알라바마 출신이 대학에서 잠깐 불어 배운 수준의 억양 같았음
그래도 영어는 정말 좋았음 -
포르투갈어의 경우, Liam 보이스는 흥미롭게도 스페인 억양임
언어 아이콘은 포르투갈인데, 표현 방식은 분명 브라질식 포르투갈어임 -
스웨덴어는 그냥 완전한 미국식임
-
해당 언어 기반으로 트레이닝된 보이스로 시도해 보는 걸 추천
이번 리서치 프리뷰는 고른 성능이 아니고, 보이스 선택에 따라 품질 차이 큼
-