30개 이상의 언어로 업계 최고 속도와 정확도로 어떤 목소리나 억양으로도 말할 수 있는 가장 유능하고 대화형 음성 모델
또한 여러 언어에 걸쳐 50개 이상의 새로운 대화형 AI 음성을 출시
TTS를 사용하여 실시간 애플리케이션을 구축할 때 지연 시간, 신뢰성, 음질 및 음성의 자연스러움이 매우 중요함
Play 3.0 mini는 현재까지 가장 빠른 대화형 음성 모델임
3.0 mini는 TTFB에 대해 평균 189밀리초의 지연 시간을 달성하여 가장 빠른 AI Text to Speech 모델이 됨
LLM에서 텍스트 입력 스트리밍과 오디오 출력 스트리밍을 지원하며 HTTP REST API, 웹소켓 API 또는 SDK를 통해 사용할 수 있음
3.0 mini는 또한 Play 2.0보다 효율적이며 추론 속도가 28% 더 빠름
Play 3.0 mini는 30개 이상의 언어로 모든 음성을 지원함
Play 3.0 mini는 이제 기본적으로 여러 남성 및 여성 음성 옵션이 있는 30개 이상의 언어를 지원함
영어, 일본어, 힌디어, 아랍어, 스페인어, 이탈리아어, 독일어, 프랑스어 및 포르투갈어 음성은 이제 프로덕션 사용 사례에 사용할 수 있으며 API와 플레이그라운드에서 사용할 수 있음
또한 아프리칸스어, 불가리아어, 크로아티아어, 체코어, 히브리어, 헝가리어, 인도네시아어, 말레이어, 북경어, 폴란드어, 세르비아어, 스웨덴어, 타갈로그어, 태국어, 터키어, 우크라이나어, 우르두어 및 코사어를 테스트할 수 있음
Play 3.0 mini는 더 정확함
Play 3.0 mini의 목표는 대화형 AI를 위한 최고의 TTS 모델을 만드는 것이었음
이를 달성하기 위해 모델은 가장 대화형 톤으로 음성을 생성하면서 지연 시간과 정확성 면에서 경쟁사 모델을 능가해야 했음
LLM은 환각을 일으키고 음성 LLM도 다르지 않음. 음성 LLM의 환각은 입력 텍스트의 일부가 아닌 출력 오디오의 추가 또는 누락된 단어나 숫자의 형태일 수 있음
Play 3.0 mini는 알파벳과 숫자의 조합을 더 자연스럽게 읽음
우리는 모델을 훈련시켜 인간처럼 숫자와 머리 글자를 읽도록 했음
모델은 속도를 조정하고 모든 알파벳과 숫자 문자의 속도를 늦춤
예를 들어 전화번호는 더 자연스러운 속도로 읽혀지며, 마찬가지로 모든 머리 글자와 약어도 그렇게 함
이렇게 하면 전반적인 대화 경험이 더 자연스러워짐
Play 3.0 mini는 음성 복제에 가장 적합한 음성 유사성을 달성함
음성을 복제할 때 종종 가까운 소리로는 충분하지 않음
Play 3.0 음성 복제는 음성을 복제할 때 최첨단 성능을 달성하여 복제된 음성의 억양, 톤 및 억양을 정확하게 재현함
인기 있는 오픈 소스 임베딩 모델을 사용한 벤치마킹에서 원래 음성과의 유사성 면에서 경쟁사 모델을 크게 앞섬
play.ai에서 자신의 목소리를 복제하고 자신과 대화해 보면서 직접 해보세요
웹소켓 API 지원
3.0 mini의 API는 이제 웹소켓을 지원하므로 HTTP 연결 열기 및 닫기의 오버헤드를 크게 줄이고 LLM 또는 기타 소스에서 텍스트 입력 스트리밍을 보다 쉽게 활성화할 수 있음
Play 3.0 mini는 비용 효율적인 모델임
우리는 더 높은 볼륨의 스타트업 및 성장 계층에 대해 가격 인하를 발표하게 되어 기쁘게 생각하며, 이제 보다 겸손한 요구 사항이 있는 기업을 위해 월 49달러의 새로운 Pro 티어를 도입했음
여기에서 새로운 가격표를 확인하세요
당신이 우리와 함께 무엇을 만들지 기대하고 있음! 사용자 지정 대용량 요구 사항이 있는 경우 영업팀에 문의해 주십시오
GN+의 의견
대화형 AI를 위한 가장 신뢰할 수 있는 음성 모델을 개발하려는 Play.ht의 노력이 인상적임. 지연 시간과 정확성 면에서 경쟁사보다 뛰어나며 가장 자연스러운 대화형 음성을 생성한다는 점에서 이 모델은 업계를 선도할 것으로 보임
30개 이상의 언어와 다양한 음성 옵션을 지원하는 것은 더 많은 사용자와 사용 사례에 도달할 수 있는 중요한 단계임. 이는 음성 AI의 광범위한 채택에 도움이 될 것임
그러나 이 기술을 채택할 때는 윤리적 고려 사항을 염두에 두어야 함. 예를 들어, 동의 없이 개인의 목소리를 복제하는 것은 프라이버시 문제를 야기할 수 있음. 또한 이 기술이 허위 정보 확산에 악용될 가능성도 있음
유사한 기능을 가진 다른 주목할 만한 음성 AI 프로젝트로는 Google의 Tacotron과 DeepMind의 WaveNet이 있음. 이러한 모델은 또한 다국어 지원과 자연스러운 생성 음성에 중점을 둠
결론적으로 Play 3.0 mini는 대화형 AI에서 음성 기술의 새로운 기준을 제시함. 개발자들은 다양한 실시간 애플리케이션을 위한 빠르고 정확하며 자연스러운 TTS를 활용할 수 있게 될 것임. 그러나 이 기술의 잠재적인 오용을 방지하기 위해 강력한 안전 장치와 윤리적 지침이 마련되어야 함