- 30개 이상의 언어로 업계 최고 속도와 정확도로 어떤 목소리나 억양으로도 말할 수 있는 가장 유능하고 대화형 음성 모델
- 또한 여러 언어에 걸쳐 50개 이상의 새로운 대화형 AI 음성을 출시
- TTS를 사용하여 실시간 애플리케이션을 구축할 때 지연 시간, 신뢰성, 음질 및 음성의 자연스러움이 매우 중요함
Play 3.0 mini는 현재까지 가장 빠른 대화형 음성 모델임
- 3.0 mini는 TTFB에 대해 평균 189밀리초의 지연 시간을 달성하여 가장 빠른 AI Text to Speech 모델이 됨
- LLM에서 텍스트 입력 스트리밍과 오디오 출력 스트리밍을 지원하며 HTTP REST API, 웹소켓 API 또는 SDK를 통해 사용할 수 있음
- 3.0 mini는 또한 Play 2.0보다 효율적이며 추론 속도가 28% 더 빠름
Play 3.0 mini는 30개 이상의 언어로 모든 음성을 지원함
- Play 3.0 mini는 이제 기본적으로 여러 남성 및 여성 음성 옵션이 있는 30개 이상의 언어를 지원함
- 영어, 일본어, 힌디어, 아랍어, 스페인어, 이탈리아어, 독일어, 프랑스어 및 포르투갈어 음성은 이제 프로덕션 사용 사례에 사용할 수 있으며 API와 플레이그라운드에서 사용할 수 있음
- 또한 아프리칸스어, 불가리아어, 크로아티아어, 체코어, 히브리어, 헝가리어, 인도네시아어, 말레이어, 북경어, 폴란드어, 세르비아어, 스웨덴어, 타갈로그어, 태국어, 터키어, 우크라이나어, 우르두어 및 코사어를 테스트할 수 있음
Play 3.0 mini는 더 정확함
- Play 3.0 mini의 목표는 대화형 AI를 위한 최고의 TTS 모델을 만드는 것이었음
- 이를 달성하기 위해 모델은 가장 대화형 톤으로 음성을 생성하면서 지연 시간과 정확성 면에서 경쟁사 모델을 능가해야 했음
- LLM은 환각을 일으키고 음성 LLM도 다르지 않음. 음성 LLM의 환각은 입력 텍스트의 일부가 아닌 출력 오디오의 추가 또는 누락된 단어나 숫자의 형태일 수 있음
Play 3.0 mini는 알파벳과 숫자의 조합을 더 자연스럽게 읽음
- 우리는 모델을 훈련시켜 인간처럼 숫자와 머리 글자를 읽도록 했음
- 모델은 속도를 조정하고 모든 알파벳과 숫자 문자의 속도를 늦춤
- 예를 들어 전화번호는 더 자연스러운 속도로 읽혀지며, 마찬가지로 모든 머리 글자와 약어도 그렇게 함
- 이렇게 하면 전반적인 대화 경험이 더 자연스러워짐
Play 3.0 mini는 음성 복제에 가장 적합한 음성 유사성을 달성함
- 음성을 복제할 때 종종 가까운 소리로는 충분하지 않음
- Play 3.0 음성 복제는 음성을 복제할 때 최첨단 성능을 달성하여 복제된 음성의 억양, 톤 및 억양을 정확하게 재현함
- 인기 있는 오픈 소스 임베딩 모델을 사용한 벤치마킹에서 원래 음성과의 유사성 면에서 경쟁사 모델을 크게 앞섬
- play.ai에서 자신의 목소리를 복제하고 자신과 대화해 보면서 직접 해보세요
웹소켓 API 지원
- 3.0 mini의 API는 이제 웹소켓을 지원하므로 HTTP 연결 열기 및 닫기의 오버헤드를 크게 줄이고 LLM 또는 기타 소스에서 텍스트 입력 스트리밍을 보다 쉽게 활성화할 수 있음
Play 3.0 mini는 비용 효율적인 모델임
- 우리는 더 높은 볼륨의 스타트업 및 성장 계층에 대해 가격 인하를 발표하게 되어 기쁘게 생각하며, 이제 보다 겸손한 요구 사항이 있는 기업을 위해 월 49달러의 새로운 Pro 티어를 도입했음
- 여기에서 새로운 가격표를 확인하세요
- 당신이 우리와 함께 무엇을 만들지 기대하고 있음! 사용자 지정 대용량 요구 사항이 있는 경우 영업팀에 문의해 주십시오
GN+의 의견
- 대화형 AI를 위한 가장 신뢰할 수 있는 음성 모델을 개발하려는 Play.ht의 노력이 인상적임. 지연 시간과 정확성 면에서 경쟁사보다 뛰어나며 가장 자연스러운 대화형 음성을 생성한다는 점에서 이 모델은 업계를 선도할 것으로 보임
- 30개 이상의 언어와 다양한 음성 옵션을 지원하는 것은 더 많은 사용자와 사용 사례에 도달할 수 있는 중요한 단계임. 이는 음성 AI의 광범위한 채택에 도움이 될 것임
- 그러나 이 기술을 채택할 때는 윤리적 고려 사항을 염두에 두어야 함. 예를 들어, 동의 없이 개인의 목소리를 복제하는 것은 프라이버시 문제를 야기할 수 있음. 또한 이 기술이 허위 정보 확산에 악용될 가능성도 있음
- 유사한 기능을 가진 다른 주목할 만한 음성 AI 프로젝트로는 Google의 Tacotron과 DeepMind의 WaveNet이 있음. 이러한 모델은 또한 다국어 지원과 자연스러운 생성 음성에 중점을 둠
- 결론적으로 Play 3.0 mini는 대화형 AI에서 음성 기술의 새로운 기준을 제시함. 개발자들은 다양한 실시간 애플리케이션을 위한 빠르고 정확하며 자연스러운 TTS를 활용할 수 있게 될 것임. 그러나 이 기술의 잠재적인 오용을 방지하기 위해 강력한 안전 장치와 윤리적 지침이 마련되어야 함