23P by neo 4일전 | favorite | 댓글 4개
  • 30개 이상의 언어로 업계 최고 속도와 정확도로 어떤 목소리나 억양으로도 말할 수 있는 가장 유능하고 대화형 음성 모델
    • 또한 여러 언어에 걸쳐 50개 이상의 새로운 대화형 AI 음성을 출시
  • TTS를 사용하여 실시간 애플리케이션을 구축할 때 지연 시간, 신뢰성, 음질 및 음성의 자연스러움이 매우 중요함

Play 3.0 mini는 현재까지 가장 빠른 대화형 음성 모델임

  • 3.0 mini는 TTFB에 대해 평균 189밀리초의 지연 시간을 달성하여 가장 빠른 AI Text to Speech 모델이 됨
  • LLM에서 텍스트 입력 스트리밍과 오디오 출력 스트리밍을 지원하며 HTTP REST API, 웹소켓 API 또는 SDK를 통해 사용할 수 있음
  • 3.0 mini는 또한 Play 2.0보다 효율적이며 추론 속도가 28% 더 빠름

Play 3.0 mini는 30개 이상의 언어로 모든 음성을 지원함

  • Play 3.0 mini는 이제 기본적으로 여러 남성 및 여성 음성 옵션이 있는 30개 이상의 언어를 지원함
  • 영어, 일본어, 힌디어, 아랍어, 스페인어, 이탈리아어, 독일어, 프랑스어 및 포르투갈어 음성은 이제 프로덕션 사용 사례에 사용할 수 있으며 API와 플레이그라운드에서 사용할 수 있음
  • 또한 아프리칸스어, 불가리아어, 크로아티아어, 체코어, 히브리어, 헝가리어, 인도네시아어, 말레이어, 북경어, 폴란드어, 세르비아어, 스웨덴어, 타갈로그어, 태국어, 터키어, 우크라이나어, 우르두어 및 코사어를 테스트할 수 있음

Play 3.0 mini는 더 정확함

  • Play 3.0 mini의 목표는 대화형 AI를 위한 최고의 TTS 모델을 만드는 것이었음
  • 이를 달성하기 위해 모델은 가장 대화형 톤으로 음성을 생성하면서 지연 시간과 정확성 면에서 경쟁사 모델을 능가해야 했음
  • LLM은 환각을 일으키고 음성 LLM도 다르지 않음. 음성 LLM의 환각은 입력 텍스트의 일부가 아닌 출력 오디오의 추가 또는 누락된 단어나 숫자의 형태일 수 있음

Play 3.0 mini는 알파벳과 숫자의 조합을 더 자연스럽게 읽음

  • 우리는 모델을 훈련시켜 인간처럼 숫자와 머리 글자를 읽도록 했음
  • 모델은 속도를 조정하고 모든 알파벳과 숫자 문자의 속도를 늦춤
  • 예를 들어 전화번호는 더 자연스러운 속도로 읽혀지며, 마찬가지로 모든 머리 글자와 약어도 그렇게 함
  • 이렇게 하면 전반적인 대화 경험이 더 자연스러워짐

Play 3.0 mini는 음성 복제에 가장 적합한 음성 유사성을 달성함

  • 음성을 복제할 때 종종 가까운 소리로는 충분하지 않음
  • Play 3.0 음성 복제는 음성을 복제할 때 최첨단 성능을 달성하여 복제된 음성의 억양, 톤 및 억양을 정확하게 재현함
  • 인기 있는 오픈 소스 임베딩 모델을 사용한 벤치마킹에서 원래 음성과의 유사성 면에서 경쟁사 모델을 크게 앞섬
  • play.ai에서 자신의 목소리를 복제하고 자신과 대화해 보면서 직접 해보세요

웹소켓 API 지원

  • 3.0 mini의 API는 이제 웹소켓을 지원하므로 HTTP 연결 열기 및 닫기의 오버헤드를 크게 줄이고 LLM 또는 기타 소스에서 텍스트 입력 스트리밍을 보다 쉽게 활성화할 수 있음

Play 3.0 mini는 비용 효율적인 모델임

  • 우리는 더 높은 볼륨의 스타트업 및 성장 계층에 대해 가격 인하를 발표하게 되어 기쁘게 생각하며, 이제 보다 겸손한 요구 사항이 있는 기업을 위해 월 49달러의 새로운 Pro 티어를 도입했음
  • 여기에서 새로운 가격표를 확인하세요
  • 당신이 우리와 함께 무엇을 만들지 기대하고 있음! 사용자 지정 대용량 요구 사항이 있는 경우 영업팀에 문의해 주십시오

GN+의 의견

  • 대화형 AI를 위한 가장 신뢰할 수 있는 음성 모델을 개발하려는 Play.ht의 노력이 인상적임. 지연 시간과 정확성 면에서 경쟁사보다 뛰어나며 가장 자연스러운 대화형 음성을 생성한다는 점에서 이 모델은 업계를 선도할 것으로 보임
  • 30개 이상의 언어와 다양한 음성 옵션을 지원하는 것은 더 많은 사용자와 사용 사례에 도달할 수 있는 중요한 단계임. 이는 음성 AI의 광범위한 채택에 도움이 될 것임
  • 그러나 이 기술을 채택할 때는 윤리적 고려 사항을 염두에 두어야 함. 예를 들어, 동의 없이 개인의 목소리를 복제하는 것은 프라이버시 문제를 야기할 수 있음. 또한 이 기술이 허위 정보 확산에 악용될 가능성도 있음
  • 유사한 기능을 가진 다른 주목할 만한 음성 AI 프로젝트로는 Google의 Tacotron과 DeepMind의 WaveNet이 있음. 이러한 모델은 또한 다국어 지원과 자연스러운 생성 음성에 중점을 둠
  • 결론적으로 Play 3.0 mini는 대화형 AI에서 음성 기술의 새로운 기준을 제시함. 개발자들은 다양한 실시간 애플리케이션을 위한 빠르고 정확하며 자연스러운 TTS를 활용할 수 있게 될 것임. 그러나 이 기술의 잠재적인 오용을 방지하기 위해 강력한 안전 장치와 윤리적 지침이 마련되어야 함

그런데 Playground 가보니 Korean이 또 있네요?

않이 이렇게 많은 언어를 지원하는데 Korean 이 없다니ㅠ

아쉽게도 한국어는 아직 적용되지 않나보네요 ㅠ

Hacker News 의견

  • 최근에 출시된 오픈 소스 TTS 모델이 뛰어난 음성 복제 기능을 제공함. 10G VRAM의 NVIDIA GPU에서 실행 가능함.
  • Firefox에서 라이브 테스트가 작동하지 않았으나 Chrome으로 전환하니 빠르게 작동함. 30초 만에 자신의 목소리를 복제하여 대화할 수 있었음. 대부분의 사람들을 속일 수 있을 정도로 정교함.
  • 이 모델은 Cartesia와 OpenAI의 TTS API보다 비용이 더 많이 듦. 일반적으로 TTS API는 LLM보다 높은 마진으로 운영됨.
  • 영어 이외의 언어로는 전사 기능이 유용하지 않음. 정확하게 전사되면 번역과 음성 응답이 매우 빠르지만, 전사가 좋지 않으면 무용지물임.
  • 여름 동안 Go와 Rust용 API 클라이언트를 작성함. 당시 직장에서 Play를 사용했으나 Python과 Node SDK만 존재했음.
  • 자신과 비슷한 목소리와의 저지연 대화는 다소 불안감을 줄 수 있음. 그러나 매우 생각을 자극하는 경험임.
  • 복제된 목소리가 매우 유사하게 들렸으나, 블라인드 테스트에서 5명 모두 이를 본인의 목소리로 인식하지 못함. 자신의 목소리를 들을 때 편향이 있는지에 대한 의문
  • OpenAI의 모델은 숫자 발음에서 성능이 좋지 않음. 2024년에 숫자를 제대로 발음하지 못하는 TTS 모델이 출시된 것에 충격을 받음. 새로운 TTS 모델은 최소한 100,000까지의 숫자를 검증해야 한다고 믿음.