13P by neo 10일전 | ★ favorite | 댓글 2개
  • 개발자가 OpenAI API의 새로운 텍스트-음성 변환 모델을 시도해 볼 수 있는 인터랙티브 데모
  • 프롬프트로 음성효과, 톤, 속도, 감정, 발음, 일시 정지 등을 상세히 지정 가능

데모

  • 목소리 선택: Alloy, Ash, Ballad, Coral, Echo 등 11가지
  • 다양한 Vibe 선택: Sincere, Friendly, Noir Detective, Robot, Auctioneer 등
  • 예: Sincere
    Voice Affect: Calm, composed, and reassuring. Competent and in control, instilling trust.  
    Tone: Sincere, empathetic, with genuine concern for the customer and understanding of the situation.  
    Pacing: Slower during the apology to allow for clarity and processing. Faster when offering solutions to signal action and resolution.  
    Emotions: Calm reassurance, empathy, and gratitude.  
    Pronunciation: Clear, precise: Ensures clarity, especially with key details. Focus on key words like "refund" and "patience."   
    Pauses: Before and after the apology to give space for processing the apology.  
    
  • 예: Medieval Knight
    보이스 효과: 깊고 명령적이며 약간 드라마틱한 느낌, 고대 영어 이야기의 웅장함을 반영  
    톤: 고귀하고 영웅적이며 형식적, 중세 기사와 서사적 모험의 본질을 포착  
    감정: 흥분, 기대, 신비로움, 운명과 의무의 진지함 결합  
    발음: 명확하고 신중하며 약간 형식적인 리듬, "hast", "thou", "doth" 같은 단어는 고대 영어 발음 패턴을 반영하여 천천히 강조  
    멈춤: "Lo!", "Hark!" 같은 고대 영어 구문 뒤에 멈춤, "Choose thy path" 같은 절 사이에 멈춤을 두어 결정의 중요성을 강조하고 청자가 퀘스트의 진지함을 반영할 수 있도록 함  
    
Hacker News 의견
  • 이 모델들의 가격이 ElevenLabs보다 상당히 저렴함

    • "gpt-4o-mini-tts" 모델의 경우, 오디오 분당 $0.015로 ElevenLabs보다 85% 저렴함
    • ElevenLabs의 "Business" 플랜은 월 $1100에 11,000분의 TTS 제공, 분당 10센트 청구
    • OpenAI는 11,000분의 TTS를 $165에 제공 가능함
    • 계산이 맞는지 확인 요청
  • OpenAI의 Jeff가 새로운 오디오 모델을 출시했음을 알림

    • 두 개의 음성 인식 모델과 새로운 TTS 모델 출시
    • 텍스트 에이전트를 음성 에이전트로 쉽게 전환 가능하게 하는 Agents SDK 지원
    • 질문이 있으면 알려달라고 함
  • 텍스트-음성 변환 및 음성-텍스트 변환 모델의 신뢰성 문제 언급

    • 실세계 응용에 얼마나 문제가 될지 확신하지 못함
    • 관련 노트 작성 링크 제공
  • 생성된 오디오와 함께 "speech marks"를 얻는 방법 문의

    • AWS의 Polly TTS 서비스에서 사용되는 "speech marks" 설명
    • 텍스트 강조 및 립싱크에 유용함
  • 최근 대형 텍스트-음성 및 음성-텍스트 모델의 발전

    • 오프라인, 다국어 텍스트-음성 솔루션의 필요성 언급
    • Tortoise TTS는 단어를 자주 왜곡한다고 생각함
    • Acapela SDK가 유일한 데스크탑 앱 플러그인 솔루션임
    • 새로운 신경망 기반 모델이 일반 컴퓨터에서 효율적으로 작동하길 바람
  • "vibe" 박스에 입력한 텍스트에 따라 다양한 억양과 성격을 구현할 수 있음

    • 지능적인 운율과 억양 수준이 놀라움
    • 오디오북 녹음에 유명인만 필요할 정도로 발전함
    • 다양한 재미있는 목소리 예시 제공
  • Navy Seal copypasta를 입력했을 때의 반응

    • 안전 제어가 "vibe" 지시에 따라 다르게 작동함
    • NYC 택시 운전사는 문제없이 작동하며 재미있음
  • 새로운 모델의 목소리에 미세한 진동이 있어 Siri보다 못하다고 느낌

  • OpenAI의 공식 도구가 새로운 모델 발표와 연결되어 있음

  • 공식 발표에서 중요한 인용문

    • 개발자가 모델에 무엇을 말할지뿐만 아니라 어떻게 말할지를 지시할 수 있음
    • "vibes"가 UI에서의 지시사항임
    • 새로운 모델이 미세한 차이를 더 잘 수용함
    • gpt-4o-mini-tts 오디오 출력 비용이 분당 $0.015로 실용적임
    • 더 많은 테스트를 계획 중임

한글도 완벽하게 동작하네요.