GN⁺ 2025-03-21 | parent | ★ favorite | on: OpenAI 오디오 모델(openai.fm)
Hacker News 의견
  • 이 모델들의 가격이 ElevenLabs보다 상당히 저렴함

    • "gpt-4o-mini-tts" 모델의 경우, 오디오 분당 $0.015로 ElevenLabs보다 85% 저렴함
    • ElevenLabs의 "Business" 플랜은 월 $1100에 11,000분의 TTS 제공, 분당 10센트 청구
    • OpenAI는 11,000분의 TTS를 $165에 제공 가능함
    • 계산이 맞는지 확인 요청
  • OpenAI의 Jeff가 새로운 오디오 모델을 출시했음을 알림

    • 두 개의 음성 인식 모델과 새로운 TTS 모델 출시
    • 텍스트 에이전트를 음성 에이전트로 쉽게 전환 가능하게 하는 Agents SDK 지원
    • 질문이 있으면 알려달라고 함
  • 텍스트-음성 변환 및 음성-텍스트 변환 모델의 신뢰성 문제 언급

    • 실세계 응용에 얼마나 문제가 될지 확신하지 못함
    • 관련 노트 작성 링크 제공
  • 생성된 오디오와 함께 "speech marks"를 얻는 방법 문의

    • AWS의 Polly TTS 서비스에서 사용되는 "speech marks" 설명
    • 텍스트 강조 및 립싱크에 유용함
  • 최근 대형 텍스트-음성 및 음성-텍스트 모델의 발전

    • 오프라인, 다국어 텍스트-음성 솔루션의 필요성 언급
    • Tortoise TTS는 단어를 자주 왜곡한다고 생각함
    • Acapela SDK가 유일한 데스크탑 앱 플러그인 솔루션임
    • 새로운 신경망 기반 모델이 일반 컴퓨터에서 효율적으로 작동하길 바람
  • "vibe" 박스에 입력한 텍스트에 따라 다양한 억양과 성격을 구현할 수 있음

    • 지능적인 운율과 억양 수준이 놀라움
    • 오디오북 녹음에 유명인만 필요할 정도로 발전함
    • 다양한 재미있는 목소리 예시 제공
  • Navy Seal copypasta를 입력했을 때의 반응

    • 안전 제어가 "vibe" 지시에 따라 다르게 작동함
    • NYC 택시 운전사는 문제없이 작동하며 재미있음
  • 새로운 모델의 목소리에 미세한 진동이 있어 Siri보다 못하다고 느낌

  • OpenAI의 공식 도구가 새로운 모델 발표와 연결되어 있음

  • 공식 발표에서 중요한 인용문

    • 개발자가 모델에 무엇을 말할지뿐만 아니라 어떻게 말할지를 지시할 수 있음
    • "vibes"가 UI에서의 지시사항임
    • 새로운 모델이 미세한 차이를 더 잘 수용함
    • gpt-4o-mini-tts 오디오 출력 비용이 분당 $0.015로 실용적임
    • 더 많은 테스트를 계획 중임

한글도 완벽하게 동작하네요.