OpenAI 오디오 모델

▲

GN⁺ 2025-03-21 | parent | ★ favorite | on: OpenAI 오디오 모델(openai.fm)

Hacker News 의견

이 모델들의 가격이 ElevenLabs보다 상당히 저렴함
- "gpt-4o-mini-tts" 모델의 경우, 오디오 분당 $0.015로 ElevenLabs보다 85% 저렴함
- ElevenLabs의 "Business" 플랜은 월 $1100에 11,000분의 TTS 제공, 분당 10센트 청구
- OpenAI는 11,000분의 TTS를 $165에 제공 가능함
- 계산이 맞는지 확인 요청
OpenAI의 Jeff가 새로운 오디오 모델을 출시했음을 알림
- 두 개의 음성 인식 모델과 새로운 TTS 모델 출시
- 텍스트 에이전트를 음성 에이전트로 쉽게 전환 가능하게 하는 Agents SDK 지원
- 질문이 있으면 알려달라고 함
텍스트-음성 변환 및 음성-텍스트 변환 모델의 신뢰성 문제 언급
- 실세계 응용에 얼마나 문제가 될지 확신하지 못함
- 관련 노트 작성 링크 제공
생성된 오디오와 함께 "speech marks"를 얻는 방법 문의
- AWS의 Polly TTS 서비스에서 사용되는 "speech marks" 설명
- 텍스트 강조 및 립싱크에 유용함
최근 대형 텍스트-음성 및 음성-텍스트 모델의 발전
- 오프라인, 다국어 텍스트-음성 솔루션의 필요성 언급
- Tortoise TTS는 단어를 자주 왜곡한다고 생각함
- Acapela SDK가 유일한 데스크탑 앱 플러그인 솔루션임
- 새로운 신경망 기반 모델이 일반 컴퓨터에서 효율적으로 작동하길 바람
"vibe" 박스에 입력한 텍스트에 따라 다양한 억양과 성격을 구현할 수 있음
- 지능적인 운율과 억양 수준이 놀라움
- 오디오북 녹음에 유명인만 필요할 정도로 발전함
- 다양한 재미있는 목소리 예시 제공
Navy Seal copypasta를 입력했을 때의 반응
- 안전 제어가 "vibe" 지시에 따라 다르게 작동함
- NYC 택시 운전사는 문제없이 작동하며 재미있음
새로운 모델의 목소리에 미세한 진동이 있어 Siri보다 못하다고 느낌
OpenAI의 공식 도구가 새로운 모델 발표와 연결되어 있음
공식 발표에서 중요한 인용문
- 개발자가 모델에 무엇을 말할지뿐만 아니라 어떻게 말할지를 지시할 수 있음
- "vibes"가 UI에서의 지시사항임
- 새로운 모델이 미세한 차이를 더 잘 수용함
- gpt-4o-mini-tts 오디오 출력 비용이 분당 $0.015로 실용적임
- 더 많은 테스트를 계획 중임

▲

sylee999 2025-03-21 [-]

한글도 완벽하게 동작하네요.

답변달기