OpenAI 오디오 모델

(openai.fm)

13P by GN⁺ 2025-03-21 | ★ favorite | 댓글 2개

개발자가 OpenAI API의 새로운 텍스트-음성 변환 모델을 시도해 볼 수 있는 인터랙티브 데모
프롬프트로 음성효과, 톤, 속도, 감정, 발음, 일시 정지 등을 상세히 지정 가능

데모

목소리 선택: Alloy, Ash, Ballad, Coral, Echo 등 11가지
다양한 Vibe 선택: Sincere, Friendly, Noir Detective, Robot, Auctioneer 등

예: Sincere

Voice Affect: Calm, composed, and reassuring. Competent and in control, instilling trust.  
Tone: Sincere, empathetic, with genuine concern for the customer and understanding of the situation.  
Pacing: Slower during the apology to allow for clarity and processing. Faster when offering solutions to signal action and resolution.  
Emotions: Calm reassurance, empathy, and gratitude.  
Pronunciation: Clear, precise: Ensures clarity, especially with key details. Focus on key words like "refund" and "patience."   
Pauses: Before and after the apology to give space for processing the apology.

예: Medieval Knight

보이스 효과: 깊고 명령적이며 약간 드라마틱한 느낌, 고대 영어 이야기의 웅장함을 반영  
톤: 고귀하고 영웅적이며 형식적, 중세 기사와 서사적 모험의 본질을 포착  
감정: 흥분, 기대, 신비로움, 운명과 의무의 진지함 결합  
발음: 명확하고 신중하며 약간 형식적인 리듬, "hast", "thou", "doth" 같은 단어는 고대 영어 발음 패턴을 반영하여 천천히 강조  
멈춤: "Lo!", "Hark!" 같은 고대 영어 구문 뒤에 멈춤, "Choose thy path" 같은 절 사이에 멈춤을 두어 결정의 중요성을 강조하고 청자가 퀘스트의 진지함을 반영할 수 있도록 함

GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기

GN⁺ 2025-03-21 [-]

Hacker News 의견

이 모델들의 가격이 ElevenLabs보다 상당히 저렴함
- "gpt-4o-mini-tts" 모델의 경우, 오디오 분당 $0.015로 ElevenLabs보다 85% 저렴함
- ElevenLabs의 "Business" 플랜은 월 $1100에 11,000분의 TTS 제공, 분당 10센트 청구
- OpenAI는 11,000분의 TTS를 $165에 제공 가능함
- 계산이 맞는지 확인 요청
OpenAI의 Jeff가 새로운 오디오 모델을 출시했음을 알림
- 두 개의 음성 인식 모델과 새로운 TTS 모델 출시
- 텍스트 에이전트를 음성 에이전트로 쉽게 전환 가능하게 하는 Agents SDK 지원
- 질문이 있으면 알려달라고 함
텍스트-음성 변환 및 음성-텍스트 변환 모델의 신뢰성 문제 언급
- 실세계 응용에 얼마나 문제가 될지 확신하지 못함
- 관련 노트 작성 링크 제공
생성된 오디오와 함께 "speech marks"를 얻는 방법 문의
- AWS의 Polly TTS 서비스에서 사용되는 "speech marks" 설명
- 텍스트 강조 및 립싱크에 유용함
최근 대형 텍스트-음성 및 음성-텍스트 모델의 발전
- 오프라인, 다국어 텍스트-음성 솔루션의 필요성 언급
- Tortoise TTS는 단어를 자주 왜곡한다고 생각함
- Acapela SDK가 유일한 데스크탑 앱 플러그인 솔루션임
- 새로운 신경망 기반 모델이 일반 컴퓨터에서 효율적으로 작동하길 바람
"vibe" 박스에 입력한 텍스트에 따라 다양한 억양과 성격을 구현할 수 있음
- 지능적인 운율과 억양 수준이 놀라움
- 오디오북 녹음에 유명인만 필요할 정도로 발전함
- 다양한 재미있는 목소리 예시 제공
Navy Seal copypasta를 입력했을 때의 반응
- 안전 제어가 "vibe" 지시에 따라 다르게 작동함
- NYC 택시 운전사는 문제없이 작동하며 재미있음
새로운 모델의 목소리에 미세한 진동이 있어 Siri보다 못하다고 느낌
OpenAI의 공식 도구가 새로운 모델 발표와 연결되어 있음
공식 발표에서 중요한 인용문
- 개발자가 모델에 무엇을 말할지뿐만 아니라 어떻게 말할지를 지시할 수 있음
- "vibes"가 UI에서의 지시사항임
- 새로운 모델이 미세한 차이를 더 잘 수용함
- gpt-4o-mini-tts 오디오 출력 비용이 분당 $0.015로 실용적임
- 더 많은 테스트를 계획 중임

답변달기

sylee999 2025-03-21 [-]

한글도 완벽하게 동작하네요.

답변달기

OpenAI 오디오 모델

데모

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견