▲GN⁺ 2025-03-21 | parent | ★ favorite | on: OpenAI 오디오 모델(openai.fm)Hacker News 의견 이 모델들의 가격이 ElevenLabs보다 상당히 저렴함 "gpt-4o-mini-tts" 모델의 경우, 오디오 분당 $0.015로 ElevenLabs보다 85% 저렴함 ElevenLabs의 "Business" 플랜은 월 $1100에 11,000분의 TTS 제공, 분당 10센트 청구 OpenAI는 11,000분의 TTS를 $165에 제공 가능함 계산이 맞는지 확인 요청 OpenAI의 Jeff가 새로운 오디오 모델을 출시했음을 알림 두 개의 음성 인식 모델과 새로운 TTS 모델 출시 텍스트 에이전트를 음성 에이전트로 쉽게 전환 가능하게 하는 Agents SDK 지원 질문이 있으면 알려달라고 함 텍스트-음성 변환 및 음성-텍스트 변환 모델의 신뢰성 문제 언급 실세계 응용에 얼마나 문제가 될지 확신하지 못함 관련 노트 작성 링크 제공 생성된 오디오와 함께 "speech marks"를 얻는 방법 문의 AWS의 Polly TTS 서비스에서 사용되는 "speech marks" 설명 텍스트 강조 및 립싱크에 유용함 최근 대형 텍스트-음성 및 음성-텍스트 모델의 발전 오프라인, 다국어 텍스트-음성 솔루션의 필요성 언급 Tortoise TTS는 단어를 자주 왜곡한다고 생각함 Acapela SDK가 유일한 데스크탑 앱 플러그인 솔루션임 새로운 신경망 기반 모델이 일반 컴퓨터에서 효율적으로 작동하길 바람 "vibe" 박스에 입력한 텍스트에 따라 다양한 억양과 성격을 구현할 수 있음 지능적인 운율과 억양 수준이 놀라움 오디오북 녹음에 유명인만 필요할 정도로 발전함 다양한 재미있는 목소리 예시 제공 Navy Seal copypasta를 입력했을 때의 반응 안전 제어가 "vibe" 지시에 따라 다르게 작동함 NYC 택시 운전사는 문제없이 작동하며 재미있음 새로운 모델의 목소리에 미세한 진동이 있어 Siri보다 못하다고 느낌 OpenAI의 공식 도구가 새로운 모델 발표와 연결되어 있음 공식 발표에서 중요한 인용문 개발자가 모델에 무엇을 말할지뿐만 아니라 어떻게 말할지를 지시할 수 있음 "vibes"가 UI에서의 지시사항임 새로운 모델이 미세한 차이를 더 잘 수용함 gpt-4o-mini-tts 오디오 출력 비용이 분당 $0.015로 실용적임 더 많은 테스트를 계획 중임 ▲sylee999 2025-03-21 [-]한글도 완벽하게 동작하네요. 답변달기
Hacker News 의견
이 모델들의 가격이 ElevenLabs보다 상당히 저렴함
OpenAI의 Jeff가 새로운 오디오 모델을 출시했음을 알림
텍스트-음성 변환 및 음성-텍스트 변환 모델의 신뢰성 문제 언급
생성된 오디오와 함께 "speech marks"를 얻는 방법 문의
최근 대형 텍스트-음성 및 음성-텍스트 모델의 발전
"vibe" 박스에 입력한 텍스트에 따라 다양한 억양과 성격을 구현할 수 있음
Navy Seal copypasta를 입력했을 때의 반응
새로운 모델의 목소리에 미세한 진동이 있어 Siri보다 못하다고 느낌
OpenAI의 공식 도구가 새로운 모델 발표와 연결되어 있음
공식 발표에서 중요한 인용문