# OpenAI 오디오 모델

> Clean Markdown view of GeekNews topic #19869. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=19869](https://news.hada.io/topic?id=19869)
- GeekNews Markdown: [https://news.hada.io/topic/19869.md](https://news.hada.io/topic/19869.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-03-21T09:55:56+09:00
- Updated: 2025-03-21T09:55:56+09:00
- Original source: [openai.fm](https://www.openai.fm/)
- Points: 13
- Comments: 2

## Summary

OpenAI의 새로운 텍스트-음성 변환 모델을 이용하여 개발자가 다양한 음성 효과, 톤, 속도, 감정, 발음, 일시 정지 등을 프롬프트로 상세히 지정할 수 있는 인터랙티브 데모를 제공합니다. 사용자는 Alloy, Ash, Ballad 등 11가지 목소리와 Sincere, Friendly, Noir Detective 같은 다양한 Vibe를 선택할 수 있습니다. 예를 들어, Sincere Vibe는 차분하고 신뢰를 주는 목소리로, Medieval Knight Vibe는 고귀하고 영웅적인 톤을 사용하여 중세 기사의 느낌을 전달합니다.

## Topic Body

- 개발자가 OpenAI API의 새로운 텍스트-음성 변환 모델을 시도해 볼 수 있는 인터랙티브 데모  
- 프롬프트로 음성효과, 톤, 속도, 감정, 발음, 일시 정지 등을 상세히 지정 가능   
### 데모   
- 목소리 선택: Alloy, Ash, Ballad, Coral, Echo 등 11가지   
- 다양한 Vibe 선택: Sincere, Friendly, Noir Detective, Robot, Auctioneer 등  
- 예: **Sincere**  
  ```  
  Voice Affect: Calm, composed, and reassuring. Competent and in control, instilling trust.  
  Tone: Sincere, empathetic, with genuine concern for the customer and understanding of the situation.  
  Pacing: Slower during the apology to allow for clarity and processing. Faster when offering solutions to signal action and resolution.  
  Emotions: Calm reassurance, empathy, and gratitude.  
  Pronunciation: Clear, precise: Ensures clarity, especially with key details. Focus on key words like "refund" and "patience."   
  Pauses: Before and after the apology to give space for processing the apology.  
  ```  
- 예: **Medieval Knight**  
  ```  
  보이스 효과: 깊고 명령적이며 약간 드라마틱한 느낌, 고대 영어 이야기의 웅장함을 반영  
  톤: 고귀하고 영웅적이며 형식적, 중세 기사와 서사적 모험의 본질을 포착  
  감정: 흥분, 기대, 신비로움, 운명과 의무의 진지함 결합  
  발음: 명확하고 신중하며 약간 형식적인 리듬, "hast", "thou", "doth" 같은 단어는 고대 영어 발음 패턴을 반영하여 천천히 강조  
  멈춤: "Lo!", "Hark!" 같은 고대 영어 구문 뒤에 멈춤, "Choose thy path" 같은 절 사이에 멈춤을 두어 결정의 중요성을 강조하고 청자가 퀘스트의 진지함을 반영할 수 있도록 함  
  ```

## Comments


### Comment 36178

- Author: neo
- Created: 2025-03-21T09:55:56+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=43426022) 
* 이 모델들의 가격이 ElevenLabs보다 상당히 저렴함
  - "gpt-4o-mini-tts" 모델의 경우, 오디오 분당 $0.015로 ElevenLabs보다 85% 저렴함
  - ElevenLabs의 "Business" 플랜은 월 $1100에 11,000분의 TTS 제공, 분당 10센트 청구
  - OpenAI는 11,000분의 TTS를 $165에 제공 가능함
  - 계산이 맞는지 확인 요청

* OpenAI의 Jeff가 새로운 오디오 모델을 출시했음을 알림
  - 두 개의 음성 인식 모델과 새로운 TTS 모델 출시
  - 텍스트 에이전트를 음성 에이전트로 쉽게 전환 가능하게 하는 Agents SDK 지원
  - 질문이 있으면 알려달라고 함

* 텍스트-음성 변환 및 음성-텍스트 변환 모델의 신뢰성 문제 언급
  - 실세계 응용에 얼마나 문제가 될지 확신하지 못함
  - 관련 노트 작성 링크 제공

* 생성된 오디오와 함께 "speech marks"를 얻는 방법 문의
  - AWS의 Polly TTS 서비스에서 사용되는 "speech marks" 설명
  - 텍스트 강조 및 립싱크에 유용함

* 최근 대형 텍스트-음성 및 음성-텍스트 모델의 발전
  - 오프라인, 다국어 텍스트-음성 솔루션의 필요성 언급
  - Tortoise TTS는 단어를 자주 왜곡한다고 생각함
  - Acapela SDK가 유일한 데스크탑 앱 플러그인 솔루션임
  - 새로운 신경망 기반 모델이 일반 컴퓨터에서 효율적으로 작동하길 바람

* "vibe" 박스에 입력한 텍스트에 따라 다양한 억양과 성격을 구현할 수 있음
  - 지능적인 운율과 억양 수준이 놀라움
  - 오디오북 녹음에 유명인만 필요할 정도로 발전함
  - 다양한 재미있는 목소리 예시 제공

* Navy Seal copypasta를 입력했을 때의 반응
  - 안전 제어가 "vibe" 지시에 따라 다르게 작동함
  - NYC 택시 운전사는 문제없이 작동하며 재미있음

* 새로운 모델의 목소리에 미세한 진동이 있어 Siri보다 못하다고 느낌

* OpenAI의 공식 도구가 새로운 모델 발표와 연결되어 있음

* 공식 발표에서 중요한 인용문
  - 개발자가 모델에 무엇을 말할지뿐만 아니라 어떻게 말할지를 지시할 수 있음
  - "vibes"가 UI에서의 지시사항임
  - 새로운 모델이 미세한 차이를 더 잘 수용함
  - gpt-4o-mini-tts 오디오 출력 비용이 분당 $0.015로 실용적임
  - 더 많은 테스트를 계획 중임

### Comment 36199

- Author: sylee999
- Created: 2025-03-21T17:13:01+09:00
- Points: 1
- Parent comment: 36178
- Depth: 1

한글도 완벽하게 동작하네요.