# OpenAI, GPT-5급 추론 능력을 가진 GPT-Realtime-2 시리즈 공개

> Clean Markdown view of GeekNews topic #29284. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=29284](https://news.hada.io/topic?id=29284)
- GeekNews Markdown: [https://news.hada.io/topic/29284.md](https://news.hada.io/topic/29284.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-05-08T10:20:02+09:00
- Updated: 2026-05-08T10:20:02+09:00
- Original source: [openai.com](https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/)
- Points: 3
- Comments: 0

## Topic Body

- **실시간 음성 API**에 추론, 번역, 전사 기능을 갖춘 3개의 새로운 오디오 모델을 출시하여, 개발자가 더 자연스럽고 지능적인 **음성 애플리케이션**을 구축할 수 있게 됨  
- **GPT-Realtime-2**는 GPT-5급 추론 능력을 탑재한 최초의 음성 모델로, 도구 호출과 중단 처리를 하면서 대화를 자연스럽게 이어감  
- **GPT-Realtime-Translate**는 70개 이상의 입력 언어를 13개 출력 언어로 실시간 번역하는 **라이브 번역 모델**  
- **GPT-Realtime-Whisper**는 발화와 동시에 텍스트로 변환하는 **스트리밍 음성 전사 모델**로, 캡션·회의록·고객 지원 등에 활용 가능  
- 음성이 단순 호출-응답을 넘어 **추론·번역·전사·도구 실행**을 동시에 수행하는 인터페이스로 진화하는 전환점  
  
---  
  
### 3개의 새로운 실시간 오디오 모델 개요  
- 개발자가 더 자연스럽고, 지능적으로 반응하며, **실시간으로 액션을 수행**하는 음성 경험을 구축할 수 있도록 3개 모델을 API에 도입  
- **GPT-Realtime-2**: GPT-5급 추론을 갖춘 최초의 음성 모델로, 어려운 요청을 처리하고 대화를 자연스럽게 이끌어감  
- **GPT-Realtime-Translate**: 70개 이상의 입력 언어에서 13개 출력 언어로 화자의 속도에 맞춰 **실시간 음성 번역** 수행  
- **GPT-Realtime-Whisper**: 화자가 말하는 동안 **라이브 스트리밍 음성-텍스트 전사** 제공  
  
### 음성이 소프트웨어 인터페이스가 되는 흐름  
- 음성은 운전 중 도움 요청, 공항에서 여행 계획 변경, 선호 언어로 지원 받기, 타이핑 없이 작업 진행 등 **가장 자연스러운 소프트웨어 사용 방식** 중 하나로 부상  
- 유용한 음성 제품은 빠른 턴 테이킹이나 자연스러운 목소리 이상의 것을 요구: 의미 파악, **컨텍스트 추적**, 요청 변경 시 복구, 대화 중 도구 사용, 적절한 톤의 응답 등이 필요  
- 이번에 출시된 모델들은 실시간 오디오를 단순 호출-응답에서 **듣고, 추론하고, 번역하고, 전사하고, 행동하는 음성 인터페이스**로 전환  
  
### 음성 AI의 3가지 신흥 패턴  
- **Voice-to-Action**: 사용자가 요구 사항을 말하면 시스템이 추론하고 도구를 사용해 작업을 완료  
  - Zillow 사례: "내 BuyAbility 범위 내 집을 찾고, 번잡한 도로는 피하고, 토요일 투어를 예약해줘" 같은 요청을 듣고 추론하고 실행하는 어시스턴트 구축 중  
- **Systems-to-Voice**: 소프트웨어가 컨텍스트를 실시간 음성 안내로 전환  
  - 여행 앱 사례: "인바운드 항공편이 지연되었지만 환승 가능합니다. 새 게이트를 찾았고 터미널 최단 경로를 안내하며 짐은 정상 이동 예정" 같은 **선제적 음성 안내** 제공  
- **Voice-to-Voice**: AI가 언어, 작업, 변화하는 컨텍스트를 넘어 **실시간 대화를 이어줌**  
  - Deutsche Telekom 사례: 고객이 편한 언어로 말하면 모델이 실시간으로 번역하는 음성 지원 경험 구축 중  
- 이 패턴들은 결합도 가능하며, **Priceline**은 항공편·호텔 검색, 예약 변경, TSA 대기 시간 업데이트, 현지 대화 번역까지 음성으로 전체 여행을 관리하는 미래를 추진 중  
  
### GPT-Realtime-2: 추론과 행동을 수행하는 실시간 음성 모델  
- 실시간 음성 상호작용에 최적화되어, 추론하면서 도구 호출, 수정·중단 처리, 상황에 맞는 응답을 동시에 수행  
- **Preambles**: "확인해볼게요", "잠시만요" 같은 짧은 문구로 에이전트가 요청을 처리 중임을 사용자에게 알림  
- **병렬 도구 호출 및 도구 투명성**: 여러 도구를 동시에 호출하면서 "캘린더 확인 중", "지금 검색 중" 같은 문구로 **응답성을 유지**  
- **강화된 복구 동작**: "지금 처리하기 어렵습니다" 같은 표현으로 조용히 실패하거나 대화를 끊는 대신 **자연스럽게 복구**  
- **확장된 컨텍스트 윈도우**: 32K에서 **128K**로 확대하여 더 긴 세션과 복잡한 작업 흐름 지원  
- **강화된 도메인 이해**: 전문 용어, 고유 명사, 의료 용어 등 프로덕션 환경에서 중요한 어휘를 더 잘 유지  
- **제어 가능한 톤과 전달**: 이슈 해결 시 차분하게, 사용자가 불만일 때 공감적으로, 성공 확인 시 밝게 등 **톤 조절 가능**  
- **조절 가능한 추론 노력**: **minimal, low, medium, high, xhigh** 5단계 제공, 기본값은 **low**로 설정하여 단순 상호작용은 낮은 지연시간, 복잡한 요청은 더 심층적 추론으로 균형 유지  
  
### GPT-Realtime-2 성능 벤치마크  
- GPT-Realtime-2 (high)는 **Big Bench Audio**에서 오디오 인텔리전스 기준 GPT-Realtime-1.5 대비 **15.2% 높은 점수** 기록  
- GPT-Realtime-2 (xhigh)는 **Audio MultiChallenge**에서 지시 따르기 기준 GPT-Realtime-1.5 대비 **13.8% 높은 점수** 기록, 추론·컨텍스트 관리·제어 능력 향상  
- Zillow의 Josh Weisberg SVP 인용: 가장 어려운 적대적 벤치마크에서 프롬프트 최적화 후 **통화 성공률 26포인트 향상**(95% vs. 69%), Fair Housing 규정 준수에서도 더 견고하며, **에이전트 역량과 가드레일 강도의 조합**이 Zillow 프로덕션 음성에 적합  
  
### GPT-Realtime-Translate: 실시간 다국어 음성 번역  
- 각 참여자가 선호하는 언어로 말하고 실시간으로 번역된 대화를 듣고 **실시간 전사를 읽을 수** 있는 다국어 음성 경험 구축 가능  
- **70개 이상 입력 언어, 13개 출력 언어** 지원으로 고객 지원, 국경 간 영업, 교육, 이벤트, 미디어, 글로벌 크리에이터 플랫폼에 활용 가능  
- 화자의 속도에 맞추면서 의미를 보존해야 하며, 자연스러운 발화, 컨텍스트 전환, 지역 발음, 도메인 특화 언어도 처리 필요  
- Deutsche Telekom이 다국어 음성 상호작용에 테스트 중이며, **낮은 지연시간과 강화된 유창성**이 크로스 언어 대화를 더 자연스럽게 함  
- Vimeo 사례: GPT-Realtime-Translate가 제품 교육 영상을 재생하면서 **실시간 번역**하여 글로벌 고객이 별도 제작 버전 없이 선호 언어로 업데이트를 들을 수 있음  
- BolnaAI의 Prateek Sachan CTO 인용: 힌디어, 타밀어, 텔루구어 평가에서 **단어 오류율(WER)이 다른 모델 대비 12.5% 낮음**, 폴백 비율 감소, 높은 작업 완료율, 자연스러운 대화를 유지하는 지연시간 달성  
  
### GPT-Realtime-Whisper: 저지연 스트리밍 전사  
- **저지연 음성-텍스트 변환**을 위한 새로운 스트리밍 전사 모델로, 말하는 동시에 오디오를 전사  
- 실시간 캡션, 대화 중 생성되는 회의 노트, 지속적 사용자 이해가 필요한 음성 에이전트, 고객 지원·헬스케어·영업·채용 등 **고빈도 음성 상호작용**의 빠른 후속 워크플로우에 활용 가능  
- 회의, 교실, 방송, 이벤트용 캡션 생성, 대화 진행 중 노트·요약 생성 등 **비즈니스 워크플로우**에 실시간 음성 데이터를 즉시 활용  
  
### 안전성 및 정책  
- Realtime API에 **다층 안전장치와 완화 조치** 적용하여 오용 방지  
- 세션에 대한 **활성 분류기(active classifiers)** 가동 중이며, 유해 콘텐츠 가이드라인 위반 탐지 시 대화 중단 가능  
- 개발자는 **Agents SDK**를 사용해 자체 안전 가드레일 추가 가능  
- 사용 정책에 따라 스팸, 기만 등 유해 목적의 출력 재활용·배포 금지  
- 최종 사용자에게 AI와 상호작용 중임을 명확히 해야 함 (맥락상 명백한 경우 제외)  
- **EU 데이터 레지던시** 완전 지원 및 엔터프라이즈 프라이버시 약정 적용  
  
### 가격 및 가용성  
- GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper 모두 **Realtime API**에서 사용 가능  
- **GPT-Realtime-2**: 오디오 입력 토큰 100만 개당 **$32** (캐시된 입력 토큰 **$0.40**), 오디오 출력 토큰 100만 개당 **$64**  
- **GPT-Realtime-Translate**: 분당 **$0.034**  
- **GPT-Realtime-Whisper**: 분당 **$0.017**  
- Playground에서 새 실시간 음성 모델 테스트 가능하며, Codex를 통해 기존 앱에 GPT-Realtime-2를 추가하거나 새 프로젝트 시작 가능

## Comments


_No public comments on this page._