실시간 음성 API에 추론, 번역, 전사 기능을 갖춘 3개의 새로운 오디오 모델을 출시하여, 개발자가 더 자연스럽고 지능적인 음성 애플리케이션을 구축할 수 있게 됨
GPT-Realtime-2는 GPT-5급 추론 능력을 탑재한 최초의 음성 모델로, 도구 호출과 중단 처리를 하면서 대화를 자연스럽게 이어감
GPT-Realtime-Translate는 70개 이상의 입력 언어를 13개 출력 언어로 실시간 번역하는 라이브 번역 모델
GPT-Realtime-Whisper는 발화와 동시에 텍스트로 변환하는 스트리밍 음성 전사 모델로, 캡션·회의록·고객 지원 등에 활용 가능
음성이 단순 호출-응답을 넘어 추론·번역·전사·도구 실행을 동시에 수행하는 인터페이스로 진화하는 전환점
3개의 새로운 실시간 오디오 모델 개요
개발자가 더 자연스럽고, 지능적으로 반응하며, 실시간으로 액션을 수행하는 음성 경험을 구축할 수 있도록 3개 모델을 API에 도입
GPT-Realtime-2: GPT-5급 추론을 갖춘 최초의 음성 모델로, 어려운 요청을 처리하고 대화를 자연스럽게 이끌어감
GPT-Realtime-Translate: 70개 이상의 입력 언어에서 13개 출력 언어로 화자의 속도에 맞춰 실시간 음성 번역 수행
GPT-Realtime-Whisper: 화자가 말하는 동안 라이브 스트리밍 음성-텍스트 전사 제공
음성이 소프트웨어 인터페이스가 되는 흐름
음성은 운전 중 도움 요청, 공항에서 여행 계획 변경, 선호 언어로 지원 받기, 타이핑 없이 작업 진행 등 가장 자연스러운 소프트웨어 사용 방식 중 하나로 부상
유용한 음성 제품은 빠른 턴 테이킹이나 자연스러운 목소리 이상의 것을 요구: 의미 파악, 컨텍스트 추적, 요청 변경 시 복구, 대화 중 도구 사용, 적절한 톤의 응답 등이 필요
이번에 출시된 모델들은 실시간 오디오를 단순 호출-응답에서 듣고, 추론하고, 번역하고, 전사하고, 행동하는 음성 인터페이스로 전환
음성 AI의 3가지 신흥 패턴
Voice-to-Action: 사용자가 요구 사항을 말하면 시스템이 추론하고 도구를 사용해 작업을 완료
Zillow 사례: "내 BuyAbility 범위 내 집을 찾고, 번잡한 도로는 피하고, 토요일 투어를 예약해줘" 같은 요청을 듣고 추론하고 실행하는 어시스턴트 구축 중
Systems-to-Voice: 소프트웨어가 컨텍스트를 실시간 음성 안내로 전환
여행 앱 사례: "인바운드 항공편이 지연되었지만 환승 가능합니다. 새 게이트를 찾았고 터미널 최단 경로를 안내하며 짐은 정상 이동 예정" 같은 선제적 음성 안내 제공
Voice-to-Voice: AI가 언어, 작업, 변화하는 컨텍스트를 넘어 실시간 대화를 이어줌
Deutsche Telekom 사례: 고객이 편한 언어로 말하면 모델이 실시간으로 번역하는 음성 지원 경험 구축 중
이 패턴들은 결합도 가능하며, Priceline은 항공편·호텔 검색, 예약 변경, TSA 대기 시간 업데이트, 현지 대화 번역까지 음성으로 전체 여행을 관리하는 미래를 추진 중
GPT-Realtime-2: 추론과 행동을 수행하는 실시간 음성 모델
실시간 음성 상호작용에 최적화되어, 추론하면서 도구 호출, 수정·중단 처리, 상황에 맞는 응답을 동시에 수행
Preambles: "확인해볼게요", "잠시만요" 같은 짧은 문구로 에이전트가 요청을 처리 중임을 사용자에게 알림
병렬 도구 호출 및 도구 투명성: 여러 도구를 동시에 호출하면서 "캘린더 확인 중", "지금 검색 중" 같은 문구로 응답성을 유지
강화된 복구 동작: "지금 처리하기 어렵습니다" 같은 표현으로 조용히 실패하거나 대화를 끊는 대신 자연스럽게 복구
확장된 컨텍스트 윈도우: 32K에서 128K로 확대하여 더 긴 세션과 복잡한 작업 흐름 지원
강화된 도메인 이해: 전문 용어, 고유 명사, 의료 용어 등 프로덕션 환경에서 중요한 어휘를 더 잘 유지
제어 가능한 톤과 전달: 이슈 해결 시 차분하게, 사용자가 불만일 때 공감적으로, 성공 확인 시 밝게 등 톤 조절 가능
조절 가능한 추론 노력: minimal, low, medium, high, xhigh 5단계 제공, 기본값은 low로 설정하여 단순 상호작용은 낮은 지연시간, 복잡한 요청은 더 심층적 추론으로 균형 유지
GPT-Realtime-2 성능 벤치마크
GPT-Realtime-2 (high)는 Big Bench Audio에서 오디오 인텔리전스 기준 GPT-Realtime-1.5 대비 15.2% 높은 점수 기록
GPT-Realtime-2 (xhigh)는 Audio MultiChallenge에서 지시 따르기 기준 GPT-Realtime-1.5 대비 13.8% 높은 점수 기록, 추론·컨텍스트 관리·제어 능력 향상
Zillow의 Josh Weisberg SVP 인용: 가장 어려운 적대적 벤치마크에서 프롬프트 최적화 후 통화 성공률 26포인트 향상(95% vs. 69%), Fair Housing 규정 준수에서도 더 견고하며, 에이전트 역량과 가드레일 강도의 조합이 Zillow 프로덕션 음성에 적합
GPT-Realtime-Translate: 실시간 다국어 음성 번역
각 참여자가 선호하는 언어로 말하고 실시간으로 번역된 대화를 듣고 실시간 전사를 읽을 수 있는 다국어 음성 경험 구축 가능
70개 이상 입력 언어, 13개 출력 언어 지원으로 고객 지원, 국경 간 영업, 교육, 이벤트, 미디어, 글로벌 크리에이터 플랫폼에 활용 가능
화자의 속도에 맞추면서 의미를 보존해야 하며, 자연스러운 발화, 컨텍스트 전환, 지역 발음, 도메인 특화 언어도 처리 필요
Deutsche Telekom이 다국어 음성 상호작용에 테스트 중이며, 낮은 지연시간과 강화된 유창성이 크로스 언어 대화를 더 자연스럽게 함
Vimeo 사례: GPT-Realtime-Translate가 제품 교육 영상을 재생하면서 실시간 번역하여 글로벌 고객이 별도 제작 버전 없이 선호 언어로 업데이트를 들을 수 있음
BolnaAI의 Prateek Sachan CTO 인용: 힌디어, 타밀어, 텔루구어 평가에서 단어 오류율(WER)이 다른 모델 대비 12.5% 낮음, 폴백 비율 감소, 높은 작업 완료율, 자연스러운 대화를 유지하는 지연시간 달성
GPT-Realtime-Whisper: 저지연 스트리밍 전사
저지연 음성-텍스트 변환을 위한 새로운 스트리밍 전사 모델로, 말하는 동시에 오디오를 전사
실시간 캡션, 대화 중 생성되는 회의 노트, 지속적 사용자 이해가 필요한 음성 에이전트, 고객 지원·헬스케어·영업·채용 등 고빈도 음성 상호작용의 빠른 후속 워크플로우에 활용 가능
회의, 교실, 방송, 이벤트용 캡션 생성, 대화 진행 중 노트·요약 생성 등 비즈니스 워크플로우에 실시간 음성 데이터를 즉시 활용
안전성 및 정책
Realtime API에 다층 안전장치와 완화 조치 적용하여 오용 방지
세션에 대한 활성 분류기(active classifiers) 가동 중이며, 유해 콘텐츠 가이드라인 위반 탐지 시 대화 중단 가능
개발자는 Agents SDK를 사용해 자체 안전 가드레일 추가 가능
사용 정책에 따라 스팸, 기만 등 유해 목적의 출력 재활용·배포 금지
최종 사용자에게 AI와 상호작용 중임을 명확히 해야 함 (맥락상 명백한 경우 제외)
EU 데이터 레지던시 완전 지원 및 엔터프라이즈 프라이버시 약정 적용
가격 및 가용성
GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper 모두 Realtime API에서 사용 가능
GPT-Realtime-2: 오디오 입력 토큰 100만 개당 $32 (캐시된 입력 토큰 $0.40), 오디오 출력 토큰 100만 개당 $64
GPT-Realtime-Translate: 분당 $0.034
GPT-Realtime-Whisper: 분당 $0.017
Playground에서 새 실시간 음성 모델 테스트 가능하며, Codex를 통해 기존 앱에 GPT-Realtime-2를 추가하거나 새 프로젝트 시작 가능