5P by GN⁺ 11시간전 | ★ favorite | 댓글과 토론
  • 실시간 음성 API에 추론, 번역, 전사 기능을 갖춘 3개의 새로운 오디오 모델을 출시하여, 개발자가 더 자연스럽고 지능적인 음성 애플리케이션을 구축할 수 있게 됨
  • GPT-Realtime-2는 GPT-5급 추론 능력을 탑재한 최초의 음성 모델로, 도구 호출과 중단 처리를 하면서 대화를 자연스럽게 이어감
  • GPT-Realtime-Translate는 70개 이상의 입력 언어를 13개 출력 언어로 실시간 번역하는 라이브 번역 모델
  • GPT-Realtime-Whisper는 발화와 동시에 텍스트로 변환하는 스트리밍 음성 전사 모델로, 캡션·회의록·고객 지원 등에 활용 가능
  • 음성이 단순 호출-응답을 넘어 추론·번역·전사·도구 실행을 동시에 수행하는 인터페이스로 진화하는 전환점

3개의 새로운 실시간 오디오 모델 개요

  • 개발자가 더 자연스럽고, 지능적으로 반응하며, 실시간으로 액션을 수행하는 음성 경험을 구축할 수 있도록 3개 모델을 API에 도입
  • GPT-Realtime-2: GPT-5급 추론을 갖춘 최초의 음성 모델로, 어려운 요청을 처리하고 대화를 자연스럽게 이끌어감
  • GPT-Realtime-Translate: 70개 이상의 입력 언어에서 13개 출력 언어로 화자의 속도에 맞춰 실시간 음성 번역 수행
  • GPT-Realtime-Whisper: 화자가 말하는 동안 라이브 스트리밍 음성-텍스트 전사 제공

음성이 소프트웨어 인터페이스가 되는 흐름

  • 음성은 운전 중 도움 요청, 공항에서 여행 계획 변경, 선호 언어로 지원 받기, 타이핑 없이 작업 진행 등 가장 자연스러운 소프트웨어 사용 방식 중 하나로 부상
  • 유용한 음성 제품은 빠른 턴 테이킹이나 자연스러운 목소리 이상의 것을 요구: 의미 파악, 컨텍스트 추적, 요청 변경 시 복구, 대화 중 도구 사용, 적절한 톤의 응답 등이 필요
  • 이번에 출시된 모델들은 실시간 오디오를 단순 호출-응답에서 듣고, 추론하고, 번역하고, 전사하고, 행동하는 음성 인터페이스로 전환

음성 AI의 3가지 신흥 패턴

  • Voice-to-Action: 사용자가 요구 사항을 말하면 시스템이 추론하고 도구를 사용해 작업을 완료
    • Zillow 사례: "내 BuyAbility 범위 내 집을 찾고, 번잡한 도로는 피하고, 토요일 투어를 예약해줘" 같은 요청을 듣고 추론하고 실행하는 어시스턴트 구축 중
  • Systems-to-Voice: 소프트웨어가 컨텍스트를 실시간 음성 안내로 전환
    • 여행 앱 사례: "인바운드 항공편이 지연되었지만 환승 가능합니다. 새 게이트를 찾았고 터미널 최단 경로를 안내하며 짐은 정상 이동 예정" 같은 선제적 음성 안내 제공
  • Voice-to-Voice: AI가 언어, 작업, 변화하는 컨텍스트를 넘어 실시간 대화를 이어줌
    • Deutsche Telekom 사례: 고객이 편한 언어로 말하면 모델이 실시간으로 번역하는 음성 지원 경험 구축 중
  • 이 패턴들은 결합도 가능하며, Priceline은 항공편·호텔 검색, 예약 변경, TSA 대기 시간 업데이트, 현지 대화 번역까지 음성으로 전체 여행을 관리하는 미래를 추진 중

GPT-Realtime-2: 추론과 행동을 수행하는 실시간 음성 모델

  • 실시간 음성 상호작용에 최적화되어, 추론하면서 도구 호출, 수정·중단 처리, 상황에 맞는 응답을 동시에 수행
  • Preambles: "확인해볼게요", "잠시만요" 같은 짧은 문구로 에이전트가 요청을 처리 중임을 사용자에게 알림
  • 병렬 도구 호출 및 도구 투명성: 여러 도구를 동시에 호출하면서 "캘린더 확인 중", "지금 검색 중" 같은 문구로 응답성을 유지
  • 강화된 복구 동작: "지금 처리하기 어렵습니다" 같은 표현으로 조용히 실패하거나 대화를 끊는 대신 자연스럽게 복구
  • 확장된 컨텍스트 윈도우: 32K에서 128K로 확대하여 더 긴 세션과 복잡한 작업 흐름 지원
  • 강화된 도메인 이해: 전문 용어, 고유 명사, 의료 용어 등 프로덕션 환경에서 중요한 어휘를 더 잘 유지
  • 제어 가능한 톤과 전달: 이슈 해결 시 차분하게, 사용자가 불만일 때 공감적으로, 성공 확인 시 밝게 등 톤 조절 가능
  • 조절 가능한 추론 노력: minimal, low, medium, high, xhigh 5단계 제공, 기본값은 low로 설정하여 단순 상호작용은 낮은 지연시간, 복잡한 요청은 더 심층적 추론으로 균형 유지

GPT-Realtime-2 성능 벤치마크

  • GPT-Realtime-2 (high)는 Big Bench Audio에서 오디오 인텔리전스 기준 GPT-Realtime-1.5 대비 15.2% 높은 점수 기록
  • GPT-Realtime-2 (xhigh)는 Audio MultiChallenge에서 지시 따르기 기준 GPT-Realtime-1.5 대비 13.8% 높은 점수 기록, 추론·컨텍스트 관리·제어 능력 향상
  • Zillow의 Josh Weisberg SVP 인용: 가장 어려운 적대적 벤치마크에서 프롬프트 최적화 후 통화 성공률 26포인트 향상(95% vs. 69%), Fair Housing 규정 준수에서도 더 견고하며, 에이전트 역량과 가드레일 강도의 조합이 Zillow 프로덕션 음성에 적합

GPT-Realtime-Translate: 실시간 다국어 음성 번역

  • 각 참여자가 선호하는 언어로 말하고 실시간으로 번역된 대화를 듣고 실시간 전사를 읽을 수 있는 다국어 음성 경험 구축 가능
  • 70개 이상 입력 언어, 13개 출력 언어 지원으로 고객 지원, 국경 간 영업, 교육, 이벤트, 미디어, 글로벌 크리에이터 플랫폼에 활용 가능
  • 화자의 속도에 맞추면서 의미를 보존해야 하며, 자연스러운 발화, 컨텍스트 전환, 지역 발음, 도메인 특화 언어도 처리 필요
  • Deutsche Telekom이 다국어 음성 상호작용에 테스트 중이며, 낮은 지연시간과 강화된 유창성이 크로스 언어 대화를 더 자연스럽게 함
  • Vimeo 사례: GPT-Realtime-Translate가 제품 교육 영상을 재생하면서 실시간 번역하여 글로벌 고객이 별도 제작 버전 없이 선호 언어로 업데이트를 들을 수 있음
  • BolnaAI의 Prateek Sachan CTO 인용: 힌디어, 타밀어, 텔루구어 평가에서 단어 오류율(WER)이 다른 모델 대비 12.5% 낮음, 폴백 비율 감소, 높은 작업 완료율, 자연스러운 대화를 유지하는 지연시간 달성

GPT-Realtime-Whisper: 저지연 스트리밍 전사

  • 저지연 음성-텍스트 변환을 위한 새로운 스트리밍 전사 모델로, 말하는 동시에 오디오를 전사
  • 실시간 캡션, 대화 중 생성되는 회의 노트, 지속적 사용자 이해가 필요한 음성 에이전트, 고객 지원·헬스케어·영업·채용 등 고빈도 음성 상호작용의 빠른 후속 워크플로우에 활용 가능
  • 회의, 교실, 방송, 이벤트용 캡션 생성, 대화 진행 중 노트·요약 생성 등 비즈니스 워크플로우에 실시간 음성 데이터를 즉시 활용

안전성 및 정책

  • Realtime API에 다층 안전장치와 완화 조치 적용하여 오용 방지
  • 세션에 대한 활성 분류기(active classifiers) 가동 중이며, 유해 콘텐츠 가이드라인 위반 탐지 시 대화 중단 가능
  • 개발자는 Agents SDK를 사용해 자체 안전 가드레일 추가 가능
  • 사용 정책에 따라 스팸, 기만 등 유해 목적의 출력 재활용·배포 금지
  • 최종 사용자에게 AI와 상호작용 중임을 명확히 해야 함 (맥락상 명백한 경우 제외)
  • EU 데이터 레지던시 완전 지원 및 엔터프라이즈 프라이버시 약정 적용

가격 및 가용성

  • GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper 모두 Realtime API에서 사용 가능
  • GPT-Realtime-2: 오디오 입력 토큰 100만 개당 $32 (캐시된 입력 토큰 $0.40), 오디오 출력 토큰 100만 개당 $64
  • GPT-Realtime-Translate: 분당 $0.034
  • GPT-Realtime-Whisper: 분당 $0.017
  • Playground에서 새 실시간 음성 모델 테스트 가능하며, Codex를 통해 기존 앱에 GPT-Realtime-2를 추가하거나 새 프로젝트 시작 가능