13P by xguru 14일전 | favorite | 댓글 1개
  • Voice AI는 단순한 UI 업그레이드가 아니라, 비즈니스와 고객 간 연결 방식을 혁신
    • 항공사 고객 서비스 처럼 긴 대기 시간, 반복되는 메뉴 선택, 고객 상황 이해 부족. 문제는 해결하지 못하면서 불필요한 스트레스와 시간 낭비
    • Voice AI를 통하면 기존의 경직된 IVR 시스템(자동 음성 응답)과 달리, 인간처럼 대화하고 고객 경험을 개인화할 수 있는 경험 제공이 가능하며 24시간 제공 가능
      • 고객 상황을 즉각 이해하고 최적의 대안 제시
      • 예: 결항된 항공편을 자동 재예약, 고객 선호도 기반 대안 추천
      • 일부 상황에서는 고객이 인간보다 AI 에이전트를 선호할 가능성이 있음
    • Voice AI는 높은 수요와 고객 기대를 충족하면서도 운영 효율성을 높임
  • Voice AI는 음성 네이티브 AI 모델과 멀티모달 기술의 융합임

음성 커뮤니케이션의 거대한 시장

  • 인간은 말하기를 선호함:
    • 매일 수십억 통의 전화가 이루어짐
    • 텍스트, 이메일, 소셜 미디어가 보편화되었음에도 불구하고, 전화는 여전히 많은 비즈니스에서 주요 소통 수단
    • 의료, 법률 서비스, 홈 서비스, 보험, 물류 등 다양한 산업에서 복잡한 정보 전달, 개인화된 서비스 제공, 긴급한 상황 해결을 위해 필수적임
  • 기존 전화 커뮤니케이션의 문제점
    • 응답률 부족:
      • SMB(중소기업)의 62%가 전화를 놓쳐서 고객 요구를 충족하지 못하고 비즈니스 기회 상실
      • 일반적인 문제:
        • 근무 시간 외에는 음성사서함으로 전환
        • 한 번에 한 통화만 처리 가능
        • 지원 품질이 고르지 않음
    • 기술적 제약:
      • IVR 시스템(1970년대 도입):
        • 사전 설정된 명령만 처리, 유연성 부족 "예약하시려면 1번을 누르세요" "도움받고자 하는 부분을 짧은 단어로 이야기하세요"
        • 고객 의도나 긴급성을 이해하지 못함
      • 고객 경험 저하:
        • 긴 대기 시간
        • 비효율적인 메뉴 탐색
        • 문제 해결 실패
  • 높은 수요에도 불구하고:
    • 기존 기술은 고객의 문제를 효율적이고 쾌적하게 해결하는 데 한계가 있음
    • 더 진보된 음성 자동화 기술이 요구됨

[지금이 Voice 기술 개발의 적기인 이유]

음성 기술의 진화

  1. 초기 IVR 시스템:
  • 1970년대 도입된 IVR(Interactive Voice Response) 기술:
    • 미리 설정된 명령만 처리 가능
    • 사용자의 의도와 긴급성을 이해하지 못함
  • 비호감 기술임에도 불구하고, 여전히 50억 달러 규모의 시장
  1. ASR/STT 기술의 등장:
  • **자동 음성 인식(ASR)**과 음성-텍스트(STT) 모델:
    • 음성을 실시간으로 텍스트로 변환하는 기술
    • Gong, Rev, DeepL과 같은 신생 기업의 등장
    • OpenAI의 Whisper 모델(2022) 및 Rev의 Reverb(2024) 출시:
      • 억양, 배경 소음, 감정 등을 처리하는 자연스러운 대화 시스템 지원
  1. 최근 혁신: 음성 AI의 발전:
  • 감정적으로 풍부한 음성을 생성하는 Text-To-Speech(TTS) 모델 개발:
  • 멀티모달 기능:
    • Google Gemini 1.5: 음성, 텍스트, 시각 입력 통합
    • OpenAI의 Voice Engine: 인간 대화를 모방한 음성 생성
  • GPT-4o 출시:
    • 실시간 오디오, 비전, 텍스트의 네이티브 통합
    • 복합적 대화 처리 및 지능적 응답 가능

최근 혁신이 불러온 두 가지 주요 발전

  • 고품질 모델 확산과 애플리케이션 개발:
    • 기존 "캐스케이딩" 아키텍처의 한계:
      • STT → LLM → TTS 변환 과정에서 지연비텍스트적 정보 손실
      • 높은 **응답 지연(latency)**로 부정적 사용자 경험 초래
    • 새로운 모델:
      • GPT-4 Turbo: 지연 단축
      • 사용 사례에 따라 모델 선택 가능
  • Speech-to-Speech(STS) 모델의 부상:
    • 음성을 텍스트로 변환하지 않고 직접 처리:
      • 초저지연: 약 300ms 응답 시간으로 자연스러운 대화 구현
      • 맥락 이해: 이전 대화 정보를 유지, 의도와 감정 파악
      • 감정적 및 톤 인식 향상: 감정과 감정을 반영한 응답 제공
      • 실시간 음성 활동 감지: 사용자가 발언 중단 없이 대화 가능

음성 네이티브 모델: 대화형 음성의 미래

  • 캐스케이딩 아키텍처의 한계를 극복:
    • 음성 전용 STS 모델:
      • Kyutai Moshi: 오픈소스 모델
      • Alibaba SenseVoice & CosyVoice: 음성 특화 모델
      • Hume Empathetic Voice Interface: 감정적 응답 처리
  • OpenAI의 Realtime API:
    • GPT-4o 기반 Speech-to-Speech 상호작용 지원

산업 채택의 주요 과제

음성 에이전트 도입을 가로막는 세 가지 주요 요인

  • 품질(Quality):
    • 많은 음성 AI 에이전트는 아직 여러 사용 사례에서 신뢰할 만큼 안정적이지 않음.
    • 기업은 일반적으로 위험이 낮은 환경에서 음성 에이전트를 시범적으로 도입:
      • 예: 소규모 지붕 수리 회사가 영업시간 외 전화를 처리하기 위해 에이전트를 사용
      • 높은 가치의 사용 사례로 확장 시, 품질 기준이 더욱 엄격해짐
      • 예: 고객 한 명의 전화가 3만 달러 프로젝트로 이어질 수 있는 경우, 통화 실패에 대한 관용이 낮음
  • 신뢰(Trust):
    • 고객은 기존의 IVR 기술로 인해 이미 부정적 경험을 다수 겪음:
      • 느린 응답, 비효율적인 메뉴 구조, 자연스러운 대화 부족
    • 기업은 AI가 고객 요구를 정확하고 신속하게 처리할 수 있다는 신뢰 확보 필요
  • 신뢰성(Reliability):
    • 주요 불만 사례:
      • 통화 끊김: 통화 중단으로 고객 좌절
      • 환각(Hallucination): AI가 부정확하거나 엉뚱한 답변 제공
      • 응답 지연(latency): 처리 시간이 길어져 고객 이탈 초래

문제 해결을 위한 발전 방향

  • 지연 및 신뢰성 최적화:
    • 신뢰할 수 있는 인프라를 제공하는 개발자 플랫폼 증가: 지연을 줄이고 대화 중단을 방지하는 데 초점
  • 회복 탄력성(Fail Gracefully):
    • 통화 실패 시 자연스럽게 대화 플로우 복구: 고객 경험의 중단을 최소화
  • 대화 오케스트레이션:
    • AI 에이전트가 예측 가능한 플로우를 따르도록 설계: 환각 최소화, 고객에게 제공할 정보 및 대화 범위에 가드레일 설정

음성 AI 시장 지도

  • 음성 AI 시장은 기반 모델부터 음성 인프라, 개발자 플랫폼, 그리고 응용 프로그램까지 다양한 계층에서 혁신이 이루어지고 있음
  • 특히 아래의 세 가지 핵심 분야에서 주목할 만한 기회가 포착됨

1. 모델(Models)

  • 기능: 음성 기반 사용 사례를 지원하는 기술을 구축하며, SST(Speech-to-Speech), LLS(Large Language Models), TTS(Text-to-Speech) 등 특정 기술에 특화
  • 미래 방향:
    • 멀티모달 및 음성 네이티브 모델이 주도
    • 텍스트-오디오 간 전환 없이 오디오를 직접 처리할 수 있는 기술이 중요
  • 차세대 모델:
    • Cartesia와 같은 기업은 **State Space Models(SSMs)**을 활용한 새로운 아키텍처를 개척
    • 단순한 대화 처리는 소형 모델로, 복잡한 작업은 강력한 모델로 분리해 지연(latency) 및 비용 절감 기대

2. 개발자 플랫폼(Developer Platforms)

  • 음성 AI 에이전트 구축과 실시간 음성 인프라 관리는 여전히 개발자들에게 큰 기술적 도전. 새로운 플랫폼은 이러한 복잡성을 해결하며, 개발자에게 다양한 지원 제공
  • 지연 및 신뢰성 최적화:
    • 성능 높은 실시간 음성 에이전트를 확장 가능한 형태로 관리.
  • 대화 신호 및 비언어적 맥락 관리:
    • 사용자가 발화를 끝냈는지 판단하는 "엔드포인팅" 탐지.
    • 배경 소음 필터링 및 감정·정서 감지 개선.
  • 효율적인 오류 처리:
    • 실패한 API 호출 감지 및 즉각적인 재시도.
    • 대화 중단을 방지하는 대체 응답 삽입.
  • 타사 시스템 통합 및 RAG 지원:
    • 지식 기반과 타사 시스템에 저지연 통합 필요.
  • 대화 흐름 제어:
    • 예측 가능한 대화 플로우 설계로 민감하거나 규제된 대화 처리 지원.
  • 관찰 가능성, 분석, 테스트:
    • 대화 품질과 성능을 대규모로 추적할 수 있는 도구 부족 문제 해결.
  • 플랫폼 예시 Vapi: 음성 인프라의 복잡성을 줄이고 고품질의 음성 에이전트를 빠르게 구축할 수 있도록 지원

3. 응용 프로그램(Applications)

  • 음성을 활용한 자동화 제품이 다양한 분야에서 개발되고 있음.
  • 가장 주목받는 응용 프로그램의 특징:
    • 고객의 작업을 완전히 처리하고 가치 있는 결과 제공.
    • 수요 급증 시 수천 건의 통화를 동시에 처리할 수 있는 확장성.
    • 특정 산업에 특화된 맞춤형 솔루션 제공.
  • 기능별 주요 기회
    • 전사(Transcription): 대화 메모 작성, 후속 작업 추천
    • 인바운드 호출(Inbound Calling): 예약 관리, 잠재 고객 전환, 고객 성공 관리
    • 아웃바운드 호출(Outbound Calling): 지원자 선별, 약속 확인
    • 훈련(Training): 판매 또는 인터뷰 훈련.
    • 협상(Negotiation): 구매 협상, 보험 분쟁, 계약 조정
  • 투자 사례
    • Abridge: 의료 대화 문서화
    • Rilla: 현장 영업 코칭
    • Rev: 산업 전반에서 AI와 인간의 협업 전사 제공

구체적 응용 사례

  • 산업 특화 솔루션 Sameday AI: 홈 서비스 산업의 AI 판매 에이전트. 고객 전화 접수 → 문제에 따른 견적 제공 → 일정 조율 → 결제 완료까지 자동화.
  • 아웃바운드 호출 Wayfaster: 채용 프로세스 자동화. 지원자 선별 통화를 자동으로 진행하여 최상위 후보자에 집중.
  • 의료 보험 협상 : LLM을 활용해 수천 건의 보험 문서와 환자 기록을 분석, 실시간 협상 지원.

Voice AI 기술 투자 원칙

  • Voice AI 생태계는 개발자 플랫폼응용 프로그램 계층에서 가장 큰 창업 기회가 존재
  • 빠른 모델 개선 속도로 인해 기업가들이 적은 초기 투자로도 효과적인 MVP(최소 기능 제품)를 빠르게 개발하고 테스트할 수 있는 환경이 마련됨
  • 1. 산업별 워크플로와 다중 모달리티에 깊이 통합된 솔루션
    • 가장 영향력 있는 음성 AI 애플리케이션은 특정 산업의 워크플로에 맞게 깊이 통합됨
    • 각 산업에 특화된 언어 및 대화 방식에 맞춰 조정
    • 예:
      • 자동차 딜러용 음성 에이전트가 CRM과 통합되어 과거 고객 상호작용 데이터를 활용, 서비스 품질을 개선하고 배포 속도 향상
      • 음성과 텍스트, 이미지 등 다양한 모달리티를 결합하여 더 복잡한 인간의 다단계 프로세스를 해결
  • 2. 견고한 엔지니어링을 통한 고품질 제품 제공
    • 해커톤용 데모 제작은 비교적 간단하지만, 실질적인 제품은 높은 신뢰성, 확장성, 실사용 사례 처리 능력이 필요
    • 기업 요구사항: 일관된 성능 제공. 낮은 지연(latency) 보장. 기존 시스템과의 매끄러운 통합
    • 중점 설계 요소: 예측 불가능한 음성 입력 처리. 보안 강화. 높은 가동 시간(uptime) 유지
  • 3. 성장과 유지, 제품 품질 KPI 간 균형
    • 음성 에이전트는 매출 주도 기능(예: 영업)에서 강력한 성장 잠재력을 가짐.
    • 고객이 핵심 워크플로를 사람에서 에이전트로 전환할 때 품질 저하는 높은 해지율(churn)로 이어질 수 있음.

중요 KPI 및 품질 지표

  • Churn (고객 이탈률):
    • 초기 단계에서 음성 애플리케이션이 높은 이탈률로 어려움을 겪는 사례가 많음.
    • 신뢰할 수 없는 서비스로 고객이 경쟁사로 이동하는 경우 발생.
  • Self-Serve Resolution (셀프 서비스 해결율):
    • 음성 에이전트가 인간의 개입 없이 사용자의 문제를 얼마나 효과적으로 해결하는지를 나타냄.
  • Customer Satisfaction Score (고객 만족도 점수):
    • 음성 에이전트와 상호작용한 고객의 전반적인 만족도를 측정, 품질 통찰 제공.
  • Call Termination Rates (통화 종료율):
    • 높은 종료율은 사용자 경험의 문제와 미해결 문제를 나타냄.
  • Cohort Call Volume Expansion (코호트 통화량 확장):
    • 시간이 지남에 따라 고객이 음성 에이전트 사용량을 늘리는지 측정, 제품 가치와 사용자 참여의 지표.

Voice AI의 미래

  • 최근 몇 년간의 기술 발전은 복잡한 문제를 해결하는 혁신적인 제품 개발 가능성을 열어줌
  • 향후 멀티모달 및 실시간 대화 시스템이 다양한 산업에서 더 많은 문제를 해결할 것으로 기대됨

제가 예전에 IVR 쪽 일을 했어서 그런지 이쪽에 관심이 많네요 ㅎ

a16z가 정리한 AI Voice 에이전트에 대한 모든 것 글도 함께 보세요