# a16z: AI Voice Agent의 현재 - 2025

> Clean Markdown view of GeekNews topic #19082. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=19082](https://news.hada.io/topic?id=19082)
- GeekNews Markdown: [https://news.hada.io/topic/19082.md](https://news.hada.io/topic/19082.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2025-02-06T09:48:02+09:00
- Updated: 2025-02-06T09:48:02+09:00
- Original source: [gamma.app](https://gamma.app/docs/a16z-AI-Voice-Update-2025--ttkorld8iy6wfnj?mode=doc)
- Points: 15
- Comments: 1

## Summary

AI 음성 에이전트는 기업이 인력을 대체하고 24시간 고객 대응을 가능하게 하며, 소비자에게는 주요 AI 인터페이스로 자리 잡을 전망입니다. 최근 AI 음성 모델의 성능 향상과 비용 감소로 인해 음성 에이전트 시장이 급속도로 성장하고 있으며, 다양한 산업에서 AI 음성을 활용한 솔루션이 도입되고 있습니다. 특히 콜센터, 금융, 보험, 헬스케어 등에서 AI 음성 에이전트의 활용이 활발하며, 높은 비용 절감과 효율성을 제공하는 솔루션에 대한 시장의 관심이 커지고 있습니다.

## Topic Body

### 우리의 Thesis - "왜 음성인가?""  
- 음성은 AI 활용성 측면에서 강력한 돌파구 역할을 함  
- 기업 입장에서는 AI를 통해 인력을 대체하고 24시간 고객 대응이 가능해짐  
- 소비자 입장에서도 음성이 주요 AI 인터페이스가 될 것이라는 전망이 있음  
- 현재는 AI 음성 인프라가 어느 정도 정착되고, 다양한 애플리케이션에서 음성을 본격적으로 활용하기 시작한 시점임  
- 모델 성능이 개선됨에 따라 음성 자체가 제품이 아닌, 시장 진입을 위한 ‘웨지(wedge)’로 작동하게 될 것이라는 관측이 존재함  
  
### 그간 발표된 새로운 것들   
- 2024년 5월: OpenAI가 GPT-4o voice를 출시해 실시간 음성 대응 기능을 선보임, Cartesia가 Sonic 발표  
- 2024년 6월: Character가 음성 통화 기능을 베타로 도입, Apple이 Siri에 ChatGPT 통합 발표  
- 2024년 7월: OpenAI가 Advanced Voice 롤아웃 진행, Speechmatics가 Flow 모델 공개  
- 2024년 8월: Amazon이 Claude를 Alexa에 통합, Meta가 유명인 목소리를 활용한 AI 동반자 제공  
- 2024년 9월: NotebookLM이 Audio Overview로 화제 얻음, PlayHT가 2.0 모델 공개  
- 2024년 10월: OpenAI가 실시간 API 출시, Kyutai가 모시(Moshi) 모델 발표  
- 2024년 11월: ElevenLabs가 Conversational AI 출시, NVIDIA가 Fugatto 모델 발표, Gemini Live가 실시간 앱 공개  
- 2024년 12월: ChatGPT Advanced Voice Mode에 인터넷 검색 탑재, 1-800-CHATGPT 출시로 화제 모음  
  
### 뭐가 바뀌었나?  
- 모델 인프라가 간소화되고, 낮은 지연시간 및 높은 성능을 갖춘 음성 에이전트가 등장함  
- 최근 6개월간의 신형 대화형 모델이 이러한 성능 향상의 큰 원동력임  
- 비용 감소도 진행 중으로, 2024년 12월 OpenAI는 GPT-4o 실시간 API의 가격을 크게 낮춤  
- GPT-4o mini 역시 실시간 버전으로 제공됨  
  
### 현재 상황  
- # 모델 품질  
  - 대화 품질(지연시간, 끼어들기 가능성, 감정 표현 등)이 대부분 해결된 수준임  
  - OpenAI의 실시간 음성 모델과 다른 모델들의 발전으로, 콜센터/BPO보다 높은 성능을 보이는 사례도 있음  
- # GTM(go-to-market)  
  - 에이전트 제품은 인력을 직접 대체해 빠르게 확산 가능함  
  - 다만 진입 장벽이 낮기도 하며, 보수적인 대기업은 도입 장벽이 큼  
  - GTM 실행력과 추가 제품 단계(act 2)가 성공의 핵심 요소임  
- # 수익화  
  - 초기에는 분당 요금제 중심이었으나 모델 비용이 급격히 내려가면서 가격 압박이 심화됨  
  - 향후에는 플랫폼 이용료 + 사용량 기반의 복합 과금 모델이 등장할 것으로 예상됨  
- # 경쟁 양상  
  - 기업 대상 음성 에이전트는 개발자 중심 플랫폼, 노코드 형태의 범용 플랫폼, 특정 업종에 특화된 솔루션과 경쟁 중임  
  - 경쟁이 더욱 치열해질 전망임  
  
### 시장 진화  
- 2024년 하반기에 음성 에이전트 시장이 급속도로 성장함  
- 다양한 상품이 음성 기능을 추가하는 추세임  
- 대화형 음성 스택의 여러 레이어에서 신규 자금 유치와 실질적 고객 확보가 활발함  
- 특히 대기업에서 사람 콜 업무를 전부 AI로 대체하기보다는 일부 전화 유형으로 먼저 시작해 점차 확장하는 경향이 있음  
  - **야간·과부하 콜**: 일반적으로 음성메일로 넘어가던 전화를 AI로 처리해 일정 수준의 정보 수집 및 거래 처리 가능  
  - **신규 아웃바운드 콜**: 경제성이 낮아 기존에는 하지 않았던 전화가 가능해져 추가 매출 또는 비용 절감 효과 기대  
    - **‘백오피스’ 콜**: 다른 회사나 기관에 전화를 걸어야 하는 업무 자동화로 효율 증가 가능  
  
### 시장 진화 - 투자 유치 사례  
- # 모델 회사  
  - ElevenLabs, Hume, PlayAI, Cartesia, WaveForms AI 등에서 시리즈 B와 시드 라운드에 걸친 대규모 투자 유치 소식이 이어짐  
- # 범용 플랫폼  
  - Kore, Rasa, Parloa, PolyAI, Synthflow, Thoughtly, Bland 등에서 시리즈 A~C 투자 유치 진행  
  - 특정 산업(세일즈, 커스터머 서포트 등)에 집중한 11x, Decagon, Sierra, Artisan 등도 주목받음  
  - Vapi, Retell AI와 같은 개발자 플랫폼도 등장함  
- # 버티컬 플랫폼  
  - Hippocratic AI, Assort Health, Voicepanel, Letter, Solidroad 등 헬스케어·인사·비상 대응 같은 특화 영역에서 다수 스타트업이 투자받음  
  - Wayfaster, HappyRobot 등도 물류·인터뷰 분야 등에서 투자 유치에 성공함  
  
### 중요 버티컬 시장  
- 음성 에이전트가 가장 먼저 도입될 가능성이 높은 곳은 콜센터/BPO 지출 규모가 큰 업종임  
- 금융, 보험, B2C, B2B, 정부, 헬스케어 등 주요 업종은 각자 고유한 음성 솔루션을 확보할 가능성이 높음  
- 아래 분야에서 창업자가 활발하게 시도할 것으로 예상됨  
  - Financial services (예: 채무 추심)  
  - Insurance (고객 대응 및 백오피스)  
  - Government  
  - Support services (전문 지식이 필요한 IT 지원 등 복잡한 고객 응대)  
- 콜센터 범주를 벗어난 영역에서도, 높은 연봉 직군을 대상으로 코칭/트레이닝 용 AI 음성 에이전트에 대한 지불 의향이 확인됨  
  - 현실적인 음성 에이전트가 ‘시뮬레이터’ 역할을 하여 업무 역량을 크게 향상시킬 수 있음  
  - 이를 통해 세일즈 코치 등 인력비 또는 기존 저효율 소프트웨어를 대체할 수 있음  
  
### 주목할 버티컬 - YC 기업 동향  
- YC에 참여한 음성 에이전트 기업이 빠르게 증가 추세임  
- B2B (~69%)와 헬스케어 (~18%)가 주류이며, B2B 하위 분야로는 핀테크와 고객 지원 관련 스타트업이 다수임  
- 헬스케어 분야는 프런트오피스(환자 대상)와 백오피스(약국, 보험사 등 대상)로 나뉨  
- 전반적으로 스타트업들이 음성 에이전트로 다양한 업계 문제를 해결하려 시도 중임  
  
### 우리가 찾고 있는 것  
- 전화가 핵심 채널이거나 규제·효율 관점에서 전화가 최적화된 산업  
  - 전화가 고객 데모의 우선 수단이 되거나 (예: 물류)  
  - 규제상 통화가 더 효과적이거나 (예: 채무 추심)  
  - 다른 접근보다 성공률이 높은 영역 (예: 헬스케어)  
- 통화 구조가 명확하고 측정 가능해야 함  
  - 수집해야 할 데이터 포인트나 전달해야 할 정보가 분명함  
  - 결과를 측정하기 쉬워, 기업이 AI 음성 에이전트 도입을 부담 없이 고려할 수 있음  
- 인건비 50% 이상 절감을 달성하면서 사람과 유사한 성과를 내야 함  
  - 대체되는 인력이 확연하거나 재배치가 가능한 시나리오에서 더 도입이 쉬움  
  - 내부적으로 AI 회의론이 있을 수 있으므로 ROI가 매우 커야 함  
- 통화가 고객에게는 ‘생존이 달린 문제’지만, 걸거나 받는 측은 실패를 감수할 수 있는 환경  
  - 야간·과부하(overflow) 전화나 ‘서브프라임’ 전화로 시작하는 경우가 많음  
  - 성능 기준이 낮은 곳에서 AI가 진입하기 용이함  
- 직접 매출 창출 (예: 신규 예약, 결제) 또는 높은 비용 지출 영역(예: 드라이브 스루)에서 통화 효율화 효과가 큼  
- SMB/미드마켓 진입을 위해서는 간단한 VoIP 연동이나 셀프셋업이 가능해야 함  
- 엔터프라이즈는 초기 통합이 복잡할수록 진입장벽이 생기는 동시에, 잘 구축되면 경쟁우위가 됨  
  - 또는 낮은 통합 복잡도로 쉽게 시작해, 점차 확장 가능  
- 전반적으로 높은 성공률과 큰 비용 절감 효과를 동시에 달성하는 솔루션에 시장 관심이 높음  
  
### 사례 연구 - AI 음성 인터뷰  
- 초기에는 복잡도와 민감도가 높은 구인 면접에 AI 음성을 도입하는 것이 의외로 보임  
- 하지만 스태핑 업계에서 대규모/반복 면접을 처리하는 데 큰 효과를 봄  
- 지원자 경험을 해치지 않으면서 더욱 빠르고 일관성 있는 면접 진행이 가능해짐  
- AI가 필요에 따라 즉시 인터뷰를 수행하거나, 언어/억양 장벽 없이 지원자를 평가할 수 있음  
- 특히 기술 직무의 경우, 일반 인사 담당자보다 AI가 더 정확한 평가를 할 수 있다는 피드백이 있음  
- 기업에서는 면접 통과율이 상승하고, 후보자의 매칭 과정이 빨라지는 장점을 체감함

## Comments



### Comment 34220

- Author: xguru
- Created: 2025-02-06T09:49:01+09:00
- Points: 1

[a16z가 정리한 AI Voice 에이전트에 대한 모든 것](https://news.hada.io/topic?id=15304)
