우리의 Thesis - "왜 음성인가?""
- 음성은 AI 활용성 측면에서 강력한 돌파구 역할을 함
- 기업 입장에서는 AI를 통해 인력을 대체하고 24시간 고객 대응이 가능해짐
- 소비자 입장에서도 음성이 주요 AI 인터페이스가 될 것이라는 전망이 있음
- 현재는 AI 음성 인프라가 어느 정도 정착되고, 다양한 애플리케이션에서 음성을 본격적으로 활용하기 시작한 시점임
- 모델 성능이 개선됨에 따라 음성 자체가 제품이 아닌, 시장 진입을 위한 ‘웨지(wedge)’로 작동하게 될 것이라는 관측이 존재함
그간 발표된 새로운 것들
- 2024년 5월: OpenAI가 GPT-4o voice를 출시해 실시간 음성 대응 기능을 선보임, Cartesia가 Sonic 발표
- 2024년 6월: Character가 음성 통화 기능을 베타로 도입, Apple이 Siri에 ChatGPT 통합 발표
- 2024년 7월: OpenAI가 Advanced Voice 롤아웃 진행, Speechmatics가 Flow 모델 공개
- 2024년 8월: Amazon이 Claude를 Alexa에 통합, Meta가 유명인 목소리를 활용한 AI 동반자 제공
- 2024년 9월: NotebookLM이 Audio Overview로 화제 얻음, PlayHT가 2.0 모델 공개
- 2024년 10월: OpenAI가 실시간 API 출시, Kyutai가 모시(Moshi) 모델 발표
- 2024년 11월: ElevenLabs가 Conversational AI 출시, NVIDIA가 Fugatto 모델 발표, Gemini Live가 실시간 앱 공개
- 2024년 12월: ChatGPT Advanced Voice Mode에 인터넷 검색 탑재, 1-800-CHATGPT 출시로 화제 모음
뭐가 바뀌었나?
- 모델 인프라가 간소화되고, 낮은 지연시간 및 높은 성능을 갖춘 음성 에이전트가 등장함
- 최근 6개월간의 신형 대화형 모델이 이러한 성능 향상의 큰 원동력임
- 비용 감소도 진행 중으로, 2024년 12월 OpenAI는 GPT-4o 실시간 API의 가격을 크게 낮춤
- GPT-4o mini 역시 실시간 버전으로 제공됨
현재 상황
-
모델 품질
- 대화 품질(지연시간, 끼어들기 가능성, 감정 표현 등)이 대부분 해결된 수준임
- OpenAI의 실시간 음성 모델과 다른 모델들의 발전으로, 콜센터/BPO보다 높은 성능을 보이는 사례도 있음
-
GTM(go-to-market)
- 에이전트 제품은 인력을 직접 대체해 빠르게 확산 가능함
- 다만 진입 장벽이 낮기도 하며, 보수적인 대기업은 도입 장벽이 큼
- GTM 실행력과 추가 제품 단계(act 2)가 성공의 핵심 요소임
-
수익화
- 초기에는 분당 요금제 중심이었으나 모델 비용이 급격히 내려가면서 가격 압박이 심화됨
- 향후에는 플랫폼 이용료 + 사용량 기반의 복합 과금 모델이 등장할 것으로 예상됨
-
경쟁 양상
- 기업 대상 음성 에이전트는 개발자 중심 플랫폼, 노코드 형태의 범용 플랫폼, 특정 업종에 특화된 솔루션과 경쟁 중임
- 경쟁이 더욱 치열해질 전망임
시장 진화
- 2024년 하반기에 음성 에이전트 시장이 급속도로 성장함
- 다양한 상품이 음성 기능을 추가하는 추세임
- 대화형 음성 스택의 여러 레이어에서 신규 자금 유치와 실질적 고객 확보가 활발함
- 특히 대기업에서 사람 콜 업무를 전부 AI로 대체하기보다는 일부 전화 유형으로 먼저 시작해 점차 확장하는 경향이 있음
-
야간·과부하 콜: 일반적으로 음성메일로 넘어가던 전화를 AI로 처리해 일정 수준의 정보 수집 및 거래 처리 가능
-
신규 아웃바운드 콜: 경제성이 낮아 기존에는 하지 않았던 전화가 가능해져 추가 매출 또는 비용 절감 효과 기대
-
‘백오피스’ 콜: 다른 회사나 기관에 전화를 걸어야 하는 업무 자동화로 효율 증가 가능
시장 진화 - 투자 유치 사례
-
모델 회사
- ElevenLabs, Hume, PlayAI, Cartesia, WaveForms AI 등에서 시리즈 B와 시드 라운드에 걸친 대규모 투자 유치 소식이 이어짐
-
범용 플랫폼
- Kore, Rasa, Parloa, PolyAI, Synthflow, Thoughtly, Bland 등에서 시리즈 A~C 투자 유치 진행
- 특정 산업(세일즈, 커스터머 서포트 등)에 집중한 11x, Decagon, Sierra, Artisan 등도 주목받음
- Vapi, Retell AI와 같은 개발자 플랫폼도 등장함
-
버티컬 플랫폼
- Hippocratic AI, Assort Health, Voicepanel, Letter, Solidroad 등 헬스케어·인사·비상 대응 같은 특화 영역에서 다수 스타트업이 투자받음
- Wayfaster, HappyRobot 등도 물류·인터뷰 분야 등에서 투자 유치에 성공함
중요 버티컬 시장
- 음성 에이전트가 가장 먼저 도입될 가능성이 높은 곳은 콜센터/BPO 지출 규모가 큰 업종임
- 금융, 보험, B2C, B2B, 정부, 헬스케어 등 주요 업종은 각자 고유한 음성 솔루션을 확보할 가능성이 높음
- 아래 분야에서 창업자가 활발하게 시도할 것으로 예상됨
- Financial services (예: 채무 추심)
- Insurance (고객 대응 및 백오피스)
- Government
- Support services (전문 지식이 필요한 IT 지원 등 복잡한 고객 응대)
- 콜센터 범주를 벗어난 영역에서도, 높은 연봉 직군을 대상으로 코칭/트레이닝 용 AI 음성 에이전트에 대한 지불 의향이 확인됨
- 현실적인 음성 에이전트가 ‘시뮬레이터’ 역할을 하여 업무 역량을 크게 향상시킬 수 있음
- 이를 통해 세일즈 코치 등 인력비 또는 기존 저효율 소프트웨어를 대체할 수 있음
주목할 버티컬 - YC 기업 동향
- YC에 참여한 음성 에이전트 기업이 빠르게 증가 추세임
- B2B (~69%)와 헬스케어 (~18%)가 주류이며, B2B 하위 분야로는 핀테크와 고객 지원 관련 스타트업이 다수임
- 헬스케어 분야는 프런트오피스(환자 대상)와 백오피스(약국, 보험사 등 대상)로 나뉨
- 전반적으로 스타트업들이 음성 에이전트로 다양한 업계 문제를 해결하려 시도 중임
우리가 찾고 있는 것
- 전화가 핵심 채널이거나 규제·효율 관점에서 전화가 최적화된 산업
- 전화가 고객 데모의 우선 수단이 되거나 (예: 물류)
- 규제상 통화가 더 효과적이거나 (예: 채무 추심)
- 다른 접근보다 성공률이 높은 영역 (예: 헬스케어)
- 통화 구조가 명확하고 측정 가능해야 함
- 수집해야 할 데이터 포인트나 전달해야 할 정보가 분명함
- 결과를 측정하기 쉬워, 기업이 AI 음성 에이전트 도입을 부담 없이 고려할 수 있음
- 인건비 50% 이상 절감을 달성하면서 사람과 유사한 성과를 내야 함
- 대체되는 인력이 확연하거나 재배치가 가능한 시나리오에서 더 도입이 쉬움
- 내부적으로 AI 회의론이 있을 수 있으므로 ROI가 매우 커야 함
- 통화가 고객에게는 ‘생존이 달린 문제’지만, 걸거나 받는 측은 실패를 감수할 수 있는 환경
- 야간·과부하(overflow) 전화나 ‘서브프라임’ 전화로 시작하는 경우가 많음
- 성능 기준이 낮은 곳에서 AI가 진입하기 용이함
- 직접 매출 창출 (예: 신규 예약, 결제) 또는 높은 비용 지출 영역(예: 드라이브 스루)에서 통화 효율화 효과가 큼
- SMB/미드마켓 진입을 위해서는 간단한 VoIP 연동이나 셀프셋업이 가능해야 함
- 엔터프라이즈는 초기 통합이 복잡할수록 진입장벽이 생기는 동시에, 잘 구축되면 경쟁우위가 됨
- 또는 낮은 통합 복잡도로 쉽게 시작해, 점차 확장 가능
- 전반적으로 높은 성공률과 큰 비용 절감 효과를 동시에 달성하는 솔루션에 시장 관심이 높음
사례 연구 - AI 음성 인터뷰
- 초기에는 복잡도와 민감도가 높은 구인 면접에 AI 음성을 도입하는 것이 의외로 보임
- 하지만 스태핑 업계에서 대규모/반복 면접을 처리하는 데 큰 효과를 봄
- 지원자 경험을 해치지 않으면서 더욱 빠르고 일관성 있는 면접 진행이 가능해짐
- AI가 필요에 따라 즉시 인터뷰를 수행하거나, 언어/억양 장벽 없이 지원자를 평가할 수 있음
- 특히 기술 직무의 경우, 일반 인사 담당자보다 AI가 더 정확한 평가를 할 수 있다는 피드백이 있음
- 기업에서는 면접 통과율이 상승하고, 후보자의 매칭 과정이 빨라지는 장점을 체감함