a16z가 정리한 AI Voice 에이전트에 대한 모든 것

(a16z.com)

12P by xguru 2024-06-12 | ★ favorite | 댓글 1개

생성형 AI 덕분에 앞으로 인간은 전화 통화를 할 필요가 없어짐
인간은 전화 통화에 가치가 있을 때만 시간을 할애하게 될 것임

기업에게 주는 혜택

인간 발신자로 인한 시간과 인건비 절감
수익 창출 증대를 위한 자원 재배치 가능성
더 규격화되고 일관된 고객 경험으로 리스크 감소

소비자에게 주는 혜택

음성 에이전트는 실제 사람에게 돈을 지불하거나 "매칭"할 필요 없이 사람 수준의 서비스를 제공할 수 있음
- 현재는 치료사, 코치, 동반자 등이 포함됨
- 미래에는 음성을 중심으로 구축된 훨씬 더 광범위한 경험을 포괄할 가능성이 높음
대부분의 다른 소비자 소프트웨어와 마찬가지로 "승자"는 예측할 수 없을 것임

전화 통화는 세상과 소통하는 API이며, AI는 이를 한 단계 더 끌어올림

기회가 있다고 보이는 곳

인프라 플레이어, 소비자 인터페이스, 기업용 에이전트 등 각 계층에는 엄청난 기회가 있음
B2C 및 B2B 음성 에이전트의 경우, 가장 흥미로운 신흥 제품에 대해 몇 가지 가설이 있음:

B2B 및 B2C 음성 에이전트의 주요 특징

Built to scale (확장성 있게 구축됨)
- 지연 시간과 대화 경험은 아직 해결되지 않음
- 에이전트 구축에 대해 의견이 있는 창업자를 찾고 있음
- 에이전트의 가장 중요한 것(속도, 정확성, 톤/감정 등)을 극대화하기 위해 노력 중
Vertically focused (수직적으로 집중됨)
- 이는 특정 사용 사례에 맞춰진 독특하게 조정된 모델과 긴밀한 통합에 의존하는 연주자 에이전트일 수 있음
- 이는 구축하고 시장에 내놓고 성공적으로 성장시키기 쉬움
Realistic in scope (범위에서 현실적임)
- AI에 중요한 통화를 완전히 위임하는 것은 큰 과제임
- 우리는 음성 에이전트 회사가 단기적으로 "확장"할 수 없는 일을 하기를 기대함
- 여기에는 고객별 튜닝 또는 최종 단계를 위해 인간 에이전트에게 통화를 넘기는 것이 포함될 수 있음

음성 에이전트 구축을 위한 스택

음성 에이전트가 작동하려면 다음이 필요함:
- 인간의 음성을 수집(ASR)
- LLM을 사용하여 이 입력을 처리하고 출력을 반환
- 인간에게 다시 말하기(TTS)
GPT-4o와 같은 새로운 다중 모달 모델은 하나의 모델을 통해 이러한 여러 계층을 동시에 "실행"함으로써 스택의 구조를 변경할 수 있음
- 이는 지연 시간과 비용을 줄이고 더 자연스러운 대화형 인터페이스를 제공할 수 있음
- 많은 에이전트는 아래의 합성된 스택으로 진정한 인간 같은 품질에 도달하지 못했음
일부 회사/접근 방식에서는 LLM 또는 일련의 LLM이 대화 흐름과 감정을 처리함. 다른 경우에는 감정을 추가하고 중단을 관리하는 등의 고유한 엔진이 있음
- "풀 스택" 음성 제공업체는 이 모든 것을 한 곳에서 제공함.
소비자(B2C) 및 기업(B2B) 앱은 이 스택 위에 있음.
서드파티 제공업체를 사용하더라도 앱은 (일반적으로) 사용자 정의 LLM을 플러그인하는데, 이는 종종 대화 엔진 역할도 함.

풀 스택 vs. 자체 조립: 주요 요소 비교

음성 에이전트 창업자는 풀 스택 플랫폼(예: Retell, Vapi, Bland)에서 에이전트를 돌리거나 스택을 직접 조립하는 것 사이에서 선택할 수 있음.
이 결정을 내릴 때 몇 가지 주요 요소가 있음:
- Complexity (복잡성)
  - 풀 스택 플레이어는 인프라 측면의 복잡성을 추상화하면서 음성 에이전트를 더 간단하게 구축할 수 있는 방법을 제공함
  - 이는 프롬프트나 지식 문서(RAG)를 LLM에 플러그인하는 것과 같은 사용자 정의 및 튜닝의 여지를 여전히 남겨둠
- Flexibility (유연성)
  - 특정 수직 시장과 사용 사례를 구축하는 창업자는 스택의 각 계층이 어떻게 작동/실행되는지에 대해 최대한의 유연성을 원할 가능성이 높음
  - 이는 가능한 한 지연 시간을 줄이고 함께 얻을 수 있음
- Cost (비용)
  - 풀 스택 제공업체는 통화당 추가 비용 수준을 도입할 수 있으며, 볼륨으로 더 나은 가격을 협상할 수도 있음
  - 규모의 음성 에이전트의 경우 통화당 몇 센트 차이는 중요할 수 있음
- Control (제어)
  - 잘못될 경우 음성 에이전트 창업자는 문제를 즉시 추적하고 해결할 수 있어야 함. 특히 민감한 사용 사례의 경우 더욱 그러함
  - 또한 각 계층이 어떻게 작동하는지에 대한 최대한의 가시성이 필요할 수 있음
  - 자체 조립식 스택으로 이를 더 쉽게 할 수 있음
스택의 주요 플레이어들
- Full Stack (풀 스택) : hume, Retell AI, VAPI, vocode, sindarin., BLAND.AI
- Emotion (감정) : hume
- Text to Speech (텍스트 음성 변환) : ElevenLabs, Azure
- Speech to Text (음성 텍스트 변환) : Deepgram, Whisper, AssemblyAI, Azure
- Streaming (스트리밍) : LiveKit, daily

B2B 에이전트에 대한 우리의 견해

AI 음성의 진화

우리는 1.0 AI 음성(전화 트리)에서 2.0 AI 음성(LLM 기반) 시대로 전환하고 있음
2.0 기업들은 지난 6개월 정도에 등장하기 시작했음
1.0 기업들이 지금은 더 정확할 수 있지만, 장기적으로는 2.0 접근 방식이 훨씬 더 확장 가능하고 정확할 것임

수직 시장에 특화된 모델의 필요성

모든 유형의 기업용 음성 에이전트에 적용되는 하나의 수평적 모델이나 플랫폼은 없을 것임
수직 시장별로 몇 가지 주요 차이점이 있음:
1. 통화 유형, 톤 및 구조
2. 통합 및 프로세스
3. GTM 및 "킬러 기능"
이는 UI에서 고도로 의견화된 수직 에이전트의 폭발적 증가를 의미할 수 있음
이를 위해서는 해당 분야에 대한 전문 지식이나 관심을 가진 창업팀이 필요함

가장 근접한 기회

노동력이 많은 기업에게는 TAM이 큼
가장 근시일 내 기회는 다음과 같은 산업에 있을 수 있음:
- 전화 예약으로 살고 죽는 곳
- 심각한 노동력 부족을 겪는 곳
- 통화 복잡성이 낮은 곳
에이전트가 더 정교해짐에 따라 더 복잡한 통화를 처리할 수 있게 될 것임

B2B 에이전트의 진화

진화 과정
- IVR (Interactive Voice Response) : 전통적인 터치톤 모델로, 에이전트가 소비자에게 일련의 옵션(1번은 판매, 2번은 고객 지원 등)을 제공하고 이에 따라 소비자를 안내함
- AI 1.0 (Phone Trees) : IVR의 좀 더 유연하고 직관적인 버전으로, 소비자가 자연어로 말하고 에이전트는 일련의 대화 흐름을 통해 안내하려고 시도함
- AI 2.0 (LLMs) : 자유로운 형식의 대화로, AI가 인간이 말하는 특정 사전 정의된 옵션을 일치시키려 하지 않음
많은 음성 에이전트 회사들은 특정 산업(예: 자동차 서비스) 또는 특정 유형의 작업(예: 약속 예약)에 대해 수직 시장별 접근 방식을 취하고 있음. 이는 몇 가지 이유 때문임:
- 실행의 어려움
  - AI에 전화를 맡기기 위한 품질 기준이 높고, 대화 흐름(및 고객 측의 백엔드 워크플로)이 빠르게 복잡해지거나 구체화될 수 있음
  - 이러한 수직 시장의 "예외 사례"를 구축하는 회사는 성공 가능성이 더 높음 (예: 일반 모델이 오해할 수 있는 고유한 어휘)
- 규정 및 라이선스
  - 일부 음성 에이전트 회사는 특별한 제한, 필요한 인증 등에 직면함
  - 대표적인 예는 의료 분야(예: HIPAA 준수)이지만, 국가 차원에서 AI 콜드 콜링 규제가 있는 영업과 같은 범주에서도 나타나고 있음
- 통합
  - 일부 카테고리에서 사용자 경험(기업과 소비자 모두)을 제대로 구현하려면 롱테일 통합 또는 특수 통합이 필요할 수 있음. 이는 특정 사용 사례를 처리하려는 경우가 아니면 구축할 가치가 없음
- 다른 소프트웨어로의 진입
  - 음성은 예약, 갱신, 견적 등과 같은 핵심 고객 행동에 자연스럽게 진입할 수 있음
  - 경우에 따라 이는 이러한 기업을 위한 더 광범위한 수직형 SaaS 플랫폼으로 진출할 수 있는 계기가 될 것임. 특히 고객층이 여전히 오프라인에서 운영되는 경우 더욱 그러함

B2B 에이전트: 기회가 보이는 곳

LLM 기반 - 그러나 반드시 첫날부터 100% 자동화될 필요는 없음

AI 음성 에이전트의 "강력한 형태"는 IVR이나 전화 트리 접근 방식이 아닌 완전히 LLM 주도의 대화가 될 것임
그러나 LLM이 전 과정에서 100% 신뢰할 수 없기 때문에, 더 민감하거나 큰 거래에는 (일시적으로) "인간 개입"이 있을 가능성이 있음
이는 또한 수직 시장별 워크플로를 특히 중요하게 만드는데, 이를 통해 에지 케이스를 최소화하면서 성공 확률을 최대화하고 인간의 간섭을 최소화할 수 있음

사용자 정의 모델 튜닝 vs. LLM 접근 방식 프롬프트

B2B 음성 에이전트는 일반 LLM으로는 불충분할 가능성이 있는 전문화된(또는 수직 시장별) 대화를 다룰 필요가 있음
많은 회사가 고객별 모델을 튜닝하고 있으며(몇 백 또는 낮은 수천 개의 데이터 포인트 사용), 이를 회사 전체 기본 모델로 추론할 가능성이 있음
기업 고객을 위한 사용자 정의 튜닝은 계속될 수도 있음
- 참고: 일부 회사는 특정 사용 사례에 맞게 "일반" 모델(고객 전체에서 사용될)을 튜닝한 다음 고객별로 프롬프트할 수 있음

도메인 전문 지식을 갖춘 기술 팀

복잡성을 고려할 때 고품질 B2B 음성 에이전트를 구축하고 확장하려면 사전 AI 배경이 도움이 될 것임
그러나 제품을 패키징하고 수직 시장에 쐐기를 박는 방법을 이해하는 것도 도메인 전문 지식이나 강한 관심이 필요하기에 동등하게 중요할 가능성이 있음
기업용 음성 에이전트를 구축하고 출시하기 위해 AI 박사학위가 필요하지는 않음!

통합 + 생태계에 대한 날카로운 관점

상기 내용과 유사하게, 각 수직 시장의 구매자는 구매 전에 일반적으로 보고 싶어 하는 몇 가지 특정 기능이나 통합이 있음
실제로 이것이 제품을 "유용한" 것에서 "마법 같은" 것으로 평가를 높이는 증거가 될 수 있음
이것이 꽤 수직화된 상태에서 시작하는 것이 이치에 맞는 또 다른 이유임

"엔터프라이즈 등급" 또는 강력한 제품 주도 성장(PLG) 모션

상위 기업/공급자에 상당한 매출이 집중된 수직 시장의 경우, 음성 에이전트 회사는 대기업에서 시작하여 결국 셀프 서비스 제품으로 중소기업으로 "하향 전파"될 수 있음
중소기업 고객은 이 솔루션을 절실히 원하고 다양한 옵션을 테스트할 용의가 있지만, 스타트업이 모델을 기업 수준으로 조정할 수 있는 규모/품질의 데이터를 제공하지 못할 수 있음

B2C 에이전트에 대한 우리의 견해

B2B와의 차이점

B2B에서 음성 에이전트는 주로 특정 작업을 완료하기 위해 기존 전화 통화를 대체함
소비자 에이전트의 경우, 사용자가 계속 참여하기로 선택해야 하는데, 음성으로 상호 작용하는 것이 항상 편리한 것은 아니기 때문에 이는 어려움
이는 제품 기준이 "더 높음"을 의미함

첫 번째 적용 분야

소비자 음성 에이전트의 첫 번째이자 가장 명백한 적용 분야는 비싸거나 접근하기 어려운 인간 서비스를 AI로 대체하는 것임
여기에는 치료, 코칭, 튜터링 등 가상으로 완료할 수 있는 대화 기반의 모든 것이 포함됨

앞으로의 가능성

그러나 우리는 B2C 음성 에이전트의 진정한 마법은 아직 오지 않았다고 믿음!
우리는 음성의 힘을 사용하여 이전에 존재하지 않았던 새로운 종류의 "대화"를 가능하게 하는 제품을 찾고 있음
이는 기존 서비스의 형태를 재발명하거나 완전히 새로운 서비스를 만들어낼 수 있음

인간적 연결의 모방

UX를 제대로 구현한 제품의 경우, 음성 에이전트는 소프트웨어에서 이전에 볼 수 없었던 수준으로 소비자를 끌어들일 기회를 제공함
이는 진정으로 인간적 연결을 모방하는 것임
이는 에이전트를 제품으로, 또는 더 광범위한 제품의 음성 모드로 나타날 수 있음

B2C 에이전트의 진화

지금까지 지배적인 소비자 AI 음성 에이전트는 ChatGPT Voice와 Inflection의 Pi 앱과 같은 대기업에서 나왔음.
소비자용 음성이 더디게 등장한 데에는 몇 가지 이유가 있음:

대기업의 우위

대기업은 이미 소비자 유통망과 정확성, 지연 시간 등 측면에서 최고 수준의 모델을 보유하고 있음
음성은 대규모로 제공하기가 쉽지 않음. 특히 최근 GPT-4o가 출시된 것을 감안하면 더욱 그러함

새로운 행동 채택의 어려움

B2B 음성 에이전트는 기존 프로세스에 AI를 "플러그인"하는 반면, B2C 음성 에이전트는 사용자가 새로운 행동을 채택해야 함
이는 더 느리거나 더 마법 같은 제품을 필요로 할 수 있음

기존 음성 AI에 대한 부정적 인식

소비자는 Siri와 같은 제품 경험으로 인해 음성 AI에 대해 부정적인 영향을 받았기 때문에 새로운 앱을 시도하려는 영감을 받지 않을 수 있음

광범위 기반 제품의 기본 사용 사례 충족

광범위 기반 제품은 일반적으로 음성 AI의 기본 사용 사례(튜터링, 동반자 등)를 제공할 수 있음
B2C 음성 스타트업은 ChatGPT, Pi 등이 처리하지 않을 사용 사례나 경험을 만들기 시작하는 단계임

B2C 에이전트: 기회가 보이는 곳

음성이 필요한 이유에 대한 강력한 관점

우리는 음성이 제품에 어떻게 독특한 가치를 가져다주는지에 대해 의견이 있는 제품과 창업자에 대해 기대하고 있음
단순히 "음성을 위한 음성"이 아님
많은 경우 음성 인터페이스는 정보를 소비하고 추출하는 데 더 불편하기 때문에 텍스트 인터페이스보다 오히려 부정적임

실시간 음성이 필요한 이유에 대한 강력한 관점

음성은 소비하기 어려운 반면, 실시간 음성은 더욱 어려움(비동기 음성 메시지 대비)
우리는 그들의 제품이 왜 실시간 대화를 중심으로 구축되어야 하는지에 대한 관점을 가진 창업자들에 대해 기대하고 있음
아마도 인간 같은 동반자 관계, 연습 환경 등을 위한 것일 수 있음

AI 이전 "제품"과의 비유사성

우리는 강력한 형태의 제품이 AI 음성 에이전트가 단순히 인간 제공자를 대신하는 이전의 사람 대 사람 대화를 직접 옮긴 것이 아닐 것이라고 의심함
첫째, 그 기준에 부합하기 어려움
더 중요한 것은 AI를 사용하여 동일한 가치를 더 잘(더 효율적으로, 더 즐겁게) 전달할 기회가 있다는 것임

모델 품질이 승자를 결정짓지 않는 수직화

주요 일반 소비자 AI 제품(ChatGPT, Pi, Claude)은 고품질 음성 모드를 가지고 있음
그들은 많은 유형의 대화와 상호 작용에 의미 있게 참여할 수 있음
그들은 자체 모델과 스택을 호스팅하기 때문에 단기적으로 지연 시간과 대화 흐름에서 이길 가능성이 있음

우리는 스타트업이 다음과 같은 방식으로 성공하기를 기대하고 있음:

특정 유형의 대화에 맞게 조정하거나 튜닝하거나,
음성 에이전트 경험에 더 많은 맥락과 가치를 제공하는 UI를 구축
- (예: 시간 경과에 따른 진척 상황 추적, 대화/경험을 의견 있는 방식으로 조종)

▲

bus710 2024-06-13 [-]

모 엔터프라이즈 회사 integration 팀을 가까이서 볼 기회를 가질 수 있었는데, 본문의 내용과 유사한 프로젝트가 진행되는 것을 실시간으로 볼 수가 있었네요.

AWS connect를 통해 CS를 자동화하는 것이 초기의 목표였다가, 트래픽 분산처리도 하고, VVIP 대상 특별 서비스 기획에도 참여하고.... 점차 파이가 커지는 것을 보는것도 흥미로운 일이죠.

이렇다보니 솔직히 돈 안되는 고객들은 자동응답 봇이 최대한 대응하게 하고, 예치금 많은 고객들은 최대한 빨리 인간 에이전트들이 직접 연락하는게 서비스 기조 더군요. 어쩔 수 없는 부분이겠죠 ㅎㅎ

답변달기