12P by xguru 5달전 | favorite | 댓글 1개
  • 생성형 AI 덕분에 앞으로 인간은 전화 통화를 할 필요가 없어짐
  • 인간은 전화 통화에 가치가 있을 때만 시간을 할애하게 될 것임

기업에게 주는 혜택

  1. 인간 발신자로 인한 시간과 인건비 절감
  2. 수익 창출 증대를 위한 자원 재배치 가능성
  3. 더 규격화되고 일관된 고객 경험으로 리스크 감소

소비자에게 주는 혜택

  • 음성 에이전트는 실제 사람에게 돈을 지불하거나 "매칭"할 필요 없이 사람 수준의 서비스를 제공할 수 있음
    • 현재는 치료사, 코치, 동반자 등이 포함됨
    • 미래에는 음성을 중심으로 구축된 훨씬 더 광범위한 경험을 포괄할 가능성이 높음
  • 대부분의 다른 소비자 소프트웨어와 마찬가지로 "승자"는 예측할 수 없을 것임

전화 통화는 세상과 소통하는 API이며, AI는 이를 한 단계 더 끌어올림

기회가 있다고 보이는 곳

  • 인프라 플레이어, 소비자 인터페이스, 기업용 에이전트 등 각 계층에는 엄청난 기회가 있음
  • B2C 및 B2B 음성 에이전트의 경우, 가장 흥미로운 신흥 제품에 대해 몇 가지 가설이 있음:

B2B 및 B2C 음성 에이전트의 주요 특징

  • Built to scale (확장성 있게 구축됨)
    • 지연 시간과 대화 경험은 아직 해결되지 않음
    • 에이전트 구축에 대해 의견이 있는 창업자를 찾고 있음
    • 에이전트의 가장 중요한 것(속도, 정확성, 톤/감정 등)을 극대화하기 위해 노력 중
  • Vertically focused (수직적으로 집중됨)
    • 이는 특정 사용 사례에 맞춰진 독특하게 조정된 모델과 긴밀한 통합에 의존하는 연주자 에이전트일 수 있음
    • 이는 구축하고 시장에 내놓고 성공적으로 성장시키기 쉬움
  • Realistic in scope (범위에서 현실적임)
    • AI에 중요한 통화를 완전히 위임하는 것은 큰 과제임
    • 우리는 음성 에이전트 회사가 단기적으로 "확장"할 수 없는 일을 하기를 기대함
    • 여기에는 고객별 튜닝 또는 최종 단계를 위해 인간 에이전트에게 통화를 넘기는 것이 포함될 수 있음

음성 에이전트 구축을 위한 스택

  • 음성 에이전트가 작동하려면 다음이 필요함:
    • 인간의 음성을 수집(ASR)
    • LLM을 사용하여 이 입력을 처리하고 출력을 반환
    • 인간에게 다시 말하기(TTS)
  • GPT-4o와 같은 새로운 다중 모달 모델은 하나의 모델을 통해 이러한 여러 계층을 동시에 "실행"함으로써 스택의 구조를 변경할 수 있음
    • 이는 지연 시간과 비용을 줄이고 더 자연스러운 대화형 인터페이스를 제공할 수 있음
    • 많은 에이전트는 아래의 합성된 스택으로 진정한 인간 같은 품질에 도달하지 못했음
  • 일부 회사/접근 방식에서는 LLM 또는 일련의 LLM이 대화 흐름과 감정을 처리함. 다른 경우에는 감정을 추가하고 중단을 관리하는 등의 고유한 엔진이 있음
    • "풀 스택" 음성 제공업체는 이 모든 것을 한 곳에서 제공함.
  • 소비자(B2C) 및 기업(B2B) 앱은 이 스택 위에 있음.
  • 서드파티 제공업체를 사용하더라도 앱은 (일반적으로) 사용자 정의 LLM을 플러그인하는데, 이는 종종 대화 엔진 역할도 함.

풀 스택 vs. 자체 조립: 주요 요소 비교

  • 음성 에이전트 창업자는 풀 스택 플랫폼(예: Retell, Vapi, Bland)에서 에이전트를 돌리거나 스택을 직접 조립하는 것 사이에서 선택할 수 있음.
  • 이 결정을 내릴 때 몇 가지 주요 요소가 있음:
    • Complexity (복잡성)
      • 풀 스택 플레이어는 인프라 측면의 복잡성을 추상화하면서 음성 에이전트를 더 간단하게 구축할 수 있는 방법을 제공함
      • 이는 프롬프트나 지식 문서(RAG)를 LLM에 플러그인하는 것과 같은 사용자 정의 및 튜닝의 여지를 여전히 남겨둠
    • Flexibility (유연성)
      • 특정 수직 시장과 사용 사례를 구축하는 창업자는 스택의 각 계층이 어떻게 작동/실행되는지에 대해 최대한의 유연성을 원할 가능성이 높음
      • 이는 가능한 한 지연 시간을 줄이고 함께 얻을 수 있음
    • Cost (비용)
      • 풀 스택 제공업체는 통화당 추가 비용 수준을 도입할 수 있으며, 볼륨으로 더 나은 가격을 협상할 수도 있음
      • 규모의 음성 에이전트의 경우 통화당 몇 센트 차이는 중요할 수 있음
    • Control (제어)
      • 잘못될 경우 음성 에이전트 창업자는 문제를 즉시 추적하고 해결할 수 있어야 함. 특히 민감한 사용 사례의 경우 더욱 그러함
      • 또한 각 계층이 어떻게 작동하는지에 대한 최대한의 가시성이 필요할 수 있음
      • 자체 조립식 스택으로 이를 더 쉽게 할 수 있음
  • 스택의 주요 플레이어들
    • Full Stack (풀 스택) : hume, Retell AI, VAPI, vocode, sindarin., BLAND.AI
    • Emotion (감정) : hume
    • Text to Speech (텍스트 음성 변환) : ElevenLabs, Azure
    • Speech to Text (음성 텍스트 변환) : Deepgram, Whisper, AssemblyAI, Azure
    • Streaming (스트리밍) : LiveKit, daily

B2B 에이전트에 대한 우리의 견해

AI 음성의 진화

  • 우리는 1.0 AI 음성(전화 트리)에서 2.0 AI 음성(LLM 기반) 시대로 전환하고 있음
  • 2.0 기업들은 지난 6개월 정도에 등장하기 시작했음
  • 1.0 기업들이 지금은 더 정확할 수 있지만, 장기적으로는 2.0 접근 방식이 훨씬 더 확장 가능하고 정확할 것임

수직 시장에 특화된 모델의 필요성

  • 모든 유형의 기업용 음성 에이전트에 적용되는 하나의 수평적 모델이나 플랫폼은 없을 것임
  • 수직 시장별로 몇 가지 주요 차이점이 있음:
    1. 통화 유형, 톤 및 구조
    2. 통합 및 프로세스
    3. GTM 및 "킬러 기능"
  • 이는 UI에서 고도로 의견화된 수직 에이전트의 폭발적 증가를 의미할 수 있음
  • 이를 위해서는 해당 분야에 대한 전문 지식이나 관심을 가진 창업팀이 필요함

가장 근접한 기회

  • 노동력이 많은 기업에게는 TAM이 큼
  • 가장 근시일 내 기회는 다음과 같은 산업에 있을 수 있음:
    • 전화 예약으로 살고 죽는 곳
    • 심각한 노동력 부족을 겪는 곳
    • 통화 복잡성이 낮은 곳
  • 에이전트가 더 정교해짐에 따라 더 복잡한 통화를 처리할 수 있게 될 것임

B2B 에이전트의 진화

  • 진화 과정
    • IVR (Interactive Voice Response) : 전통적인 터치톤 모델로, 에이전트가 소비자에게 일련의 옵션(1번은 판매, 2번은 고객 지원 등)을 제공하고 이에 따라 소비자를 안내함
    • AI 1.0 (Phone Trees) : IVR의 좀 더 유연하고 직관적인 버전으로, 소비자가 자연어로 말하고 에이전트는 일련의 대화 흐름을 통해 안내하려고 시도함
    • AI 2.0 (LLMs) : 자유로운 형식의 대화로, AI가 인간이 말하는 특정 사전 정의된 옵션을 일치시키려 하지 않음
  • 많은 음성 에이전트 회사들은 특정 산업(예: 자동차 서비스) 또는 특정 유형의 작업(예: 약속 예약)에 대해 수직 시장별 접근 방식을 취하고 있음. 이는 몇 가지 이유 때문임:
    • 실행의 어려움
      • AI에 전화를 맡기기 위한 품질 기준이 높고, 대화 흐름(및 고객 측의 백엔드 워크플로)이 빠르게 복잡해지거나 구체화될 수 있음
      • 이러한 수직 시장의 "예외 사례"를 구축하는 회사는 성공 가능성이 더 높음 (예: 일반 모델이 오해할 수 있는 고유한 어휘)
    • 규정 및 라이선스
      • 일부 음성 에이전트 회사는 특별한 제한, 필요한 인증 등에 직면함
      • 대표적인 예는 의료 분야(예: HIPAA 준수)이지만, 국가 차원에서 AI 콜드 콜링 규제가 있는 영업과 같은 범주에서도 나타나고 있음
    • 통합
      • 일부 카테고리에서 사용자 경험(기업과 소비자 모두)을 제대로 구현하려면 롱테일 통합 또는 특수 통합이 필요할 수 있음. 이는 특정 사용 사례를 처리하려는 경우가 아니면 구축할 가치가 없음
    • 다른 소프트웨어로의 진입
      • 음성은 예약, 갱신, 견적 등과 같은 핵심 고객 행동에 자연스럽게 진입할 수 있음
      • 경우에 따라 이는 이러한 기업을 위한 더 광범위한 수직형 SaaS 플랫폼으로 진출할 수 있는 계기가 될 것임. 특히 고객층이 여전히 오프라인에서 운영되는 경우 더욱 그러함

B2B 에이전트: 기회가 보이는 곳

LLM 기반 - 그러나 반드시 첫날부터 100% 자동화될 필요는 없음

  • AI 음성 에이전트의 "강력한 형태"는 IVR이나 전화 트리 접근 방식이 아닌 완전히 LLM 주도의 대화가 될 것임
  • 그러나 LLM이 전 과정에서 100% 신뢰할 수 없기 때문에, 더 민감하거나 큰 거래에는 (일시적으로) "인간 개입"이 있을 가능성이 있음
  • 이는 또한 수직 시장별 워크플로를 특히 중요하게 만드는데, 이를 통해 에지 케이스를 최소화하면서 성공 확률을 최대화하고 인간의 간섭을 최소화할 수 있음

사용자 정의 모델 튜닝 vs. LLM 접근 방식 프롬프트

  • B2B 음성 에이전트는 일반 LLM으로는 불충분할 가능성이 있는 전문화된(또는 수직 시장별) 대화를 다룰 필요가 있음
  • 많은 회사가 고객별 모델을 튜닝하고 있으며(몇 백 또는 낮은 수천 개의 데이터 포인트 사용), 이를 회사 전체 기본 모델로 추론할 가능성이 있음
  • 기업 고객을 위한 사용자 정의 튜닝은 계속될 수도 있음
    • 참고: 일부 회사는 특정 사용 사례에 맞게 "일반" 모델(고객 전체에서 사용될)을 튜닝한 다음 고객별로 프롬프트할 수 있음

도메인 전문 지식을 갖춘 기술 팀

  • 복잡성을 고려할 때 고품질 B2B 음성 에이전트를 구축하고 확장하려면 사전 AI 배경이 도움이 될 것임
  • 그러나 제품을 패키징하고 수직 시장에 쐐기를 박는 방법을 이해하는 것도 도메인 전문 지식이나 강한 관심이 필요하기에 동등하게 중요할 가능성이 있음
  • 기업용 음성 에이전트를 구축하고 출시하기 위해 AI 박사학위가 필요하지는 않음!

통합 + 생태계에 대한 날카로운 관점

  • 상기 내용과 유사하게, 각 수직 시장의 구매자는 구매 전에 일반적으로 보고 싶어 하는 몇 가지 특정 기능이나 통합이 있음
  • 실제로 이것이 제품을 "유용한" 것에서 "마법 같은" 것으로 평가를 높이는 증거가 될 수 있음
  • 이것이 꽤 수직화된 상태에서 시작하는 것이 이치에 맞는 또 다른 이유임

"엔터프라이즈 등급" 또는 강력한 제품 주도 성장(PLG) 모션

  • 상위 기업/공급자에 상당한 매출이 집중된 수직 시장의 경우, 음성 에이전트 회사는 대기업에서 시작하여 결국 셀프 서비스 제품으로 중소기업으로 "하향 전파"될 수 있음
  • 중소기업 고객은 이 솔루션을 절실히 원하고 다양한 옵션을 테스트할 용의가 있지만, 스타트업이 모델을 기업 수준으로 조정할 수 있는 규모/품질의 데이터를 제공하지 못할 수 있음

B2C 에이전트에 대한 우리의 견해

B2B와의 차이점

  • B2B에서 음성 에이전트는 주로 특정 작업을 완료하기 위해 기존 전화 통화를 대체함
  • 소비자 에이전트의 경우, 사용자가 계속 참여하기로 선택해야 하는데, 음성으로 상호 작용하는 것이 항상 편리한 것은 아니기 때문에 이는 어려움
  • 이는 제품 기준이 "더 높음"을 의미함

첫 번째 적용 분야

  • 소비자 음성 에이전트의 첫 번째이자 가장 명백한 적용 분야는 비싸거나 접근하기 어려운 인간 서비스를 AI로 대체하는 것임
  • 여기에는 치료, 코칭, 튜터링 등 가상으로 완료할 수 있는 대화 기반의 모든 것이 포함됨

앞으로의 가능성

  • 그러나 우리는 B2C 음성 에이전트의 진정한 마법은 아직 오지 않았다고 믿음!
  • 우리는 음성의 힘을 사용하여 이전에 존재하지 않았던 새로운 종류의 "대화"를 가능하게 하는 제품을 찾고 있음
  • 이는 기존 서비스의 형태를 재발명하거나 완전히 새로운 서비스를 만들어낼 수 있음

인간적 연결의 모방

  • UX를 제대로 구현한 제품의 경우, 음성 에이전트는 소프트웨어에서 이전에 볼 수 없었던 수준으로 소비자를 끌어들일 기회를 제공함
  • 이는 진정으로 인간적 연결을 모방하는 것임
  • 이는 에이전트를 제품으로, 또는 더 광범위한 제품의 음성 모드로 나타날 수 있음

B2C 에이전트의 진화

  • 지금까지 지배적인 소비자 AI 음성 에이전트는 ChatGPT Voice와 Inflection의 Pi 앱과 같은 대기업에서 나왔음.
  • 소비자용 음성이 더디게 등장한 데에는 몇 가지 이유가 있음:

대기업의 우위

  • 대기업은 이미 소비자 유통망과 정확성, 지연 시간 등 측면에서 최고 수준의 모델을 보유하고 있음
  • 음성은 대규모로 제공하기가 쉽지 않음. 특히 최근 GPT-4o가 출시된 것을 감안하면 더욱 그러함

새로운 행동 채택의 어려움

  • B2B 음성 에이전트는 기존 프로세스에 AI를 "플러그인"하는 반면, B2C 음성 에이전트는 사용자가 새로운 행동을 채택해야 함
  • 이는 더 느리거나 더 마법 같은 제품을 필요로 할 수 있음

기존 음성 AI에 대한 부정적 인식

  • 소비자는 Siri와 같은 제품 경험으로 인해 음성 AI에 대해 부정적인 영향을 받았기 때문에 새로운 앱을 시도하려는 영감을 받지 않을 수 있음

광범위 기반 제품의 기본 사용 사례 충족

  • 광범위 기반 제품은 일반적으로 음성 AI의 기본 사용 사례(튜터링, 동반자 등)를 제공할 수 있음
  • B2C 음성 스타트업은 ChatGPT, Pi 등이 처리하지 않을 사용 사례나 경험을 만들기 시작하는 단계임

B2C 에이전트: 기회가 보이는 곳

음성이 필요한 이유에 대한 강력한 관점

  • 우리는 음성이 제품에 어떻게 독특한 가치를 가져다주는지에 대해 의견이 있는 제품과 창업자에 대해 기대하고 있음
  • 단순히 "음성을 위한 음성"이 아님
  • 많은 경우 음성 인터페이스는 정보를 소비하고 추출하는 데 더 불편하기 때문에 텍스트 인터페이스보다 오히려 부정적임

실시간 음성이 필요한 이유에 대한 강력한 관점

  • 음성은 소비하기 어려운 반면, 실시간 음성은 더욱 어려움(비동기 음성 메시지 대비)
  • 우리는 그들의 제품이 왜 실시간 대화를 중심으로 구축되어야 하는지에 대한 관점을 가진 창업자들에 대해 기대하고 있음
  • 아마도 인간 같은 동반자 관계, 연습 환경 등을 위한 것일 수 있음

AI 이전 "제품"과의 비유사성

  • 우리는 강력한 형태의 제품이 AI 음성 에이전트가 단순히 인간 제공자를 대신하는 이전의 사람 대 사람 대화를 직접 옮긴 것이 아닐 것이라고 의심함
  • 첫째, 그 기준에 부합하기 어려움
  • 더 중요한 것은 AI를 사용하여 동일한 가치를 더 잘(더 효율적으로, 더 즐겁게) 전달할 기회가 있다는 것임

모델 품질이 승자를 결정짓지 않는 수직화

  • 주요 일반 소비자 AI 제품(ChatGPT, Pi, Claude)은 고품질 음성 모드를 가지고 있음
  • 그들은 많은 유형의 대화와 상호 작용에 의미 있게 참여할 수 있음
  • 그들은 자체 모델과 스택을 호스팅하기 때문에 단기적으로 지연 시간과 대화 흐름에서 이길 가능성이 있음

우리는 스타트업이 다음과 같은 방식으로 성공하기를 기대하고 있음:

  • 특정 유형의 대화에 맞게 조정하거나 튜닝하거나,
  • 음성 에이전트 경험에 더 많은 맥락과 가치를 제공하는 UI를 구축
    • (예: 시간 경과에 따른 진척 상황 추적, 대화/경험을 의견 있는 방식으로 조종)

모 엔터프라이즈 회사 integration 팀을 가까이서 볼 기회를 가질 수 있었는데, 본문의 내용과 유사한 프로젝트가 진행되는 것을 실시간으로 볼 수가 있었네요.

AWS connect를 통해 CS를 자동화하는 것이 초기의 목표였다가, 트래픽 분산처리도 하고, VVIP 대상 특별 서비스 기획에도 참여하고.... 점차 파이가 커지는 것을 보는것도 흥미로운 일이죠.

이렇다보니 솔직히 돈 안되는 고객들은 자동응답 봇이 최대한 대응하게 하고, 예치금 많은 고객들은 최대한 빨리 인간 에이전트들이 직접 연락하는게 서비스 기조 더군요. 어쩔 수 없는 부분이겠죠 ㅎㅎ