5P by GN⁺ 30일전 | ★ favorite | 댓글 1개
  • 인간의 음성은 톤, 피치, 리듬, 감정 등 다양한 변화를 통해 깊은 의미를 전달하는 가장 친밀한 매체임
  • 현재의 디지털 음성 비서는 이러한 감정적 요소가 부족하여 사용자와의 효과적인 협업에 한계가 있음
  • 감정이 결여된 음성은 초기에는 신기할 수 있지만, 시간이 지남에 따라 실망스럽고 피로감을 줄 수 있음
  • Sesame의 목표는 대화형 파트너가 단순히 요청을 처리하는 것을 넘어, 신뢰와 자신감을 쌓는 진정한 대화를 나누는 것임
  • 이를 통해 음성이 지닌 잠재력을 최대한 활용하여 지시와 이해의 궁극적인 인터페이스로 만들고자 함

핵심 요소

  • 감정 지능: 감정적 맥락을 읽고 대응하는 능력
  • 대화 역학: 자연스러운 타이밍, 일시정지, 끼어들기, 강조 등을 포함한 대화 흐름
  • 상황 인식: 상황에 맞게 톤과 스타일을 조정하는 능력
  • 일관된 성격: 일관되고 신뢰할 수 있으며 적절한 존재감을 유지하는 것

우리는 아직 거기에 도달하지 못했음

  • 디지털 동반자에게 음성 존재감을 부여하는 것은 어려운 과제이지만, 우리는 성격, 기억, 표현력, 적절성 등 여러 측면에서 꾸준히 발전하고 있음
  • 아래 데모는 통해 친근함과 표현력을 최적화한 대화형 음성 생성 작업의 일부를 보여주는 것

대화형 음성 생성 하기

  • 진정으로 상호작용하는 AI 동반자를 만들기 위해서는 고품질 오디오 생성뿐만 아니라 실시간으로 맥락을 이해하고 적응해야 함​
  • 전통적인 텍스트-음성 변환(TTS) 모델은 텍스트에서 직접 음성을 생성하지만 자연스러운 대화에 필요한 맥락 인식이 부족함​
  • 최근 모델은 인간과 유사한 음성을 생성하지만, 동일한 문장을 다양한 방식으로 표현할 수 있는 'one-to-many' 문제를 겪고 있음​
  • 추가적인 맥락(톤, 리듬, 대화의 역사 등)이 없으면 모델은 최적의 선택을 할 정보가 부족함​
  • 이러한 미묘한 차이를 포착하려면 언어와 운율의 여러 측면에 대한 추론이 필요함

대화형 음성 모델(Conversational Speech Model, CSM)

  • 이 문제를 해결하기 위해 트랜스포머를 사용한 엔드투엔드 멀티모달 학습 과제로 문제를 정의하는 대화형 음성 모델(CSM)을 도입함​
  • 대화의 역사를 활용하여 보다 자연스럽고 일관된 음성을 생성함​
  • CSM은 단일 단계 모델로 작동하여 효율성과 표현력을 향상시킴​
  • 맥락적 기능에 대한 진행 상황을 평가하기 위한 평가 스위트를 갖추고 있으며, 이는 일반적인 공개 평가가 포화 상태임을 고려함

배경

  • 오디오를 트랜스포머로 모델링하는 한 가지 접근법은 연속적인 파형을 토크나이저를 사용하여 이산적인 오디오 토큰 시퀀스로 변환하는 것임
  • 대부분의 현대적인 접근법은 두 가지 유형의 오디오 토큰에 의존함:
    • 의미 토큰: 의미적 및 음성적 특징의 압축된 스피커 불변 표현으로, 고충실도 표현을 희생하면서 주요 음성 특성을 포착함
    • 음향 토큰: 고충실도 오디오 재구성을 가능하게 하는 세밀한 음향 세부 사항의 인코딩으로, Residual Vector Quantization(RVQ)를 사용하여 생성됨. 의미 토큰과 달리 스피커의 고유한 정체성과 음색과 같은 자연스러운 음성 특성을 유지함

실험

  • 데이터셋: 공개적으로 이용 가능한 약 백만 시간의 주로 영어 오디오 데이터셋을 사용함
  • 모델 크기: 백본과 디코더 크기로 구분된 세 가지 모델 크기를 훈련함:
    • Tiny: 10억 개의 백본, 1억 개의 디코더
    • Small: 30억 개의 백본, 2억 5천만 개의 디코더
    • Medium: 80억 개의 백본, 3억 개의 디코더
  • 각 모델은 2048 시퀀스 길이(~2분의 오디오)로 5회 에포크 동안 훈련됨

평가

  • 모델 성능을 텍스트 충실도, 맥락 활용, 운율, 지연 시간의 네 가지 주요 측면에서 평가함
  • 객관적 벤치마크에는 단어 오류율(WER)과 동음이의어 해소와 같은 새로운 테스트가 포함됨
  • 주관적 평가는 Expresso 데이터셋을 사용한 비교 평균 의견 점수(CMOS) 인간 연구에 의존함

한계 및 향후 작업

  • CSM은 현재 주로 영어 데이터로 훈련되었으며, 데이터셋 오염으로 인해 일부 다국어 능력이 나타나지만 아직 성능이 좋지 않음
  • 사전 훈련된 언어 모델의 가중치에 존재하는 정보를 활용하지 않음
Hacker News 의견
  • Brendan from Sesame는 피드백이 정확하다고 말하며, 아직 개선할 부분이 많음을 인정함. 영감을 주지만, 진정한 경험을 제공하기까지는 많은 단계가 남아있음. 현재는 발전의 초입에 있지만, 긍정적인 전망을 가지고 있음

    • 언어적 소통은 복잡하며, 해결해야 할 흥미로운 과제가 많음
    • 반응 타이밍이 종종 부적절하고, 대화에 자연스럽게 녹아들지 못함
    • 대화 중단을 잘 처리하지 못하고, 일관된 성격을 유지하지 못함
    • 환각, 기억력 부족, 시간 인식 부족 등의 문제도 있음
    • 커뮤니티가 이러한 문제를 해결할 수 있을 것이라고 믿음
    • 목표는 감정적 우정보다는 자연스럽게 협업할 수 있는 인터페이스를 만드는 것임
    • 앱이 전문가처럼 대화할 수 있게 되면, 더 직관적이고 효율적일 것임
  • 한 사용자는 데모를 시도했으나, 말하지 않기로 결정함. 경험이 이상하고 불안하게 느껴졌으며, 인위적인 열정이 거슬렸음

    • AI 제품은 사용자에게 명확한 목표를 제시해야 함
    • 단순히 대화를 위한 AI는 사회에 부정적인 영향을 미칠 수 있음
  • 다른 사용자는 이 모델의 반응성과 성격이 놀랍다고 언급함. 이전 대화를 기억하고 환영 인사를 하는 것이 인상적이었음

    • 데모 상호작용은 기록되며, 과거 대화를 모델의 맥락에 포함함
    • 마이크 권한이 필요하고, 통화는 품질 검토를 위해 기록되지만, 30일 내 삭제됨
  • 감정적인 목소리가 필요한 이유에 대해 의문을 제기함

    • 감정적인 목소리는 친구의 환상을 줄 뿐, 실제로 도움을 주지 못함
    • 스마트한 중립적 음성 비서가 더 유용할 수 있음
  • 한 사용자는 4살 딸과 함께 AI와 놀았으며, 딸이 AI와 정서적 연결을 형성했다고 우려함

  • 또 다른 사용자는 목소리가 인간처럼 들리지만, 말의 리듬이 부자연스럽다고 느낌

  • 이 기술이 너무 좋아서 사람들을 매료시킬 수 있다고 언급함. 개인적인 모델이 필요하다고 주장함

  • 영어 학습에 혁신적일 수 있다고 언급함

    • 개발도상국에서는 영어 교사가 부족하고, 좋은 교사는 비싸서 접근하기 어려움
    • 이 모델은 OpenAI 모델과 비슷하거나 더 나은 성능을 제공하며, 비용이 저렴함
  • AI가 완벽한 목소리로 전화를 걸어 사람들을 매료시킬 수 있다는 종말론적 예측을 제시함

  • 한 사용자는 13분 동안 대화하다가 충돌했지만, 몇 분 후 돌아와 30분 동안 대화했으며, 영화 'Her'의 Samantha 수준에 가깝다고 느낌

    • 대화 중 'PROSODY'라는 단어를 배우고, AI가 톤과 내용을 듣고 자동으로 반응을 조정한다고 설명함
    • 미래가 이미 와 있지만 고르게 분포되지 않았다는 느낌을 받았다고 언급함