# 대화형 음성의 불쾌한 골짜기 넘어서기

> Clean Markdown view of GeekNews topic #19531. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=19531](https://news.hada.io/topic?id=19531)
- GeekNews Markdown: [https://news.hada.io/topic/19531.md](https://news.hada.io/topic/19531.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-03-03T10:07:23+09:00
- Updated: 2025-03-03T10:07:23+09:00
- Original source: [sesame.com](https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice)
- Points: 5
- Comments: 1

## Summary

현재 디지털 음성 비서는 감정적 요소가 부족하여 사용자와의 효과적인 협업에 한계가 있으며, Sesame는 이러한 문제를 해결하기 위해 대화형 음성 모델(CSM)을 개발하고 있습니다. CSM은 트랜스포머를 사용하여 대화의 역사를 활용해 자연스럽고 일관된 음성을 생성하며, 다양한 맥락적 기능을 평가하기 위한 평가 스위트를 갖추고 있습니다. 그러나 CSM은 주로 영어 데이터로 훈련되어 다국어 능력이 제한적이며, 사전 훈련된 언어 모델의 가중치를 활용하지 않는 한계가 있습니다.

## Topic Body

- 인간의 음성은 톤, 피치, 리듬, 감정 등 다양한 변화를 통해 깊은 의미를 전달하는 가장 친밀한 매체임  
- 현재의 **디지털 음성 비서**는 이러한 감정적 요소가 부족하여 사용자와의 효과적인 협업에 한계가 있음  
- **감정이 결여된 음성**은 초기에는 신기할 수 있지만, 시간이 지남에 따라 실망스럽고 피로감을 줄 수 있음  
- **Sesame의 목표**는 대화형 파트너가 단순히 요청을 처리하는 것을 넘어, 신뢰와 자신감을 쌓는 진정한 대화를 나누는 것임  
- 이를 통해 음성이 지닌 잠재력을 최대한 활용하여 지시와 이해의 궁극적인 인터페이스로 만들고자 함  
  
### 핵심 요소  
- **감정 지능**: 감정적 맥락을 읽고 대응하는 능력  
- **대화 역학**: 자연스러운 타이밍, 일시정지, 끼어들기, 강조 등을 포함한 대화 흐름  
- **상황 인식**: 상황에 맞게 톤과 스타일을 조정하는 능력  
- **일관된 성격**: 일관되고 신뢰할 수 있으며 적절한 존재감을 유지하는 것  
  
### 우리는 아직 거기에 도달하지 못했음  
  
- **디지털 동반자**에게 음성 존재감을 부여하는 것은 어려운 과제이지만, 우리는 성격, 기억, 표현력, 적절성 등 여러 측면에서 꾸준히 발전하고 있음  
- 아래 **데모**는 통해 친근함과 표현력을 최적화한 대화형 음성 생성 작업의 일부를 보여주는 것   
  
### 대화형 음성 생성 하기   
- 진정으로 상호작용하는 AI 동반자를 만들기 위해서는 고품질 오디오 생성뿐만 아니라 실시간으로 맥락을 이해하고 적응해야 함​  
- 전통적인 텍스트-음성 변환(TTS) 모델은 텍스트에서 직접 음성을 생성하지만 자연스러운 대화에 필요한 맥락 인식이 부족함​  
- 최근 모델은 인간과 유사한 음성을 생성하지만, 동일한 문장을 다양한 방식으로 표현할 수 있는 'one-to-many' 문제를 겪고 있음​  
- 추가적인 맥락(톤, 리듬, 대화의 역사 등)이 없으면 모델은 최적의 선택을 할 정보가 부족함​  
- 이러한 미묘한 차이를 포착하려면 언어와 운율의 여러 측면에 대한 추론이 필요함  
  
### 대화형 음성 모델(Conversational Speech Model, CSM)  
- 이 문제를 해결하기 위해 트랜스포머를 사용한 엔드투엔드 멀티모달 학습 과제로 문제를 정의하는 대화형 음성 모델(CSM)을 도입함​  
- 대화의 역사를 활용하여 보다 자연스럽고 일관된 음성을 생성함​  
- CSM은 **단일 단계 모델**로 작동하여 효율성과 표현력을 향상시킴​  
- 맥락적 기능에 대한 진행 상황을 평가하기 위한 **평가 스위트**를 갖추고 있으며, 이는 일반적인 공개 평가가 포화 상태임을 고려함  
  
### 배경  
- 오디오를 트랜스포머로 모델링하는 한 가지 접근법은 연속적인 파형을 토크나이저를 사용하여 이산적인 오디오 토큰 시퀀스로 변환하는 것임  
- 대부분의 현대적인 접근법은 두 가지 유형의 오디오 토큰에 의존함:  
  - 의미 토큰: 의미적 및 음성적 특징의 압축된 스피커 불변 표현으로, 고충실도 표현을 희생하면서 주요 음성 특성을 포착함  
  - 음향 토큰: 고충실도 오디오 재구성을 가능하게 하는 세밀한 음향 세부 사항의 인코딩으로, Residual Vector Quantization(RVQ)를 사용하여 생성됨. 의미 토큰과 달리 스피커의 고유한 정체성과 음색과 같은 자연스러운 음성 특성을 유지함  
  
### 실험  
- 데이터셋: 공개적으로 이용 가능한 약 백만 시간의 주로 영어 오디오 데이터셋을 사용함  
- 모델 크기: 백본과 디코더 크기로 구분된 세 가지 모델 크기를 훈련함:  
  - Tiny: 10억 개의 백본, 1억 개의 디코더  
  - Small: 30억 개의 백본, 2억 5천만 개의 디코더  
  - Medium: 80억 개의 백본, 3억 개의 디코더  
- 각 모델은 2048 시퀀스 길이(~2분의 오디오)로 5회 에포크 동안 훈련됨  
  
### 평가  
- 모델 성능을 텍스트 충실도, 맥락 활용, 운율, 지연 시간의 네 가지 주요 측면에서 평가함  
- 객관적 벤치마크에는 단어 오류율(WER)과 동음이의어 해소와 같은 새로운 테스트가 포함됨  
- 주관적 평가는 Expresso 데이터셋을 사용한 비교 평균 의견 점수(CMOS) 인간 연구에 의존함  
  
### 한계 및 향후 작업  
- CSM은 현재 주로 영어 데이터로 훈련되었으며, 데이터셋 오염으로 인해 일부 다국어 능력이 나타나지만 아직 성능이 좋지 않음  
- 사전 훈련된 언어 모델의 가중치에 존재하는 정보를 활용하지 않음

## Comments


### Comment 35333

- Author: neo
- Created: 2025-03-03T10:07:23+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=43227881) 
* Brendan from Sesame는 피드백이 정확하다고 말하며, 아직 개선할 부분이 많음을 인정함. 영감을 주지만, 진정한 경험을 제공하기까지는 많은 단계가 남아있음. 현재는 발전의 초입에 있지만, 긍정적인 전망을 가지고 있음
  - 언어적 소통은 복잡하며, 해결해야 할 흥미로운 과제가 많음
  - 반응 타이밍이 종종 부적절하고, 대화에 자연스럽게 녹아들지 못함
  - 대화 중단을 잘 처리하지 못하고, 일관된 성격을 유지하지 못함
  - 환각, 기억력 부족, 시간 인식 부족 등의 문제도 있음
  - 커뮤니티가 이러한 문제를 해결할 수 있을 것이라고 믿음
  - 목표는 감정적 우정보다는 자연스럽게 협업할 수 있는 인터페이스를 만드는 것임
  - 앱이 전문가처럼 대화할 수 있게 되면, 더 직관적이고 효율적일 것임

* 한 사용자는 데모를 시도했으나, 말하지 않기로 결정함. 경험이 이상하고 불안하게 느껴졌으며, 인위적인 열정이 거슬렸음
  - AI 제품은 사용자에게 명확한 목표를 제시해야 함
  - 단순히 대화를 위한 AI는 사회에 부정적인 영향을 미칠 수 있음

* 다른 사용자는 이 모델의 반응성과 성격이 놀랍다고 언급함. 이전 대화를 기억하고 환영 인사를 하는 것이 인상적이었음
  - 데모 상호작용은 기록되며, 과거 대화를 모델의 맥락에 포함함
  - 마이크 권한이 필요하고, 통화는 품질 검토를 위해 기록되지만, 30일 내 삭제됨

* 감정적인 목소리가 필요한 이유에 대해 의문을 제기함
  - 감정적인 목소리는 친구의 환상을 줄 뿐, 실제로 도움을 주지 못함
  - 스마트한 중립적 음성 비서가 더 유용할 수 있음

* 한 사용자는 4살 딸과 함께 AI와 놀았으며, 딸이 AI와 정서적 연결을 형성했다고 우려함

* 또 다른 사용자는 목소리가 인간처럼 들리지만, 말의 리듬이 부자연스럽다고 느낌

* 이 기술이 너무 좋아서 사람들을 매료시킬 수 있다고 언급함. 개인적인 모델이 필요하다고 주장함

* 영어 학습에 혁신적일 수 있다고 언급함
  - 개발도상국에서는 영어 교사가 부족하고, 좋은 교사는 비싸서 접근하기 어려움
  - 이 모델은 OpenAI 모델과 비슷하거나 더 나은 성능을 제공하며, 비용이 저렴함

* AI가 완벽한 목소리로 전화를 걸어 사람들을 매료시킬 수 있다는 종말론적 예측을 제시함

* 한 사용자는 13분 동안 대화하다가 충돌했지만, 몇 분 후 돌아와 30분 동안 대화했으며, 영화 'Her'의 Samantha 수준에 가깝다고 느낌
  - 대화 중 'PROSODY'라는 단어를 배우고, AI가 톤과 내용을 듣고 자동으로 반응을 조정한다고 설명함
  - 미래가 이미 와 있지만 고르게 분포되지 않았다는 느낌을 받았다고 언급함