1P by GN⁺ 15시간전 | ★ favorite | 댓글 1개
  • 뉴럴 오디오 코덱은 오디오 데이터를 대형 언어 모델(LLM) 에 효과적으로 입력하기 위한 핵심 도구임
  • 기존의 LLM 음성 인터페이스는 주로 텍스트 기반 래퍼라서, 진정한 음성 이해 및 감정 인식에는 한계가 있음
  • 오디오 모델링은 텍스트와 달리 샘플 수가 많고 장기적인 일관성 유지가 어려움으로써, 효율적인 압축 및 토크나이즈가 필요함
  • Residual Vector Quantization(RVQ) 등 최신 뉴럴 오디오 코덱 기법을 이용해 오디오를 LLM 친화적인 불연속 토큰으로 변환하여 처리함
  • Kyutai의 Mimi 등 첨단 뉴럴 오디오 코덱 적용으로 오디오 LLM의 표현력과 품질이 한층 개선되는 추세임

뉴럴 오디오 코덱과 오디오 LLM 도입 배경

  • LLM 기반 음성 모델 대부분은 실제 오디오를 이해하기보다 텍스트로 변환–응답–합성하는 방식임
  • 진짜 음성 이해에서는 감정이나 억양, 사르카즘, 비언어적 뉘앙스의 파악이 필수적임
  • 일부 모델(Gemini, ChatGPT Advanced Voice Mode, Qwen, Moshi)은 음성 입력이 가능하나, 실질적으로는 깊이 있는 음성 이해 능력이 부족함
  • 텍스트 LLM은 데이터, 알고리듬, 연산 자원만 투입하면 빠르게 고성능화되었으나, 오디오 데이터는 처리 난이도가 훨씬 높음

텍스트와 오디오의 토크나이즈 접근 방식 차이

  • 텍스트는 byte-pair encoding 등 비교적 단순한 고정 토크나이저를 사용해도 우수한 결과를 냄
  • 초창기 LSTM이나 RNN조차 샘플–단일 문자 예측만으로도 합리적인 결과를 얻음
  • 오디오는 1초에 수만 개 샘플, 10초만 해도 수십만 개 시계열 예측이 필요함
  • WaveNet처럼 샘플 별로 오디오 생성 시, 실제로 음질은 좋으나 의미전달에는 어려움이 따름

오디오 모델링의 병목과 샘플별 예측 한계

  • 샘플별 생성은 현실적으로 생성 속도가 매우 느리고, 실제 의미 단위의 연결성도 보장하지 못함
  • 예시 실험(151M 파라미터, 1000시간 데이터)은 잡음 섞인 음성이나 일관성 부족 현상 등으로 실용성이 떨어짐
  • 오디오의 높은 샘플링 레이트(16kHz 기준, 2048컨텍스트=128ms)는 LLM의 맥락 처리 한계를 초래함
  • 실시간 오디오 처리를 위해선 효과적인 압축이 필수적임

뉴럴 오디오 코덱: 오토인코더 및 RVQ

오토인코더와 벡터 양자화(VQ-VAE) 기본 원리

  • 입력(오디오, 이미지 등)을 더 작은 잠재 공간(latent space) 으로 압축했다가 복원하는 신경망 구조임
  • 임베딩을 벡터 양자화(예: k-means) 방식으로 불연속 토큰화하여 LLM에 입력하도록 설계함
  • Straight-through estimator 기법을 이용해 비미분 특성을 우회적으로 학습시킴
  • Commitment loss를 추가해 임베딩과 클러스터 중심간 거리를 최소화하도록 유도함
  • VQ-VAE 모델 구조는 오토인코더가 양자화 친화적으로 발전된 형태임

Residual Vector Quantization(RVQ) 개념

  • 많은 양자화 레벨이 필요할 경우, 단일 클러스터 대량 관리의 한계를 해결하기 위해 잔차(Residual) 토큰 레벨을 도입함
  • 최초 임베딩을 1차 양자화하고, 잔차분을 추가로 양자화하는 방식으로 압축 효율을 극대화함
  • 필요시, 2단계 이상 다중 레벨 양자화가 가능하며, 구조 확장은 단순함 (for level in range(levels) 순환 구조)
  • RVQ는 SoundStream(2021) 등 최신 뉴럴 오디오 코덱에 핵심적으로 적용됨

오디오 토크나이즈와 LLM 적용

  • CNN 기반 오토인코더로 오디오를 다운샘플(예: 128배, 32차원 벡터) 후, 각 임베딩에 대해 독립적 RVQ 양자화 진행
  • RVQ 코드 출력(예: 8레벨 RVQ)을 그대로 순차적으로 1D 토큰 시퀀스로 펼쳐 LLM 입력으로 사용
  • flattening 방식 도입의 경우, 시간 압축의 일부 손실(예: 128x downsampling→8x 다시 팽창) 발생
  • 코드북 수준, 레벨 수, FLATTEN 순서 등은 각각의 품질과 압축률에 영향

실제 뉴럴 오디오 코덱 훈련 및 품질 개선

  • 실험 결과, RVQ 레벨이 증가할수록 복원 손실이 줄고 음질이 증진됨
  • 단, 자체 제작 간단한 코덱만으로도 여전히 약간의 노이즈, 음색 왜곡 존재
  • Kyutai의 Mimi 등 최신 신경망 오디오 코덱은 GAN 기반 손실 함수, RVQ dropout 등 혁신 적용으로 품질 극대화
    • GAN discriminator로 진짜/가짜 오디오 감별하며 학습
    • 여러 RVQ 레벨에서 임의로 레벨 일부만 사용(드롭아웃), 어느 압축 레벨에서도 품질 유지

Mimi 코덱의 실제 LLM 성능 변화

  • Mimi는 24kHz 샘플레이트, 12.5fps 등 더 공격적 다운샘플 및 효율적 압축 가능
  • 동일 Libri-Light 10k 시간 데이터를 Mimi로 토크나이즈하면, 저장 용량 약 1/2로 감소, 학습 효율 및 품질 개선
  • 모델이 곡, 시 등 의미 기반 오디오 생성에서 더 높은 텍스트 일관성 보임

의미 토큰(Semantic Token) 개념 도입

  • Mimi의 최상위 레벨은 WavLM 등 음성용 BERT로부터 추출한 의미 토큰
  • 의미 토큰은 음성의 내용을, 하위 RVQ 토큰은 음색·목소리 등 음향 정보를 담당
  • 의미 토큰 고정 후 나머지 토큰만 LLM이 재생성하면, 같은 말을 다른 목소리로 하는 결과가 가능함

의미–음향 품질 트레이드오프

  • RVQ 레벨 수를 낮출수록 의미 토큰 비중이 높아져, 의미 일치율 증대 및 LLM의 시적 문장 생성 능력 향상
  • 실제로, 'Librivox' 안내 멘트 등 학습 데이터 일부를 그대로 암기하는 수준까지 도달함
  • 의미 중시 vs. 음질 중시 손실 함수 가중치에 따라 다양한 활용 가능 (Moshi는 의미손실 100x 중시)

최신 오디오 LLM 모델 및 연구 동향

  • 수년간 진행된 발전으로 Kyutai의 Moshi, Sesame의 CSM, Alibaba Qwen3-Omni 등은 음성 네이티브 LLM 연구를 선도함
  • 대부분의 모델이 여전히 텍스트 스트림 병행 접근법에 의존, 문맥 추론 등은 주로 텍스트에서 이뤄짐
  • 텍스트·음성 토큰을 혼합·교차 사용하거나, 연속 잠재 공간 생성(디퓨전, 컨시스턴시 모델) 등 다양한 대안 연구도 활발함

결론 및 전망

  • 뉴럴 오디오 코덱은 오디오 LLM의 핵심 인프라로, 의미 및 음향 정보를 균형 있게 토크나이즈함으로써 음성 생성 품질을 크게 개선함
  • 아직 텍스트 LLM 대비 reasoning·음성 이해력 측면에서 modality gap 존재
  • Kyutai Moshi 등은 최초 엔드투엔드 Voice AI 시도 등 다양한 혁신 이행 중이며, 앞으로도 오디오 ML 발전이 기대됨

참고 논문 및 추가 읽을 거리

  • WaveNet(2016), SampleRNN(2016), MelGAN(2019), HiFi-GAN(2020) 등 오디오 생성 모델 발전사 및 주요 개념 소개
  • Neural Discrete Representation Learning, SoundStream, EnCodec, WavLM, MiMo-Audio 등 코덱·모델 응용 연구 소개
  • 연속적 오디오 생성 및 Diffusion/Consistency 모델 적용 가능성 제시

최신 오디오 기반 LLM(2025년 기준) 예시

  • Moshi (Kyutai)
  • CSM (Sesame)
  • Qwen3-Omni (Alibaba)
  • MiMo-Audio (Xiaomi)
  • LFM2-Audio (Liquid AI)
Hacker News 의견
  • 높은 음성 톤으로 "제가 낮은 목소리로 말하고 있나요, 아니면 높은 목소리로 말하고 있나요?"라고 LLM에게 물어보면, 제대로 구별하지 못하는 현상이 있음에 대해 이야기함, 이런 부분이 LLM의 한계인 건지, 아니면 안전 과적합 때문인지 궁금증을 가짐, ChatGPT Voice 모드에는 음악 생성 차단과 악센트(예를 들어, 인도식 억양을 따라하지 않음), 인종이나 편견 추정 방지 등 많은 보호장치가 들어갔다는 점을 언급함, 이런 특징들이 모델에서 아예 제거된 것일 수도 있다는 생각을 함

    • 저자임을 밝히며, 이 현상은 안전 문제보다는 오히려 모델의 능력 한계라고 생각함, 오디오 학습은 텍스트 학습보다 여전히 더 어려워서 일반화가 잘 안됨, 이를 해결하기 위해 오디오 모델은 텍스트와 오디오 정보를 결합하는 방식을 많이 씀(예: 텍스트와 오디오 토큰을 모두 입력/출력하는 단일 모델), 오디오 토큰이 결국 일종의 통합된 음성-문자 변환기가 되는 셈임, Moshi에서 일한 동료들의 경험도 이와 같고, 다른 모델도 비슷함, 합성 데이터의 영향도 있다고 봄—TTS로 생성한 데이터로 파인튜닝하면 톤 정보가 없으니 모델이 이를 무시하도록 학습한다는 점을 강조함

    • "억양 맞추기(상대방이 인도식 억양이면 LLM도 인도식 억양을 내지 않게 하는 것)"에 대해, 왜 안 되는지 실제 의문을 가짐, 비슷한 억양으로 맞춰 주면 상호 이해도가 크게 향상됨을 경험했음, 억양 전환이 가능한 사람이 못하는 사람에게 맞춰 바꿔주는 게 유리한 상황이 많았음, 본인도 인도식 영어 억양을 쓸 수 있다면, 아웃소싱 업체 고객센터와 얘기할 때 진짜 유용하게 쓸 수 있었을 거라고 말함

    • LLM이 인종에 따라 다르게 반응했다는 경험이 있는지 질문함, 그들이 훈련된 데이터가 대부분 텍스트 대화라면 이런 편견을 학습할 근거가 적은데 의외라고 말함

    • Qwen3 omni transcriber는 목소리와 감정을 아주 잘 설명해 준다는 점을 공유함

    • 단순히 보호장치 때문만은 아니라고 생각함, 실제로 음의 높낮이 자체를 이해 못하는 느낌임, ChatGPT의 고급 음성모드에 허밍을 인식해 달라고 해도 계속 베토벤 5번이라고만 답했음, 내 허밍을 "덜-덜-덜-덜~"처럼 토크나이즈했을 거라고 추측함

  • 오디오 분야에서는 long range context가 그리 중요하지 않으니, linear-space, constant-time 모델(RWKV, S4 등)이 더 잘 맞을 수 있지 않을까 궁금함, 트랜스포머가 저주파·저빈도로 병렬 실행되고, 선형 모델이 초당 한 번 summary 토큰(텍스트+감정 등 포함)을 전달해 피드백 받는 구조를 상상함, 이렇게 두 모델을 병렬로 훈련하면 summary 토큰의 의미가 사전에 정의된 게 아니라, 학습 과정에서 생성됨, 순수하게 음소(phonetic) 기반 e2e 방식이고 텍스트 번역은 없음, 의미 없는 단어나 정보량 적은 부분은 더 작은 토큰 표현으로 압축할 수 있음, 논리나 코드적인 측면에서는 텍스트 LLM을 못 따라가겠지만, 인간도 자연어 대화로 알고리즘을 자세히 설명하는 건 어려운 편이라는 점을 언급함

    • 선형 모델 자체는 잘 모르지만, 이런 계층적(hierarchical) 모델링이 음성 연구에서 흔한 아이디어임을 설명함, 예를 들어 OpenAI의 Jukebox(2020)는 3단계 오디오 코덱으로 세분화해 언어 모델이 가장 거친 레벨에서 다음을 예측하고, 이후 미세한 단계까지 복원한다고 함, 최근 MiMo-audio는 4개 타임스텝을 묶어서 한 패치로 예측함, 참고 자료로 OpenAI Jukebox 논문MiMo-Audio 기술 보고서 링크를 공유함

    • Cartesia는 오디오용 상수 시간 모델을 개발 중이라는 점을 웹사이트 링크와 함께 안내함

    • “이걸 논문으로 꼭 써줘!”라는 응원도 전함

  • 왜 일반 오디오 코덱(JPEG, MP3 등)을 사용하지 않느냐는 질문과 함께, MP3는 매 프레임이 독립적으로 수십 밀리초 오디오를 완전히 복원할 수 있고, 128kbps면 418바이트에 26ms로 원본 대비 10~11배 감소이며, 불필요한 정보는 제거된다는 점을 설명함, 변환기를 쓴다면 프레임을 토큰으로 쓸 수 있지 않을까 상상함

    • JPEG을 딥러닝 입력값으로 직접 사용하는 논문 요약을 공유함, DCT 계수로 CNN을 학습시키면 픽셀을 복원한 뒤 다시 변환하는 과정 생략이 가능함, ResNet-50에도 적용했더니 학습 속도가 최대 1.77배 빨라졌고 정확도도 향상됨, 해당 논문 링크 제시함, MP3도 좋은 아이디어일 것 같다는 의견을 밝힘

    • 저자임을 밝히며, 그렇지 않은 이유 중 가장 큰 것은 압축률 차이임을 설명함, 초창기 뉴럴 오디오 코덱 SoundStream은 3kbps에서도 괜찮은 음질을 내지만, MP3는 128kbps 수준, SoundStream이 원래 Google Meet의 오디오 압축을 위해 개발됐고, 요즘의 뉴럴 코덱은 더욱 효율적임, MP3의 현대 대체인 Opus는 12kbps도 가능하나, 여전히 뉴럴 오디오 코덱만큼 효율적이지 않음, 전통 코덱은 CPU 부담이 적은 장점이 있음

    • 400-바이트 MP3 프레임을 LLM용 임베딩으로 변환하는 adapter를 훈련시킬 수는 있지만, 뉴럴 네트워크에 입력되는 정보가 소화(digestible) 가능한 구조여야 함, 신경망은 중복성이 높은(tokenized text 등) 데이터를 좋아하고, 고압축 데이터(GZIP 등)는 싫어하는 경향 있음, 결국 손쉽게 시도해볼 수 있지만 성공 여부는 확실치 않음, 이상한 게 가끔 먹히는 일도 있긴 하다는 점을 언급함

    • TFA 접근법은 32차원 공간에 인코딩함, 이는 심리음향 기반 압축 방식을 훨씬 능가하는 수준임, 또 인식이 거의 불가능한 정보까지 제거하는 것은 음성 합성 등 신규 생성 목적이라면 큰 의미 없다고 봄

    • 인간은 주파수 성분에 기반해 소리를 인식함, 내이에는 다양한 공진주파수를 가진 필터뱅크(털의 길이별 진동수)가 있음, 음성 지각은 포먼트(formants)에 기반해 음성 생성 때 무슨 조음 동작이 일어났는지 판단함, MP3 프레임을 토큰화한다면 주파수 정보를 양자화·허프만 인코딩·프레임 구조 등의 이유로 black box가 됨, 이 구조로도 텍스트 예측은 가능하겠지만, 입력이 중요 정보를 숨길수록 어렵다고 봄, 포먼트 정보에 직접 접근하지 못하면 일반화도 힘들고, LLM이 특정 스피커만 훈련받으면 어린이나 합성음성까지 잘 인식할지 의문임

  • 시각적으로 가장 보기 좋은 설명이었다고 칭찬하며, 본인 역시 VQ-VAE로 렌더드 텍스트 토크나이징에 도전해본 경험을 공유함, 10pt 폰트와 PDF 소스를 가지고 완성형 텍스트 이미지를 생성하는 diffusion 모델을, 도큐먼트 타입·언어까지 포함하는 잠복표현(latent representation) 학습을 시도함, 많은 것을 배웠고 이 글이 아름답게 설명되어 감탄함

  • “왜 음성 그 자체를 토크나이즈해서 LLM을 만들지 않고, 항상 텍스트 전사본에 의존하는가?”라는 고민을 공유함, 이용가능한 음성 데이터가 엄청나게 많다고 강조함

    • 게시글이 바로 그 고민(음성연속신호를 이산 토큰으로 변환하는 방식)에 대한 이야기라고 안내함, 오디오 윈도우 한 칸이 10~100ms로, 이 정보를 토큰 한 개에 담기 어려움, residual vector quantization은 한 타임슬라이스(윈도우)를 여러번(여러 딕셔너리)를 거쳐 정제(quantize)하는 방식임, 포스트 후반부에는 Mimi 오디오 코덱에서 LLM을 훈련한 샘플도 볼 수 있다고 설명함

    • 텍스트 데이터가 정제되고 표준화된 게 워낙 많지만, 음성은 언어·방언·억양·표정·몸짓 정보까지 고려해야 해 복잡함, 음성을 텍스트로 바꾸면 이 잡다한 정보는 버리고 언어적 의미만 남은(clean한) 토큰 집합으로 만들 수 있어, 효율적이고 다국적 매핑에도 강점이 있다고 봄

    • 오디오 토큰 기반 훈련이 비용이 더 크지만, 언젠가는 이 방식이 대세가 될 거라고 전망함, 유튜브 강의의 텍스트 전사로 훈련하는 것과 실제 음원으로 훈련하는 것은 효율이나 결과에서 큰 차이가 확실히 있으리라고 예상함

    • 오디오 토크나이징이 텍스트보다 최소 4배 토큰량이 많다고 함, 효율 문제부터 시작임, 그리고 순수 오디오만 가지고 LLM을 학습하기에는 데이터가 충분한가라는 문제도 남음

    • 오디오용 트랜스포머 혁신기가 아직 안 왔다고 생각하지만, 오디오 퍼스트 모델이 이론적으로 훨씬 뛰어날 것임을 예상함

  • Kyutai라는 기업이나 프로젝트를 몰랐는데, 내가 진행 중인 프로젝트에 정말 딱 들어맞을 것 같아 고마워함

  • 정말 매력적인 작업이라고 감탄함, 오히려 오디오 그 자체는 텍스트보다 다루기 훨씬 어렵지만, LLM을 음성에 바로 맞추는 데 핵심이 결국 가장 효율적인 음성 코덱을 찾는 것이라는 점이 매우 흥미로움, 언젠가 LLM과 궁합이 잘 맞는 대표 보이스 코덱이 푸리에 변환이 아닌 실제 성대·혀·목·입 등의 물리적 파라미터 관련 표현 기반으로 나오지 않을까 상상함, 인간 해부학이 크게 변하지 않는 점에 착안해, 이런 모델이 통계적·표준적 방식으로 자리잡는 날도 언젠가 올지도 모른다고 내다봄, 이런 접근은 formant speech encoding(포먼트 음성 부호화)라고 하며, 본래 음성 합성 분야에서 연구했음

    • 저자임을 밝히며 격려해줘서 고맙다는 인사를 먼저 전함, 물리 기반(성대/혀 등 파라미터) 코덱은 현대 ML 방향성에는 맞지 않다고 봄, 요즘 ML의 핵심은 도메인 전문가의 사전 지식을 최소한으로 넣어서, 가능한 한 많은 정보를 모델(트랜스포머)에 맡기는 쪽임, 본인의 제약이 많아질수록 표현 가능한 소리의 폭이 줄어 품질 한계에 도달함, 반면 모델 제약을 주면 정말 효율적이고 흥미로운 연구도 나오긴 함, 예: DDSP 논문은 신시사이저를 ML로 제어해서 악기 소리를 합성함, 이런 방식으로 Speech도 할 수 있을 것, 물론 음질은 떨어지지만 파라미터가 훨씬 적음, KokoroTTS처럼 직접 자음+모음에서 음성을 합성하는 Tiny TTS도 이런 방식이고, 이 때문에 작동 파라미터가 매우 적음, DDSP 논문 링크, KokoroTTS 프로젝트 링크

    • 이런 물리 베이스 음성을 만드는 시도가 예전부터 많았고, 입구조/공기 흐름까지 재현해서 진짜로 말하게 하려 했던 실험들이 있지만, 이 방식은 글쓰기를 말하기에서 파생된 것으로 잘못 이해하는 실수를 범한다는 점을 강조함

    • 음성 부호화, 합성 쪽에서는 source-filter 모델(음성 생성과 성도→필터 파라메터화)이 원조 방식임을 설명함, 이 방식은 FFT 재발견보다도 오래된 오래된 발상임

  • 100k 시간으로 훈련한 게 충분한가 궁금함, LLM 기준에선 그리 많지 않기에, "Bitter Lesson"(데이터/컴퓨팅이 제일 중요하다는 AI 교훈)을 떠올리게 한다고 언급함

    • 1M 스텝(batch size 64, block size 2048)으로 훈련했고, 이걸로 수렴한다고 봄, 파라미터는 150M이라 LLM 기준으론 작은 편임, 최첨단 성능을 목표로 하기보다는 토크나이저만 바꿔도 모델 성능이 얼마나 달라지는지 보여주고자 했음
  • 이 글 정말 잘 정리됐고 유익해서 팀원들과 공유하고 싶다고 전함, 최근 자사 AI 제품에 오디오·보이스를 도입하기 시작해서 매우 실질적인 참고 자료가 됨