GN⁺: MLow: 메타의 저비트레이트 오디오 코덱
(engineering.fb.com)- Meta는 WhatsApp, Instagram, Messenger 등 앱을 통해 수십억 명의 사람들에게 실시간 통신(RTC)을 지원함.
- 빠른 연결이나 최신 휴대폰이 없는 사용자도 고품질 경험을 제공하기 위해 노력 중임.
- Meta는 저속 연결에서도 오디오 품질을 개선하는 Meta Low Bitrate (MLow) 코덱을 개발함.
새로운 코덱 개발 동기
- Meta 제품의 대규모 RTC 사용으로 다양한 네트워크 시나리오에서 코덱 성능을 관찰할 수 있었음.
- 많은 통화가 네트워크 연결이 좋지 않은 상황에서 이루어짐.
- Opus 코덱은 낮은 비트레이트에서 충분한 오디오 품질을 제공하지 못함.
- 새로운 ML 기반 오디오 코덱은 낮은 비트레이트에서 좋은 품질을 제공하지만, 높은 계산 비용이 문제임.
- 많은 사용자가 저가형 기기를 사용하고 있어, 낮은 계산 요구사항을 가진 고품질 오디오 코덱이 필요함.
MLow 코덱
- MLow 코덱은 Opus보다 두 배 더 좋은 품질을 제공하며, 계산 복잡도는 10% 낮음.
- MLow는 Instagram과 Messenger에 이미 완전히 도입되었고, WhatsApp에도 적극적으로 도입 중임.
- 낮은 비트레이트에서도 높은 품질의 오디오를 인코딩할 수 있어, 패킷 손실 시나리오에서 오디오 품질을 크게 향상시킴.
MLow 내부 구조
- MLow는 CELP (Code Excited Linear Prediction) 코덱의 개념을 기반으로 발전된 기술을 사용함.
- 입력 신호를 저주파 및 고주파 대역으로 나누어 각각 인코딩함.
- 고주파 대역을 적은 비트로 인코딩하여 낮은 비트레이트로 SuperWideBand (32kHz 샘플링)를 제공함.
앞으로의 계획
- MLow는 저가형 기기에서도 오디오 품질을 크게 향상시킴.
- 패킷 손실이 많은 네트워크에서 오디오 복구를 개선하기 위해 더 많은 중복 오디오를 효율적으로 제공할 계획임.
GN⁺의 의견
- MLow의 장점: 저속 연결에서도 높은 오디오 품질을 제공하여 사용자 경험을 크게 향상시킴.
- 기술적 도전: 낮은 계산 복잡도로 높은 품질을 유지하는 것은 기술적으로 매우 어려운 과제임.
- 경쟁 제품: Opus 외에도 다양한 오디오 코덱이 존재하지만, MLow는 저가형 기기에서도 뛰어난 성능을 제공함.
- 도입 시 고려사항: 새로운 코덱 도입 시 기존 시스템과의 호환성 및 성능 테스트가 중요함.
- 사용자 영향: 저가형 기기를 사용하는 많은 사용자에게 큰 혜택을 줄 수 있음.
Hacker News 의견
-
새로운 저비트레이트 코덱들: 실시간 통신에서 지연을 줄이기 위해 패킷 속도가 높아야 하며, 이로 인해 실제 페이로드보다 오버헤드가 더 커질 수 있음. 하지만 회로 전환 통신이나 헤더 압축을 사용하는 VoIP 시스템에서는 유용할 수 있음.
-
Meta의 연구 공유: Meta가 많은 연구와 오픈 소스 작업을 공유하면서 다시 인기를 얻고 있는 것 같음. Facebook의 평판이 나빴지만, 이를 만회한 듯함.
-
Codec2와의 비교 부재: Codec2와의 비교가 없어서 이 작업의 실제 가치와 동기를 의심하게 됨. 새로운 IP에 얽매인 오디오 코덱은 필요하지 않음.
-
Google Meet과의 비교: Google Meet이 느린 인터넷에서도 오디오 통화를 잘 수행하는데, 이 코덱이 Google Meet보다 나은지 궁금함. Google Meet의 기술은 공개되지 않았음.
-
전화 통화 품질: 왜 요즘 전화 통화가 90년대의 8kHz 8비트 μ-law ADPCM보다 덜 명확한지 궁금함.
-
Pied Piper와의 비교 부재: Pied Piper와의 비교가 없음.
-
출시 여부: 이 코덱이 출시되는 것인지 아니면 단순한 기술 자랑인지 궁금함. Meta AI Research는 혁신적이지만, 이 코덱에 대한 다른 참조를 찾을 수 없음.
-
라이선스: 라이선스에 대한 정보가 없음.
-
NoLACE 언급 부재: NoLACE가 언급되지 않아 비교 샘플이 덜 유용함.
-
Opus와의 비교: Opus가 6 kbps에서 더 부드러운 소리를 내는 반면, MLow 샘플은 거칠고 인위적인 아티팩트를 가짐. 높은 비트레이트에서는 선택이 더 명확할 것임.