Opus 1.5 출시: 머신 러닝으로 업그레이드된 Opus

(opus-codec.org)

1P by GN⁺ 2024-03-05 | ★ favorite | 댓글과 토론

Opus 1.5의 주요 업그레이드

Opus 1.5 버전이 발표되며, 기계 학습 기반의 품질 개선을 포함한 다양한 업그레이드가 이루어짐.
이전 버전과 완벽하게 호환되면서 오디오 경험을 향상시키는 새로운 기능들이 도입됨.
기계 학습을 통해 신호 처리 및 생성에 처음으로 깊은 학습 기술을 사용함.

패킷 손실 처리

패킷 손실은 통화 중 가장 큰 불편 중 하나로, 패킷이 전달되지 않으면 코덱의 품질이 좋아도 소용이 없음.
패킷 손실 은폐(PLC)는 누락된 패킷을 대신하여 오디오를 채우는 역할을 하며, 기계 학습이 크게 도움이 됨.
딥 뉴럴 네트워크(DNN)를 사용하여 PLC를 수행하며, 이는 논문과 기술적인 세부 사항에서 확인할 수 있음.

심층적인 중복성(DRED)

패킷이 연속적으로 손실될 때, PLC만으로는 한계가 있으며, 중복성을 통해 이를 해결함.
Opus는 낮은 비트율의 중복성(LBRR) 메커니즘을 포함하고 있으나, ML을 사용하여 효율적으로 음성을 압축하는 DRED를 도입함.
DRED는 약 12-32 kb/s의 오버헤드로 1초 분량의 중복성을 전송할 수 있음.

신경 보코더

DRED와 PLC의 낮은 복잡성은 새로운 신경 보코더 기술을 통해 가능해짐.
FARGAN 보코더는 LPCNet의 1/5 복잡성으로 노트북이나 최신 휴대폰에서도 1% 미만의 CPU 코어를 사용함.

저비트율 음성 품질 향상

충분한 비트가 주어지지 않을 때, 코딩 아티팩트가 들릴 수 있으며, LACE와 NoLACE라는 두 가지 향상 방법이 도입됨.
LACE는 전통적인 포스트필터와 유사하지만, 디코더가 사용할 수 있는 모든 데이터를 기반으로 DNN이 포스트필터 계수를 최적화함.
NoLACE는 더 많은 계산을 필요로 하지만, 추가적인 비선형 신호 처리로 인해 더 강력함.

WebRTC 통합

DRED는 지터 버퍼와의 긴밀한 통합을 요구하며, 지터 버퍼의 크기는 패킷 도착 지연을 허용하는 최대량을 결정함.
DRED 데이터는 늦게 도착하는 오디오 패킷과 유사하게 처리되며, 네트워크 상황이 개선되면 버퍼 크기가 줄어들 수 있음.

IETF 및 표준화

이 작업은 IETF mlcodec 작업 그룹 내에서 진행되며, Opus의 일반적인 확장 메커니즘, 심층적인 중복성, 음성 코딩 향상에 중점을 둠.
DRED 메커니즘은 Opus 패킷에 추가 정보를 포함하면서도 이전 버전의 디코더가 여전히 정규 Opus 데이터를 디코딩할 수 있도록 함.

기타 개선 사항

Opus는 AVX2 지원과 실시간 탐지를 추가하여 새로운 DNN 코드와 SILK 인코더가 더 빨라짐.
ARMv7 Neon 최적화가 AArch64에서 다시 활성화되어 인코딩이 더 효율적이 됨.
패킷 손실을 더 현실적으로 시뮬레이션하기 위해, 패킷 손실 모델을 생성하여 실제와 유사한 손실을 시뮬레이션할 수 있음.

GN⁺의 의견

Opus 1.5는 기존의 오디오 코덱 기술을 기계 학습으로 향상시키는 혁신적인 접근 방식을 제시함. 이는 통신 기술의 진보에 중요한 발전이 될 수 있음.
패킷 손실 문제는 실시간 통신에서 중요한 문제이며, Opus 1.5의 기술은 이를 해결하기 위한 효과적인 방법을 제공함. 특히, DRED와 같은 기능은 네트워크 불안정성이 높은 환경에서 유용할 수 있음.
신경 보코더와 같은 기술은 음성 품질을 향상시키는 데 있어 중요한 역할을 하지만, 이러한 기술의 복잡성과 성능 요구 사항을 고려할 때, 모든 사용자가 이점을 누릴 수 있는지는 논의가 필요함.
Opus 1.5의 기술은 WebRTC와 같은 실시간 통신 플랫폼에 통합될 때 그 진가를 발휘할 수 있으며, 이는 원격 근무와 온라인 커뮤니케이션의 품질을 크게 향상시킬 수 있음.
표준화 과정은 이러한 기술이 널리 채택되고 호환성을 유지하는 데 중요한 역할을 하며, IETF의 노력은 이 기술이 더 넓은 범위의 응용 프로그램과 서비스에서 사용될 수 있도록 하는 데 기여할 것임.