1P by neo 6달전 | favorite | 댓글과 토론

Opus 1.5의 주요 업그레이드

  • Opus 1.5 버전이 발표되며, 기계 학습 기반의 품질 개선을 포함한 다양한 업그레이드가 이루어짐.
  • 이전 버전과 완벽하게 호환되면서 오디오 경험을 향상시키는 새로운 기능들이 도입됨.
  • 기계 학습을 통해 신호 처리 및 생성에 처음으로 깊은 학습 기술을 사용함.

패킷 손실 처리

  • 패킷 손실은 통화 중 가장 큰 불편 중 하나로, 패킷이 전달되지 않으면 코덱의 품질이 좋아도 소용이 없음.
  • 패킷 손실 은폐(PLC)는 누락된 패킷을 대신하여 오디오를 채우는 역할을 하며, 기계 학습이 크게 도움이 됨.
  • 딥 뉴럴 네트워크(DNN)를 사용하여 PLC를 수행하며, 이는 논문과 기술적인 세부 사항에서 확인할 수 있음.

심층적인 중복성(DRED)

  • 패킷이 연속적으로 손실될 때, PLC만으로는 한계가 있으며, 중복성을 통해 이를 해결함.
  • Opus는 낮은 비트율의 중복성(LBRR) 메커니즘을 포함하고 있으나, ML을 사용하여 효율적으로 음성을 압축하는 DRED를 도입함.
  • DRED는 약 12-32 kb/s의 오버헤드로 1초 분량의 중복성을 전송할 수 있음.

신경 보코더

  • DRED와 PLC의 낮은 복잡성은 새로운 신경 보코더 기술을 통해 가능해짐.
  • FARGAN 보코더는 LPCNet의 1/5 복잡성으로 노트북이나 최신 휴대폰에서도 1% 미만의 CPU 코어를 사용함.

저비트율 음성 품질 향상

  • 충분한 비트가 주어지지 않을 때, 코딩 아티팩트가 들릴 수 있으며, LACE와 NoLACE라는 두 가지 향상 방법이 도입됨.
  • LACE는 전통적인 포스트필터와 유사하지만, 디코더가 사용할 수 있는 모든 데이터를 기반으로 DNN이 포스트필터 계수를 최적화함.
  • NoLACE는 더 많은 계산을 필요로 하지만, 추가적인 비선형 신호 처리로 인해 더 강력함.

WebRTC 통합

  • DRED는 지터 버퍼와의 긴밀한 통합을 요구하며, 지터 버퍼의 크기는 패킷 도착 지연을 허용하는 최대량을 결정함.
  • DRED 데이터는 늦게 도착하는 오디오 패킷과 유사하게 처리되며, 네트워크 상황이 개선되면 버퍼 크기가 줄어들 수 있음.

IETF 및 표준화

  • 이 작업은 IETF mlcodec 작업 그룹 내에서 진행되며, Opus의 일반적인 확장 메커니즘, 심층적인 중복성, 음성 코딩 향상에 중점을 둠.
  • DRED 메커니즘은 Opus 패킷에 추가 정보를 포함하면서도 이전 버전의 디코더가 여전히 정규 Opus 데이터를 디코딩할 수 있도록 함.

기타 개선 사항

  • Opus는 AVX2 지원과 실시간 탐지를 추가하여 새로운 DNN 코드와 SILK 인코더가 더 빨라짐.
  • ARMv7 Neon 최적화가 AArch64에서 다시 활성화되어 인코딩이 더 효율적이 됨.
  • 패킷 손실을 더 현실적으로 시뮬레이션하기 위해, 패킷 손실 모델을 생성하여 실제와 유사한 손실을 시뮬레이션할 수 있음.

GN⁺의 의견

  • Opus 1.5는 기존의 오디오 코덱 기술을 기계 학습으로 향상시키는 혁신적인 접근 방식을 제시함. 이는 통신 기술의 진보에 중요한 발전이 될 수 있음.
  • 패킷 손실 문제는 실시간 통신에서 중요한 문제이며, Opus 1.5의 기술은 이를 해결하기 위한 효과적인 방법을 제공함. 특히, DRED와 같은 기능은 네트워크 불안정성이 높은 환경에서 유용할 수 있음.
  • 신경 보코더와 같은 기술은 음성 품질을 향상시키는 데 있어 중요한 역할을 하지만, 이러한 기술의 복잡성과 성능 요구 사항을 고려할 때, 모든 사용자가 이점을 누릴 수 있는지는 논의가 필요함.
  • Opus 1.5의 기술은 WebRTC와 같은 실시간 통신 플랫폼에 통합될 때 그 진가를 발휘할 수 있으며, 이는 원격 근무와 온라인 커뮤니케이션의 품질을 크게 향상시킬 수 있음.
  • 표준화 과정은 이러한 기술이 널리 채택되고 호환성을 유지하는 데 중요한 역할을 하며, IETF의 노력은 이 기술이 더 넓은 범위의 응용 프로그램과 서비스에서 사용될 수 있도록 하는 데 기여할 것임.