AV2 비디오 코덱, AV1 대비 30% 낮은 비트레이트 달성, 2025년 말 최종 사양 공개 예정

(videocardz.com)

3P by GN⁺ 14시간전 | ★ favorite | 댓글 3개

AV2는 Alliance for Open Media가 개발 중인 차세대 오픈 비디오 코덱으로, 5년간의 개발 끝에 2025년 말 최종 규격 공개를 앞두고 있음
테스트 결과, AV2는 같은 화질에서 AV1 대비 약 30% 낮은 비트레이트를 달성하며, VMAF 기준 32.59% 개선을 기록
AI 기반 혁신보다는 수학적 최적화와 알고리듬 개선으로 효율을 높인 점이 특징
256×256 슈퍼블록, 완전 재귀 분할, 데이터 기반 예측 모드, TIP(Temporal Interpolation) 등을 통해 고해상도 및 빠른 움직임 처리 성능 향상
하드웨어 효율성 검증 완료, 차후 인코더 최적화 및 AI 지원 프로파일 확장이 개발 초점으로 이동 예정

AV2 개발 현황

AV2는 AV1의 하이브리드 블록 기반 구조를 유지하면서 보다 큰 256×256 슈퍼블록과 완전 재귀적 분할 방식을 도입함
- 휘도(luma)와 색차(chroma) 분할을 분리하여 더 정교한 예측이 가능해짐
- 예측 시스템은 데이터 기반 인트라 모드, 향상된 크로마-프롬-루마 모델링, 최대 7개의 참조 프레임을 사용하는 순위형 참조 시스템을 탑재함
TIP(Temporal Interpolation Prediction) 기능이 추가되어, 빠르게 움직이거나 해상도가 높은 장면에서 모션 보정 효율을 향상시킴

품질 및 압축 효율

Netflix의 Andrey Norkin은 PSNR-YUV 기준 28.63%, VMAF 기준 32.59% 비트레이트 절감을 확인했다고 발표함
- VMAF(Video Multi-Method Assessment Fusion) 는 Netflix가 개발한 영상 품질 측정 지표로, 주관적 화질 평가를 반영함
이러한 개선은 AI가 아닌 수학적 모델링과 알고리듬 혁신의 결과로, AOM 그룹은 AI 확장 가능성을 언급했지만 코덱 자체는 전통적 방식에 기반함

변환 및 양자화 시스템

통합 지수형 양자화기(exponential quantizer) 가 도입되어 8, 10, 12비트 영상을 더 넓은 범위와 정밀도로 지원함
Trellis 기반 양자화와 사용자 정의 매트릭스를 통해 낮은 비트레이트에서도 세밀한 제어 가능
학습 기반 변환(transform) 및 교차 성분 변환으로 질감을 유지하면서 압축 부작용(artifact)을 줄임
계수 부호화(coefficient coding) 는 스크린 콘텐츠 및 혼합 콘텐츠에 맞게 개선됨

필터링 및 후처리

단일화된 일반형 디블로커(deblocker) 가 세부 질감을 더 잘 보존하며,
Guided Detail Filter 및 Cross-Component Sample Offset 등 새로운 필터로 노이즈 제거 성능 향상
필름 그레인 합성(film grain synthesis) 은 더 유연하게 적용 가능
다층 비디오(multi-layer) 및 입체 영상(stereo video) 을 지원하여 차세대 멀티미디어 포맷에 대응함

향후 계획

모든 AV2 툴은 하드웨어 효율성 검증 완료
다음 단계는 인코더 최적화와 고비트 심도 및 AI 확장 프로파일 개발에 초점이 맞춰질 예정
최종 규격(specification)은 2025년 말 발표로 예정되어 있으며, 상용화는 이후 주요 플랫폼 및 스트리밍 서비스에서 순차 도입될 전망임

▲

kippler 7시간전 [-]

AV1 이름이 특이하다고 생각했는데, 다 계획이 있었네요...

답변달기

▲

carnoxen 10시간전 [-]

Av1으로 끝일 줄 알았는데 더 발전할 가능성이 있다고요?!
기술이란 참으로 예측할 수 없군요...

답변달기

▲

GN⁺ 14시간전 [-]

Hacker News 의견

스트리밍 서비스들이 언제쯤 과도한 압축을 멈출지 의문임. 최상급 4K TV와 기가비트 인터넷을 사용 중임에도 압축 아티팩트 때문에 화면이 마치 퍼티처럼 보임. 실제로 내가 본 최고의 화질은 20년 전 간단한 디지털 안테나로 시청했을 때였음. 특히 그라디언트나 영화의 어두운 장면에서 압축 흔적이 매우 도드라짐. 참고로 내 TV는 완전히 캘리브레이션 되어있고, 최고 대역폭 스트리밍 요금제를 사용 중임. 시각적으로 비슷한 예시 이미지는 여기 링크에서 볼 수 있음
- 스트리밍 서비스 입장에선 콘텐츠 전송 비용이 막대한데, 콘텐츠 제작 이후 남는 가장 큰 비용이 이 부분임. 그래서 비트레이트를 낮추기 위해 극단적인 방법을 동원함. 넷플릭스가 카메라 그레인(노이즈)을 제거하고, 클라이언트에서 인공적으로 생성된 노이즈를 추가하는 알고리즘을 도입한 이유고, 유튜브 쇼츠가 최근 극단적인 디노이즈 기술을 사용한 사례도 있음. 노이즈는 무작위 데이터라 압축하기 매우 어려워서, 최대한 없애고 싶어함. 하지만 라이브 카메라 촬영 영상에서 노이즈를 제거하면 극세밀한 디테일까지 같이 사라지는 부작용이 있음. 관련 논의는 여기 참고
- 그라디언트나 어두운 장면에서 압축 흔적이 보인다는 점은 TV 캘리브레이션이 올바르지 않을 때 나타나는 현상임. 대조(contrast)를 너무 높게 맞춘 경우가 많음. 사람들이 어두운 장면의 모든 디테일을 보려고 조정을 하는 경향이 있지만 사실 그렇게 보이면 안 되는 부분임. 제대로 조정된 디스플레이에서는 어두운 영역이 거의 보이지 않아야 함. 대부분의 코덱도 어두운 장면 디테일을 삭제하는 설계임. 물론 스트리밍 서비스가 그 기준을 너무 과하게 적용하는 것도 사실이지만, 많은 사람들이 디스플레이를 잘못 조정해서 이런 갈등이 생기는 것임
- 넷플릭스는 코로나 이전에는 1080P 콘텐츠 기준 8Mbps 정도를 사용했음. x264/beamr로는 상당히 괜찮았고 HEVC에서는 더 우수했음. 그러나 코로나 이후 모든 스트리밍 서비스가 수요 급증과 대역폭 제한을 이유로 화질을 낮췄음. 그 이후로는 고객이 저화질에 익숙해졌고, 다시 올릴 것 같지 않음. 최근 테스트 기준 3~5Mbps 수준임. HEVC/AV1/AV2 코덱이 H.264 대비 50% 이상 비트레이트 절감이 가능하지만, 0.5~4Mbps 대역을 넘어서면 절감 폭이 빠르게 줄어들고, x264 인코더가 오히려 고비트레이트에서 더 괜찮을 수도 있음
- 넷플릭스처럼 극단적으로 낮은 평균 비트레이트만 쓰는 건 아니고, 서비스마다 다름. 데이터 예시로 보면 넷플릭스의 Kate는 11.15 Mbps, 디즈니의 Andor는 15.03 Mbps, Amazon Jack Ryan은 15.02 Mbps, Max의 The Last of Us는 19.96 Mbps, Apple For All Mankind는 25.12 Mbps임. 더 자세한 수치와 비교는 이 링크에서 확인 가능
- 너한테 해적판이 오히려 더 맞을 수도 있겠음
사람들이 아직도 비디오 용량을 더 줄이는 아이디어를 찾아내는 건 꽤 놀라운 일임. 단순히 똑똑한 사람들의 아이디어일까 아니면 디코딩/인코딩 과정에서 더 강력한 프로세싱 파워 덕분일까 궁금함
- 둘 다 맞음. 포맷이 발전하면서 더 창의적인 방법을 적용하거나 더 많은 연산자원을 투입할 수 있게 됨. 예를 들어, 프레임 변화는 "슈퍼블록"(<a href="https://en.wikipedia.org/wiki/Macroblock">매크로블록</a>과 유사함) 단위로 인코딩함. 이러한 블록들은 프레임 내 다른 부분이나 이전 프레임을 참조해서 변화량을 추정하게 됨. 블록의 변화 영역을 좀 더 정밀하게 감싸 정의할 수록 효율이 높음. 하지만 블록 위치를 설명하는데도 데이터가 들어가야 하므로, 이 묘사를 최소화하는 제한 규칙이 있음. AV2에선 블록 정의 방법이 달라져 변화 영역에 맞추기 쉬워졌고, 가장 큰 블록 크기도 2배가 되어 큰 움직임도 블록 수를 줄여 효과적으로 압축 가능해짐. 이 외에도 다양한 변화가 이뤄졌고, 인코더의 알고리즘적 창의성도 계속 진화함. 이런 발전을 실제로 적용하려면 비트스트림에 허용되는 변환, 예측 기법 등 표준 합의가 필요함. 참고 영상은 여기에서 볼 수 있음
- 특허가 여전히 큰 역할을 하고 있음. 새로운 기술은 기존 특허를 침해하지 않도록 매우 신경 써야 함. 그래서 AV1/AV2에서도 사용할 수 없는 트릭이나 기법이 있을 수 있음
- 둘 다 필요함. 최신 코덱들은 화질(PSNR, SSIM), 연산 복잡도(CPU vs DSP vs 메모리), 저장공간, 비트레이트 등 측면에서 각각 다른 트레이드오프가 있어서, 모든 상황에 최적화된 유일한 코덱이란 건 없음
- 생성형 AI 코덱이 실제 프로덕션에서 쓰일 날이 언제 올지 궁금함. 개념은 비교적 간단함. 인코더가 디코더가 사용할 정확한 모델을 알고, 주요 픽셀만 보낸 후 디코더가 나머지는 AI로 채우는 방식임. 예를 들어 군중 속 랜덤한 사람 얼굴을 생성하거나, 필요하면 그 영역에 더 많은 데이터를 보내서 특정 팀 마스코트 얼굴로 유도하는 것도 가능함. 압축이 극도로 진행되면 사실상 비디오가 아니라 텍스트 스크립트처럼 장면을 묘사하는 데이터만 남을 것임
- AV2 세부사항을 잘 알진 못하지만 H.265에서 H.266으로 갈 땐 앵귤러(prediction) 각도가 2배로 늘고, 크로마를 루마에서 예측하는 툴, 픽셀 블록 복사 등 intra prediction에만 해도 다양한 기법이 추가됨. 인터 프레딕션도 엄청난 개선이 이뤄짐. 이 모든 것은 하드웨어 디코더의 논리회로/실리콘 면적을 많이 소모하긴 하지만 비트레이트 절감 효과가 큼. CPU 디코더 기준 추가 연산 부담은 그리 심하지 않음. 진정한 비용은 인코딩 측면임. 압축효율 극대화하려면 선택할 예측도구가 많아져 인코딩 시간이 늘어나기 때문임. 그래서 구글은 AV1 인코딩을 뷰가 아주 많은 영상에만 적용함
이번엔 두 번째 출범이니 좀 더 제대로 됐으면 하는 바람임. AOM에서 10월 20일 라이브 세션이 예정되어 있어 기대 중임. 더 많은 데이터와 수치, 인코딩/디코딩 복잡도, 하드웨어 디코더 로드맵, 규격 준수와 테스트 킷, 미래 프로필, AVIF와 AV2의 개선, JPEG-XL과의 비교까지 다룰 예정임. 30% BDRATE는 AV1 최신 엔코더 또는 1.0 기준인지 궁금함. 라이브 인코딩 개선도 이야기될 것 같음
AV1 대비 30% 절감이라니 미쳤음. 출시된 지 얼마 안 된 것 같은데 2019년에 나왔음
- 나도 작년에야 겨우 AV1 하드웨어 지원하는 첫 기기를 써봄. 코덱의 빠른 발전 속도에는 항상 단점이 있는데, 콘텐츠는 여러 포맷으로 계속 보관해야 하거나 아니면 클라이언트 쪽에서 소프트웨어 디코딩을 하느라 배터리 소모가 커지는 상황임. 유튜브가 바로 후자 쪽을 선호함
- 너무 놀라워서 오히려 의심이 드는 수준임. 사실이라면 정말 대단함
코덱 구현 및 최적화 작업이 아마 내 인생에서 가장 재미있었던 일 중 하나였음. AV2를 깊이 파고들어보고 싶지만 지금은 시간이 없음
드디어 AVI같지 않은 이름을 가진 코덱이 나와서 기쁨
- AVI는 코덱이 아니라 컨테이너 포맷 아님?
이 고속 광케이블 인터넷이 별 의미가 없어져버림...
- 전 세계 대부분은 여전히 모바일 네트워크 기반으로 데이터와 영상을 소비하고 있음
- 맞음. 마침 1TB microSD 카드 환불 기간이 남아있는 상황이 다행임
- 앞으로 8K 컨텐츠 스트리밍이 시작될 수도 있고, 아니면 16K VR 비디오에 활용될 수 있을 것임
- 최대 효율 + 최대 가용성 동시 추구가 이상적임. 컴퓨팅 파워나 에너지 시장에도 동일하게 적용될 원칙임
- 미디어가 많아지면 속도 수요가 늘고, 속도가 증가하면 다시 미디어가 많아지는 무한 루프임
AV1 이름이 AVI(오디오 비디오 인터레이스)에 대한 헌정 또는 재미로 나온 이름이라 생각했지만, AV2는 그런 느낌이 사라짐. AV1은 .av1 확장자 파일과 video/AV1 MIME 타입도 존재하는데, 이제 AV2 나오면 다 .av2랑 video/AV2로 다 중복해야 하는 건지 궁금함. AVIF 포맷은 어떻게 되는지 의문임
- .av1 확장자는 원시 AV1 데이터 파일임. AV2는 .av2를 쓰게 될 예정이고, 서로 호환되지 않음. 실제로는 Matroska(.mkv), WebM, MP4 같은 컨테이너에 비디오 스트림이 들어가고, 코덱 타입 코드를 지정함(av01, av02). AVIF도 컨테이너라 이름은 AV1 image format이지만, 원한다면 AV2로도 확장 가능함. 명확하게 맞추려면 AOMedia Video Image Format로 이름을 바꾸면 됨
- 파일 확장자는 파일 형식만을 반영해야 하고, 내부 코덱과는 별개로 해야 한다는 이야긴지? 실제로 옛날에는 그렇게 해서 문제가 생겼을 때도 있음. 확장자만 보고 파일을 읽을 수 있을지 알 수 있으면 편리함
AV1이나 AV2 포맷에서 Cloudflare 차단 메시지가 뜨는 사람 있음?
언제쯤 gaussian splatting에 기반한 비디오 코덱이 나올지 궁금함

답변달기