VASA-1: 한장의 사진과 오디오로 말하는 얼굴 실시간 생성하기

(microsoft.com)

4P by GN⁺ 2024-04-20 | ★ favorite | 댓글 2개

Microsoft Research에서 VASA-1 이라는 새로운 프로젝트를 공개
단 한장의 인물 사진과 실시간으로 오디오를 입력받아 사실적인 말하는 얼굴 영상을 생성하는 기술
음성에 맞춰 입술과 얼굴 표정이 자연스럽게 움직이며 실제 사람의 말하는 모습과 거의 구분이 어려울 정도로 사실적임
선택적 신호(주요 시선 방향, 머리 거리, 감정 오프셋 등)를 조건으로 받아들이는 확산 모델을 사용하며, 주요 시선 방향(정면, 왼쪽, 오른쪽, 위쪽), 머리 거리 스케일, 감정 오프셋(중립, 행복, 분노, 놀람)에 따른 생성 결과를 제시
오프라인 배치 처리 모드에서 512x512 크기의 비디오 프레임을 초당 45프레임으로 생성
온라인 스트리밍 모드에서 최대 초당 40프레임까지 지원하며 170ms의 선행 대기 시간만 필요함 (NVIDIA RTX 4090 GPU 1개가 있는 데스크톱 PC)

GN⁺의 의견

이런 기술이 실용화되면 가상 인간, AI 아바타, 메타버스 등 다양한 분야에서 활용될 수 있음. 특히 게임, 영화, 애니메이션 등 엔터테인먼트 산업에서 수요가 많을 것으로 보임
반면에 이를 악용해 가짜뉴스를 만들거나, 유명인 얼굴로 딥페이크 영상을 만드는 등 역기능도 우려됨. 악의적인 사용을 방지하기 위한 기술적, 제도적 장치가 필요할 것임
유사한 기술로는 NVIDIA에서 발표한 Audio2Face 등이 있음. 이들은 주로 사전에 훈련된 특정인의 얼굴만 생성 가능한 반면, VASA-1은 새로운 얼굴도 실시간으로 생성할 수 있다는 점에서 차별화됨
개발팀에 따르면 VASA-1은 아직 초기 단계이며 앞으로 화질과 안정성을 더 개선해나갈 계획이라고 함. 상용화까지는 시간이 더 걸릴 것으로 보이나, 언젠가는 우리 일상 속에서 이런 인공인간을 마주하게 될 날이 올 것으로 예상됨

▲

tomriddle7 2024-04-22 [-]

그것이 알고싶다 1394회에서 사진&오디오로 유명인을 사칭해 돈 뜯어낸 사례가 나왔는데 이런 데 악용될 수 있어 우려되네요

답변달기

▲

GN⁺ 2024-04-20 [-]

Hacker News 의견

요약:

마이크로소프트의 VASA-1은 단 한 장의 사진과 오디오 트랙으로 딥페이크를 만들 수 있음. 딥페이크 기술은 점점 더 빨라지고, 좋아지고, 쉬워지며 저렴해질 것으로 보임.
한편, 신용카드사는 음성 인증을 도입했지만, 이는 누구나 소셜 네트워크에서 짧은 오디오 클립을 얻어 목소리를 복제할 수 있다는 사실을 인식하지 못하고 있음. 기업들은 시대에 뒤처져 있음.
VASA-1은 EMO만큼 좋지는 않음. 가짜 같아 보이는 신체 움직임이 있고, 립싱크가 제대로 되지 않는 부분이 많음. 눈 움직임과 전반적인 머리와 신체 움직임이 자연스럽지 않음.
이 기술의 유일한 목적은 스파이들이 다른 사람을 학대하는 것으로 보임. 앞으로는 모든 전화와 화상 회의에서 인증을 해야 할 것인가?
이 논문은 Diffusion Transformers를 사용한다고 언급함. 오픈 소스 구현은 페이스북 리서치의 PyTorch 구현이지만 비상업 라이선스임. 이에 상응하는 MIT나 Apache 라이선스가 있는지 궁금함.
우리가 보는 것의 진위를 보장하는 일종의 관리 체계가 필요함. 하지만 사진/비디오 조작 시 서명이 깨지는 등 쉽지 않은 문제임.
이는 절대적으로 미친 듯한 기술이며, 앞으로 더 좋아질 것임. 딥페이크가 아직 멀리 있다고 생각했지만, 온라인에서 더 조심해야 할 것 같음.
선거 간섭을 위한 환상적인 기술 진보!

답변달기