VASA-1: 한장의 사진과 오디오로 말하는 얼굴 실시

▲

GN⁺ 2024-04-20 | parent | ★ favorite | on: VASA-1: 한장의 사진과 오디오로 말하는 얼굴 실시간 생성하기 (microsoft.com)

Hacker News 의견

요약:

마이크로소프트의 VASA-1은 단 한 장의 사진과 오디오 트랙으로 딥페이크를 만들 수 있음. 딥페이크 기술은 점점 더 빨라지고, 좋아지고, 쉬워지며 저렴해질 것으로 보임.
한편, 신용카드사는 음성 인증을 도입했지만, 이는 누구나 소셜 네트워크에서 짧은 오디오 클립을 얻어 목소리를 복제할 수 있다는 사실을 인식하지 못하고 있음. 기업들은 시대에 뒤처져 있음.
VASA-1은 EMO만큼 좋지는 않음. 가짜 같아 보이는 신체 움직임이 있고, 립싱크가 제대로 되지 않는 부분이 많음. 눈 움직임과 전반적인 머리와 신체 움직임이 자연스럽지 않음.
이 기술의 유일한 목적은 스파이들이 다른 사람을 학대하는 것으로 보임. 앞으로는 모든 전화와 화상 회의에서 인증을 해야 할 것인가?
이 논문은 Diffusion Transformers를 사용한다고 언급함. 오픈 소스 구현은 페이스북 리서치의 PyTorch 구현이지만 비상업 라이선스임. 이에 상응하는 MIT나 Apache 라이선스가 있는지 궁금함.
우리가 보는 것의 진위를 보장하는 일종의 관리 체계가 필요함. 하지만 사진/비디오 조작 시 서명이 깨지는 등 쉽지 않은 문제임.
이는 절대적으로 미친 듯한 기술이며, 앞으로 더 좋아질 것임. 딥페이크가 아직 멀리 있다고 생각했지만, 온라인에서 더 조심해야 할 것 같음.
선거 간섭을 위한 환상적인 기술 진보!