Hacker News 의견

요약:

  • 마이크로소프트의 VASA-1은 단 한 장의 사진과 오디오 트랙으로 딥페이크를 만들 수 있음. 딥페이크 기술은 점점 더 빨라지고, 좋아지고, 쉬워지며 저렴해질 것으로 보임.
  • 한편, 신용카드사는 음성 인증을 도입했지만, 이는 누구나 소셜 네트워크에서 짧은 오디오 클립을 얻어 목소리를 복제할 수 있다는 사실을 인식하지 못하고 있음. 기업들은 시대에 뒤처져 있음.
  • VASA-1은 EMO만큼 좋지는 않음. 가짜 같아 보이는 신체 움직임이 있고, 립싱크가 제대로 되지 않는 부분이 많음. 눈 움직임과 전반적인 머리와 신체 움직임이 자연스럽지 않음.
  • 이 기술의 유일한 목적은 스파이들이 다른 사람을 학대하는 것으로 보임. 앞으로는 모든 전화와 화상 회의에서 인증을 해야 할 것인가?
  • 이 논문은 Diffusion Transformers를 사용한다고 언급함. 오픈 소스 구현은 페이스북 리서치의 PyTorch 구현이지만 비상업 라이선스임. 이에 상응하는 MIT나 Apache 라이선스가 있는지 궁금함.
  • 우리가 보는 것의 진위를 보장하는 일종의 관리 체계가 필요함. 하지만 사진/비디오 조작 시 서명이 깨지는 등 쉽지 않은 문제임.
  • 이는 절대적으로 미친 듯한 기술이며, 앞으로 더 좋아질 것임. 딥페이크가 아직 멀리 있다고 생각했지만, 온라인에서 더 조심해야 할 것 같음.
  • 선거 간섭을 위한 환상적인 기술 진보!