“Unsplash > Gen3C > The fly video”는 진짜 악몽 같은 영상임
직접 보고 싶다면 여기 링크를 참고할 수 있음
기업들이 이런 끔찍한 결과물을 보고 더 빠르게 발전하려 들겠지만, 나는 아직 현실적인 영상이 남아 있기를 바람
결국 사람들은 현실 관계를 잃고 가상 엔터테인먼트 슈트에 매달리게 될 것 같음
혹시 운이 좋다면 증강현실 속에서 ‘진짜’ 사람을 만나려는 시도 정도는 남겠지만, 이미 우리는 기술에 너무 의존하고 있음
기술이 발전해도 인간에게 좋은 결과가 나올지 의문임
예전 AI의 “모든 게 개 머리로 변하던 시절” 같은 느낌이라 오히려 아름답게 느껴짐
“san check, 1d10” — 공포 게임 밈처럼 정신력 체크가 필요할 정도의 영상이라는 농담임
“Seth Brundle has entered the chat.” — 영화 The Fly의 주인공을 언급하며 변이된 영상 분위기를 비유함
Apple Silicon에서 뭔가 작동하게 만들었음 ml-sharp GitHub 저장소에 작은 데모 GIF도 있음 Gaussian splat을 새로 구현하지 않고 근사하려고 하는데, 솔직히 좀 벅참
GIF의 밴딩 아티팩트 덕분에 불꽃이 실제로 깜빡이는 것처럼 보여서 흥미로웠음
AI가 사진 속 사진 구조를 인식해 불꽃 부분만 2D로 유지한 점이 인상적이었음
예제 결과는 솔직히 별로 인상적이지 않음. 하단 20%를 보면 품질이 떨어짐
“이게 정확히 뭘 하는 건가요?”
역사 다큐처럼 오래된 사진에서 인물이나 사물을 배경에서 분리해 입체적인 움직임을 주는 기술임
이 소프트웨어는 그걸 1초 이내에 처리해 3D 모델을 만들어줌
Gaussian splashing이 특히 멋짐
한 장의 2D 이미지를 가지고 카메라 각도를 바꾸는 듯한 패럴랙스 효과를 시뮬레이션함
인물 분리도 잘 되고, 여러 피사체가 있는 장면도 처리 가능함
포트레이트 모드 효과와 비슷한 원리임
단일 사진을 거친 3D 장면으로 변환해 카메라를 살짝 움직이면 새로운 시점을 볼 수 있음
“Photorealistic”이란 실제 질감과 조명을 유지한다는 뜻임
Apple Photos 앱의 Spatial Scene 기능과 유사함 — 데모 영상
한 장의 사진에서 숨겨진 3D 표현을 추론해, 약간 다른 시점에서 사실적인 이미지를 생성함
기본적으로 깊이 추정(depth estimation) 으로 장면을 여러 평면으로 나누고, 가려진 부분은 inpainting으로 채움
이후 각 평면을 움직여 패럴랙스를 구현함 — 2D 횡스크롤 게임의 배경 깊이 효과와 비슷함
예제에 사람 얼굴이 거의 없다는 점이 눈에 띔
지금까지의 경험상 이런 모델들은 입체로 보면 인물이 2D 종이인형처럼 보임
이 모델이 실제로 입체감 있게 표현할 수 있을지는 모르겠지만, 사람 얼굴이 빠진 건 의미심장함
Hacker News 의견들
“Unsplash > Gen3C > The fly video”는 진짜 악몽 같은 영상임
직접 보고 싶다면 여기 링크를 참고할 수 있음
결국 사람들은 현실 관계를 잃고 가상 엔터테인먼트 슈트에 매달리게 될 것 같음
혹시 운이 좋다면 증강현실 속에서 ‘진짜’ 사람을 만나려는 시도 정도는 남겠지만, 이미 우리는 기술에 너무 의존하고 있음
기술이 발전해도 인간에게 좋은 결과가 나올지 의문임
Apple Silicon에서 뭔가 작동하게 만들었음
ml-sharp GitHub 저장소에 작은 데모 GIF도 있음
Gaussian splat을 새로 구현하지 않고 근사하려고 하는데, 솔직히 좀 벅참
AI가 사진 속 사진 구조를 인식해 불꽃 부분만 2D로 유지한 점이 인상적이었음
“이게 정확히 뭘 하는 건가요?”
이 소프트웨어는 그걸 1초 이내에 처리해 3D 모델을 만들어줌
Gaussian splashing이 특히 멋짐
인물 분리도 잘 되고, 여러 피사체가 있는 장면도 처리 가능함
포트레이트 모드 효과와 비슷한 원리임
“Photorealistic”이란 실제 질감과 조명을 유지한다는 뜻임
Apple Photos 앱의 Spatial Scene 기능과 유사함 — 데모 영상
이후 각 평면을 움직여 패럴랙스를 구현함 — 2D 횡스크롤 게임의 배경 깊이 효과와 비슷함
예제에 사람 얼굴이 거의 없다는 점이 눈에 띔
지금까지의 경험상 이런 모델들은 입체로 보면 인물이 2D 종이인형처럼 보임
이 모델이 실제로 입체감 있게 표현할 수 있을지는 모르겠지만, 사람 얼굴이 빠진 건 의미심장함
Depth Pro GitHub / LearnOpenCV 설명
애플에서 만든건데 CUDA GPU 전용 임 관련 문서
몇 년은 기다려야 할 듯함
지금까지 써본 AI 저장소 중 가장 쉽게 실행된 편이었음
모델 자체는 GPU, CPU, MPS 모두에서 작동함
결과물로 .ply 파일을 얻어 SparkJS 뷰어에 넣으면 됨
CUDA는 사이드 스크롤 영상 렌더링에만 필요함
“한 장의 사진에서 1초 이내에 사실적인 3D 표현을 생성한다”는 점이 핵심임
Apple Photos 앱의 Spatial Scene 기능도 비슷하게 작동함
데모 영상
Photoshop의 콘텐츠 인식 채우기가 오히려 더 나았던 시절도 있었음
Gaussian splat 샘플 파일이 있나?
단, 예제는 하나뿐이라 일반화는 어려움
결과가 인상적이긴 하지만 너무 날카롭고 인공적인 느낌이 듦
다만 TMPI가 항상 더 밝게 나오는데, 어느 쪽이 정확한지는 모르겠음