Hacker News 의견들
  • “Unsplash > Gen3C > The fly video”는 진짜 악몽 같은 영상
    직접 보고 싶다면 여기 링크를 참고할 수 있음

    • 기업들이 이런 끔찍한 결과물을 보고 더 빠르게 발전하려 들겠지만, 나는 아직 현실적인 영상이 남아 있기를 바람
      결국 사람들은 현실 관계를 잃고 가상 엔터테인먼트 슈트에 매달리게 될 것 같음
      혹시 운이 좋다면 증강현실 속에서 ‘진짜’ 사람을 만나려는 시도 정도는 남겠지만, 이미 우리는 기술에 너무 의존하고 있음
      기술이 발전해도 인간에게 좋은 결과가 나올지 의문임
    • 예전 AI의 “모든 게 개 머리로 변하던 시절” 같은 느낌이라 오히려 아름답게 느껴짐
    • “san check, 1d10” — 공포 게임 밈처럼 정신력 체크가 필요할 정도의 영상이라는 농담임
    • “Seth Brundle has entered the chat.” — 영화 The Fly의 주인공을 언급하며 변이된 영상 분위기를 비유함
  • Apple Silicon에서 뭔가 작동하게 만들었음
    ml-sharp GitHub 저장소에 작은 데모 GIF도 있음
    Gaussian splat을 새로 구현하지 않고 근사하려고 하는데, 솔직히 좀 벅참

    • GIF의 밴딩 아티팩트 덕분에 불꽃이 실제로 깜빡이는 것처럼 보여서 흥미로웠음
      AI가 사진 속 사진 구조를 인식해 불꽃 부분만 2D로 유지한 점이 인상적이었음
    • 예제 결과는 솔직히 별로 인상적이지 않음. 하단 20%를 보면 품질이 떨어짐
  • “이게 정확히 뭘 하는 건가요?”

    • 역사 다큐처럼 오래된 사진에서 인물이나 사물을 배경에서 분리해 입체적인 움직임을 주는 기술임
      이 소프트웨어는 그걸 1초 이내에 처리해 3D 모델을 만들어줌
      Gaussian splashing이 특히 멋짐
    • 한 장의 2D 이미지를 가지고 카메라 각도를 바꾸는 듯한 패럴랙스 효과를 시뮬레이션함
      인물 분리도 잘 되고, 여러 피사체가 있는 장면도 처리 가능함
      포트레이트 모드 효과와 비슷한 원리임
    • 단일 사진을 거친 3D 장면으로 변환해 카메라를 살짝 움직이면 새로운 시점을 볼 수 있음
      “Photorealistic”이란 실제 질감과 조명을 유지한다는 뜻임
      Apple Photos 앱의 Spatial Scene 기능과 유사함 — 데모 영상
    • 한 장의 사진에서 숨겨진 3D 표현을 추론해, 약간 다른 시점에서 사실적인 이미지를 생성함
    • 기본적으로 깊이 추정(depth estimation) 으로 장면을 여러 평면으로 나누고, 가려진 부분은 inpainting으로 채움
      이후 각 평면을 움직여 패럴랙스를 구현함 — 2D 횡스크롤 게임의 배경 깊이 효과와 비슷함
  • 예제에 사람 얼굴이 거의 없다는 점이 눈에 띔
    지금까지의 경험상 이런 모델들은 입체로 보면 인물이 2D 종이인형처럼 보임
    이 모델이 실제로 입체감 있게 표현할 수 있을지는 모르겠지만, 사람 얼굴이 빠진 건 의미심장함

  • 애플에서 만든건데 CUDA GPU 전용 임 관련 문서

    • 흥미롭게도 Apple의 자체 모델이 MPS에서 작동하지 않음
      몇 년은 기다려야 할 듯함
    • Gaussian splat 출력은 CPU에서도 생성 가능함
      지금까지 써본 AI 저장소 중 가장 쉽게 실행된 편이었음
    • 수정된 버전은 여기에 있음
    • 이 제한은 비디오 렌더링에만 해당됨
      모델 자체는 GPU, CPU, MPS 모두에서 작동함
    • 모델은 CUDA 없이도 작동함
      결과물로 .ply 파일을 얻어 SparkJS 뷰어에 넣으면 됨
      CUDA는 사이드 스크롤 영상 렌더링에만 필요함
  • “한 장의 사진에서 1초 이내에 사실적인 3D 표현을 생성한다”는 점이 핵심임

  • Apple Photos 앱의 Spatial Scene 기능도 비슷하게 작동함
    데모 영상

    • 하지만 결과물이 종종 흐릿하고 부자연스러운 공간을 만들어냄
      Photoshop의 콘텐츠 인식 채우기가 오히려 더 나았던 시절도 있었음
  • Gaussian splat 샘플 파일이 있나?

    • 직접 테스트해본 결과를 이 저장소에 올렸음
      단, 예제는 하나뿐이라 일반화는 어려움
  • 결과가 인상적이긴 하지만 너무 날카롭고 인공적인 느낌이 듦

    • 본인은 TMPI와 SHARP 결과 모두 마음에 듦
      다만 TMPI가 항상 더 밝게 나오는데, 어느 쪽이 정확한지는 모르겠음