Hacker News 의견들
  • 요즘 계속 Andy Clark의 **The Experience Machine**이 떠오름
    인간의 뇌가 세상을 직접 인식하는 게 아니라, 내부에서 생성한 시뮬레이션을 감각으로 보정하며 현실을 경험한다는 이론임
    즉, 우리는 고해상도의 생성 모델 안에서 살고 있으며, 감각은 그 모델의 오차 신호를 조정하는 역할을 함
    Genie 3가 잠재 공간에서 다음 프레임을 예측하듯, 인간의 뇌도 ‘Active Inference’를 통해 기대와 실제 경험의 차이를 최소화하려 함
    결국 현실감이란 외부 세계의 직접 기록이 아니라, 끊임없이 보정되는 상호작용적 시뮬레이션이라는 관점임

    • 신경학적으로는 이미 꽤 확립된 개념임
      예를 들어 은 감각 입력이 차단된 상태에서 내부 모델이 자유롭게 작동하는 사례로 볼 수 있음
    • 관련 영상으로 kurzgesagt의 Why Your Brain Blinds You For 2 Hours Every Day와 그 출처 모음을 추천함
    • Anil Seth의 Your Brain Hallucinates Your Conscious Reality도 같은 맥락임
      이런 주제는 오래전부터 철학과 종교에서도 다뤄졌으며, 인간의 의식이 스스로의 투사로 현실을 구성한다는 점이 흥미로움
    • 스마트폰 사진의 후처리도 비슷한 비유로 볼 수 있음
      어느 순간부터 사진이 아니라 계산된 인상주의 작품이 되는가 하는 질문이 떠오름
    • Donald Hoffman의 『The Case Against Reality』도 함께 읽어볼 만함
  • 많은 사람들이 Genie를 단순히 게임이나 영화용 제품으로 오해하는 듯함
    하지만 진짜 목적은 차세대 AI와 로봇의 ‘상상력 엔진’ , 즉 행동 결과를 시뮬레이션해 의사결정을 돕는 세계 모델을 만드는 것임

    • 나도 동의함. LLM에는 세계 모델이 없다고들 했는데, 이제 그다음 단계로 나아가는 셈임
      현실 영상을 일정 프레임 속도로 인코딩해 모델의 상상력을 현실 데이터로 정착시키고, 가능한 행동 시나리오를 분기해 평가한 뒤 최적의 예측을 모터로 보내는 구조를 상상함
      타이밍 조정이 쉽진 않겠지만, 큰 틀은 이미 보임
    • 약간 다른 의견임. 진짜 상상력을 원한다면 굳이 비디오 디코딩이 필요 없다고 생각함
      Genie는 인간이 이해하고 디버깅할 수 있는 인터페이스로서 비디오를 생성하는 것임
      즉, 연구자용 AI 실험 게임이라는 점에서 목적이 다름
    • 하지만 이런 구조는 비용이 너무 큼. 로보틱스에는 전혀 다른 아키텍처가 필요할 것 같음
    • 인스타그램도 처음엔 친구들과 사진을 공유하는 앱이었지만, 지금은 중독적 플랫폼이 되었음
      Genie가 VR과 결합되면 비슷한 디스토피아적 전환점이 올 수도 있음
    • 이런 환경 매핑과 AI의 대체 결과 생성은 결국 홀로덱 개념임
      하지만 나는 여전히 현실의 위험과 생동감을 선호함
  • Genie 공개가 정말 반가움
    초기 사용자들의 흥미로운 영상들이 있음:
    도시 탐험, 헬리콥터 시뮬레이션, 우주정거장과 던킨도너츠, 노트북 시뮬레이션, 수달 조종사

    • 나도 얼리 테스터로 참여했음
      달 위를 걷거나, 221B Baker Street에서 Holmes와 Watson을 만나거나, 타이베이 야시장 속 거대한 버블티로 탐험하는 등 다양한 세계를 만들어봄
      시연 영상도 있음
      아직은 실험적 프로토타입이지만, 미래의 단서처럼 느껴짐
    • 기술적으로는 놀랍지만, 몰입감은 부족함
      Unreal 5 자산을 몇 단어로 생성할 수 있다는 건 멋지지만, 실제로는 그렇게 놀고 싶진 않음
      게다가 초당 계산 비용을 지불할 생각도 없음
    • 공룡 시대를 재현한 버전이 나오면 정말 보고 싶음
    • Project Genie에 대한 의견이 궁금함
  • Genie의 진짜 돌파구는 뒤돌아볼 수 있다는 점
    다른 연구소의 시뮬레이터들은 시야 밖의 일관성을 유지하지 못했는데, Genie는 그걸 해결함

    • Fei-Fei Li 연구실은 진짜 3D 세계를 생성한다고 들었음
      다만 그 방식은 애니메이션 표현에는 제약이 있을 듯함
    • ML 연구자들이 이렇게 늦게서야 명시적 캐시 구조의 필요성을 깨달은 게 놀라움
    • 그렇다면 일주일 뒤에 같은 장소로 돌아가면 그 장면이 유지될까 궁금함
  • Project Genie 팀의 인터뷰 영상이 있음
    YouTube 링크
    Genie는 실시간으로 무한히 다양한 포토리얼 세계를 생성·탐험·상호작용할 수 있는 연구 프로토타입임
    수동적 비디오 생성에서 인터랙티브 미디어로의 전환, 세계 일관성과 메모리 유지의 기술적 도전, 그리고 AI 에이전트의 훈련장으로서의 역할을 다룸

  • 이런 기술을 볼수록 오히려 현실 세계에서 시간을 보내고 싶음
    화면을 끄고 내가 사랑하는 일들을 다시 하고 싶음

    • 나도 같은 느낌임. 영상 속에서 키보드를 두드리는 사람을 보는 순간, 뭔가 씁쓸함이 밀려옴
      실제 촬영된 장면으로 만들어진 가상 세계가 오히려 슬픔을 줌
    • AI를 사랑하지만, 오히려 이런 기술이 진짜 인간 경험의 가치를 일깨워주길 바람
    • 평생 기술 업계에서 일했지만, 이제는 모든 걸 꺼버리고 싶음
    • 아이러니하게도 이런 발전이 시뮬레이션 가설을 더 믿게 만듦
      어쩌면 현실도 이미 시뮬레이션일지도 모름
    • 하늘이 파랗고 햇살이 좋은데, 귀찮으니 그냥 산책 시뮬레이션이나 돌려볼까 하는 생각이 듦
  • 예전에 HN에 올라온 공원 비디오로 세계 모델을 학습한 개인 프로젝트가 떠오름
    인터랙티브 데모도 있었는데, Genie는 그 아이디어를 한 단계 끌어올린 느낌임
    블로그나 인디 데모들이 인용되지 않는 현실이 아쉬움

    • 맞음, 개념은 비슷하지만 규모의 극단이 다름
      공원 모델은 500만 파라미터, 15분짜리 영상으로 학습되어 아이폰에서도 실행
      반면 Genie 3는 수십억 파라미터로 수백만 시간의 영상을 학습한 초대형 모델
      중간 규모의 모델들도 등장 중이라, 1~2년 내에는 게이밍 GPU로 로컬 실행이 가능할 듯함
      예: LingBot-World, Waypoint 1
  • 이 모든 게 영화 『The Thirteenth Floor』 의 주제와 닮아 있음
    예고편 링크

  • 누가 이 GIF로 세계 하나 만들어줬으면 좋겠음

  • 예전부터 궁금했음. 왜 Meta(FB) 는 세계 모델에 적극적이지 않은가
    이게야말로 메타버스 비전의 핵심인데, 오히려 Yann LeCun을 내보냈음

    • LeCun은 성과 부재와 고집스러운 연구 방향으로 내부 균열을 초래했음
      LLM 경쟁에 참여하지 않고, 검증되지 않은 이론에만 몰두함
      그 결과 Meta는 AI 선두 그룹에서 밀려났고, LeCun은 명예를 지킨 채 떠난 셈임
    • JEPA와 Genie의 차이를 이렇게 비유함
      JEPA는 소설가처럼 “개가 우체부에게 달려간다”고 요약함
      Genie는 화가처럼 다음 장면을 직접 그려야 이야기가 존재함
      즉, Genie는 프레임 단위의 생성, JEPA는 개념 단위의 예측
    • 완전히 동의함. 세계 모델이야말로 Reality Labs 투자의 구원 카드
      이를 제품화하지 못하면 프로젝트 자체를 접어야 함
    • 실패 사례는 공개되지 않음. 실제로 Meta가 어디에 투자했는지 불분명함
    • 근본적으로 사람들은 VR 헤드셋 착용을 좋아하지 않음
      아무리 콘텐츠가 좋아도 여전히 니치 시장에 머물러 있음