요즘 계속 Andy Clark의 **The Experience Machine**이 떠오름
인간의 뇌가 세상을 직접 인식하는 게 아니라, 내부에서 생성한 시뮬레이션을 감각으로 보정하며 현실을 경험한다는 이론임
즉, 우리는 고해상도의 생성 모델 안에서 살고 있으며, 감각은 그 모델의 오차 신호를 조정하는 역할을 함
Genie 3가 잠재 공간에서 다음 프레임을 예측하듯, 인간의 뇌도 ‘Active Inference’를 통해 기대와 실제 경험의 차이를 최소화하려 함
결국 현실감이란 외부 세계의 직접 기록이 아니라, 끊임없이 보정되는 상호작용적 시뮬레이션이라는 관점임
신경학적으로는 이미 꽤 확립된 개념임
예를 들어 꿈은 감각 입력이 차단된 상태에서 내부 모델이 자유롭게 작동하는 사례로 볼 수 있음
스마트폰 사진의 후처리도 비슷한 비유로 볼 수 있음
어느 순간부터 사진이 아니라 계산된 인상주의 작품이 되는가 하는 질문이 떠오름
Donald Hoffman의 『The Case Against Reality』도 함께 읽어볼 만함
많은 사람들이 Genie를 단순히 게임이나 영화용 제품으로 오해하는 듯함
하지만 진짜 목적은 차세대 AI와 로봇의 ‘상상력 엔진’ , 즉 행동 결과를 시뮬레이션해 의사결정을 돕는 세계 모델을 만드는 것임
나도 동의함. LLM에는 세계 모델이 없다고들 했는데, 이제 그다음 단계로 나아가는 셈임
현실 영상을 일정 프레임 속도로 인코딩해 모델의 상상력을 현실 데이터로 정착시키고, 가능한 행동 시나리오를 분기해 평가한 뒤 최적의 예측을 모터로 보내는 구조를 상상함
타이밍 조정이 쉽진 않겠지만, 큰 틀은 이미 보임
약간 다른 의견임. 진짜 상상력을 원한다면 굳이 비디오 디코딩이 필요 없다고 생각함
Genie는 인간이 이해하고 디버깅할 수 있는 인터페이스로서 비디오를 생성하는 것임
즉, 연구자용 AI 실험 게임이라는 점에서 목적이 다름
하지만 이런 구조는 비용이 너무 큼. 로보틱스에는 전혀 다른 아키텍처가 필요할 것 같음
인스타그램도 처음엔 친구들과 사진을 공유하는 앱이었지만, 지금은 중독적 플랫폼이 되었음
Genie가 VR과 결합되면 비슷한 디스토피아적 전환점이 올 수도 있음
이런 환경 매핑과 AI의 대체 결과 생성은 결국 홀로덱 개념임
하지만 나는 여전히 현실의 위험과 생동감을 선호함
나도 얼리 테스터로 참여했음
달 위를 걷거나, 221B Baker Street에서 Holmes와 Watson을 만나거나, 타이베이 야시장 속 거대한 버블티로 탐험하는 등 다양한 세계를 만들어봄 시연 영상도 있음
아직은 실험적 프로토타입이지만, 미래의 단서처럼 느껴짐
기술적으로는 놀랍지만, 몰입감은 부족함
Unreal 5 자산을 몇 단어로 생성할 수 있다는 건 멋지지만, 실제로는 그렇게 놀고 싶진 않음
게다가 초당 계산 비용을 지불할 생각도 없음
공룡 시대를 재현한 버전이 나오면 정말 보고 싶음
Project Genie에 대한 의견이 궁금함
Genie의 진짜 돌파구는 뒤돌아볼 수 있다는 점임
다른 연구소의 시뮬레이터들은 시야 밖의 일관성을 유지하지 못했는데, Genie는 그걸 해결함
Fei-Fei Li 연구실은 진짜 3D 세계를 생성한다고 들었음
다만 그 방식은 애니메이션 표현에는 제약이 있을 듯함
ML 연구자들이 이렇게 늦게서야 명시적 캐시 구조의 필요성을 깨달은 게 놀라움
그렇다면 일주일 뒤에 같은 장소로 돌아가면 그 장면이 유지될까 궁금함
Project Genie 팀의 인터뷰 영상이 있음 YouTube 링크
Genie는 실시간으로 무한히 다양한 포토리얼 세계를 생성·탐험·상호작용할 수 있는 연구 프로토타입임
수동적 비디오 생성에서 인터랙티브 미디어로의 전환, 세계 일관성과 메모리 유지의 기술적 도전, 그리고 AI 에이전트의 훈련장으로서의 역할을 다룸
이런 기술을 볼수록 오히려 현실 세계에서 시간을 보내고 싶음
화면을 끄고 내가 사랑하는 일들을 다시 하고 싶음
나도 같은 느낌임. 영상 속에서 키보드를 두드리는 사람을 보는 순간, 뭔가 씁쓸함이 밀려옴
실제 촬영된 장면으로 만들어진 가상 세계가 오히려 슬픔을 줌
AI를 사랑하지만, 오히려 이런 기술이 진짜 인간 경험의 가치를 일깨워주길 바람
평생 기술 업계에서 일했지만, 이제는 모든 걸 꺼버리고 싶음
아이러니하게도 이런 발전이 시뮬레이션 가설을 더 믿게 만듦
어쩌면 현실도 이미 시뮬레이션일지도 모름
맞음, 개념은 비슷하지만 규모의 극단이 다름
공원 모델은 500만 파라미터, 15분짜리 영상으로 학습되어 아이폰에서도 실행됨
반면 Genie 3는 수십억 파라미터로 수백만 시간의 영상을 학습한 초대형 모델임
중간 규모의 모델들도 등장 중이라, 1~2년 내에는 게이밍 GPU로 로컬 실행이 가능할 듯함
예: LingBot-World, Waypoint 1
이 모든 게 영화 『The Thirteenth Floor』 의 주제와 닮아 있음 예고편 링크
Hacker News 의견들
요즘 계속 Andy Clark의 **The Experience Machine**이 떠오름
인간의 뇌가 세상을 직접 인식하는 게 아니라, 내부에서 생성한 시뮬레이션을 감각으로 보정하며 현실을 경험한다는 이론임
즉, 우리는 고해상도의 생성 모델 안에서 살고 있으며, 감각은 그 모델의 오차 신호를 조정하는 역할을 함
Genie 3가 잠재 공간에서 다음 프레임을 예측하듯, 인간의 뇌도 ‘Active Inference’를 통해 기대와 실제 경험의 차이를 최소화하려 함
결국 현실감이란 외부 세계의 직접 기록이 아니라, 끊임없이 보정되는 상호작용적 시뮬레이션이라는 관점임
예를 들어 꿈은 감각 입력이 차단된 상태에서 내부 모델이 자유롭게 작동하는 사례로 볼 수 있음
이런 주제는 오래전부터 철학과 종교에서도 다뤄졌으며, 인간의 의식이 스스로의 투사로 현실을 구성한다는 점이 흥미로움
어느 순간부터 사진이 아니라 계산된 인상주의 작품이 되는가 하는 질문이 떠오름
많은 사람들이 Genie를 단순히 게임이나 영화용 제품으로 오해하는 듯함
하지만 진짜 목적은 차세대 AI와 로봇의 ‘상상력 엔진’ , 즉 행동 결과를 시뮬레이션해 의사결정을 돕는 세계 모델을 만드는 것임
현실 영상을 일정 프레임 속도로 인코딩해 모델의 상상력을 현실 데이터로 정착시키고, 가능한 행동 시나리오를 분기해 평가한 뒤 최적의 예측을 모터로 보내는 구조를 상상함
타이밍 조정이 쉽진 않겠지만, 큰 틀은 이미 보임
Genie는 인간이 이해하고 디버깅할 수 있는 인터페이스로서 비디오를 생성하는 것임
즉, 연구자용 AI 실험 게임이라는 점에서 목적이 다름
Genie가 VR과 결합되면 비슷한 디스토피아적 전환점이 올 수도 있음
하지만 나는 여전히 현실의 위험과 생동감을 선호함
Genie 공개가 정말 반가움
초기 사용자들의 흥미로운 영상들이 있음:
도시 탐험, 헬리콥터 시뮬레이션, 우주정거장과 던킨도너츠, 노트북 시뮬레이션, 수달 조종사
달 위를 걷거나, 221B Baker Street에서 Holmes와 Watson을 만나거나, 타이베이 야시장 속 거대한 버블티로 탐험하는 등 다양한 세계를 만들어봄
시연 영상도 있음
아직은 실험적 프로토타입이지만, 미래의 단서처럼 느껴짐
Unreal 5 자산을 몇 단어로 생성할 수 있다는 건 멋지지만, 실제로는 그렇게 놀고 싶진 않음
게다가 초당 계산 비용을 지불할 생각도 없음
Genie의 진짜 돌파구는 뒤돌아볼 수 있다는 점임
다른 연구소의 시뮬레이터들은 시야 밖의 일관성을 유지하지 못했는데, Genie는 그걸 해결함
다만 그 방식은 애니메이션 표현에는 제약이 있을 듯함
Project Genie 팀의 인터뷰 영상이 있음
YouTube 링크
Genie는 실시간으로 무한히 다양한 포토리얼 세계를 생성·탐험·상호작용할 수 있는 연구 프로토타입임
수동적 비디오 생성에서 인터랙티브 미디어로의 전환, 세계 일관성과 메모리 유지의 기술적 도전, 그리고 AI 에이전트의 훈련장으로서의 역할을 다룸
이런 기술을 볼수록 오히려 현실 세계에서 시간을 보내고 싶음
화면을 끄고 내가 사랑하는 일들을 다시 하고 싶음
실제 촬영된 장면으로 만들어진 가상 세계가 오히려 슬픔을 줌
어쩌면 현실도 이미 시뮬레이션일지도 모름
예전에 HN에 올라온 공원 비디오로 세계 모델을 학습한 개인 프로젝트가 떠오름
인터랙티브 데모도 있었는데, Genie는 그 아이디어를 한 단계 끌어올린 느낌임
블로그나 인디 데모들이 인용되지 않는 현실이 아쉬움
공원 모델은 500만 파라미터, 15분짜리 영상으로 학습되어 아이폰에서도 실행됨
반면 Genie 3는 수십억 파라미터로 수백만 시간의 영상을 학습한 초대형 모델임
중간 규모의 모델들도 등장 중이라, 1~2년 내에는 게이밍 GPU로 로컬 실행이 가능할 듯함
예: LingBot-World, Waypoint 1
이 모든 게 영화 『The Thirteenth Floor』 의 주제와 닮아 있음
예고편 링크
누가 이 GIF로 세계 하나 만들어줬으면 좋겠음
예전부터 궁금했음. 왜 Meta(FB) 는 세계 모델에 적극적이지 않은가
이게야말로 메타버스 비전의 핵심인데, 오히려 Yann LeCun을 내보냈음
LLM 경쟁에 참여하지 않고, 검증되지 않은 이론에만 몰두함
그 결과 Meta는 AI 선두 그룹에서 밀려났고, LeCun은 명예를 지킨 채 떠난 셈임
JEPA는 소설가처럼 “개가 우체부에게 달려간다”고 요약함
Genie는 화가처럼 다음 장면을 직접 그려야 이야기가 존재함
즉, Genie는 프레임 단위의 생성, JEPA는 개념 단위의 예측임
이를 제품화하지 못하면 프로젝트 자체를 접어야 함
아무리 콘텐츠가 좋아도 여전히 니치 시장에 머물러 있음