프로젝트 지니: 무한하고 상호작용적인 세계를 실험하다
(blog.google)- 구글의 Project Genie는 사용자가 텍스트와 이미지를 이용해 상호작용 가능한 가상 세계를 생성·탐험·리믹스할 수 있는 실험적 연구 프로토타입
- Genie 3 모델을 기반으로 하며, 사용자의 움직임에 따라 실시간으로 경로와 환경을 생성
- 웹앱 형태로 제공되며, Nano Banana Pro와 Gemini 모델이 통합되어 세계 스케치, 탐험, 리믹스 기능을 지원
- 모델의 한계로 물리 법칙과 불일치, 캐릭터 제어 지연, 60초 제한 등 초기 버전에는 제약이 있음
- 현재 미국 내 Google AI Ultra 구독자(18세 이상) 에게 제공되며, 향후 더 많은 지역으로 확장 예정
Project Genie 개요
-
Project Genie는 Google DeepMind가 개발한 Genie 3 기반의 실험적 연구 프로토타입으로, 사용자가 직접 가상 세계를 만들고 탐험하며 리믹스할 수 있는 환경 제공
- 미국 내 Google AI Ultra 구독자(18세 이상) 가 이용 가능
- 사용자는 텍스트 프롬프트와 이미지를 통해 세계를 생성하고, 실시간으로 탐험 가능
- 이 프로젝트는 몰입형 세계 생성 기술을 일반 사용자에게 공개하는 첫 단계로, 세계 모델(world model) 연구의 확장판임
세계 모델(World Model)의 발전
- 세계 모델은 환경의 동적 변화를 시뮬레이션하고, 행동이 미치는 영향을 예측하는 시스템임
- Google DeepMind는 체스나 바둑 같은 특정 환경용 에이전트 연구를 넘어, 현실 세계의 다양성을 탐색할 수 있는 AGI 시스템 개발을 목표로 함
-
Genie 3는 사용자의 이동에 따라 실시간으로 경로를 생성하며, 물리적 상호작용을 시뮬레이션함
- 정적 3D 스냅샷이 아닌 동적 세계 생성을 지원
- 로보틱스, 애니메이션, 픽션, 역사적 장소 탐험 등 다양한 시나리오에 활용 가능
Project Genie의 작동 방식
- 웹 기반 프로토타입으로, Genie 3 외에도 Nano Banana Pro와 Gemini 모델이 통합되어 있음
- 세 가지 핵심 기능으로 구성됨
-
1. World Sketching (세계 스케치)
- 텍스트와 이미지(생성 또는 업로드)를 이용해 살아 있는 환경을 설계
- 캐릭터와 탐험 방식을 정의할 수 있으며, 보행·비행·운전 등 다양한 이동 형태 지원
- Nano Banana Pro 통합으로 세계의 미리보기와 세부 조정 가능
- 1인칭 또는 3인칭 시점 선택 가능
-
2. World Exploration (세계 탐험)
- 생성된 세계는 탐험 가능한 환경으로, 사용자의 행동에 따라 실시간으로 경로가 생성됨
- 탐험 중 카메라 시점 조정 가능
-
3. World Remixing (세계 리믹스)
- 기존 세계의 프롬프트를 기반으로 새로운 해석의 세계를 재구성 가능
- 갤러리나 랜덤 탐색 기능을 통해 다른 사용자의 세계를 탐험하거나 수정 가능
- 완성된 세계와 탐험 과정을 영상으로 다운로드 가능
책임 있는 AI 구축
- Project Genie는 Google Labs 내에서 진행되는 실험적 연구 프로토타입으로, 책임 있는 AI 개발 원칙에 따라 운영
- 현재 모델의 한계로 다음과 같은 제약이 명시됨
- 생성된 세계가 현실과 다르거나 프롬프트·물리 법칙과 불일치할 수 있음
- 캐릭터 제어 지연 또는 반응성 저하 발생 가능
- 생성 시간 60초 제한 존재
- 2025년 8월 발표된 프롬프트 기반 이벤트 변화 기능은 아직 포함되지 않음
- 향후 업데이트와 개선 사항은 DeepMind 공식 페이지에서 확인 가능
향후 계획과 접근성 확대
- Project Genie는 신뢰할 수 있는 테스터들과의 협업 연구를 기반으로 개발됨
- 이번 공개는 사용자들이 세계 모델을 실제로 어떻게 활용하는지 이해하기 위한 단계
- 현재는 미국 내 Google AI Ultra 구독자에게만 제공되며, 추후 더 많은 지역으로 확대 예정
- Google은 장기적으로 세계 생성 기술을 더 많은 사용자에게 개방할 계획임
Hacker News 의견들
-
요즘 계속 Andy Clark의 **The Experience Machine**이 떠오름
인간의 뇌가 세상을 직접 인식하는 게 아니라, 내부에서 생성한 시뮬레이션을 감각으로 보정하며 현실을 경험한다는 이론임
즉, 우리는 고해상도의 생성 모델 안에서 살고 있으며, 감각은 그 모델의 오차 신호를 조정하는 역할을 함
Genie 3가 잠재 공간에서 다음 프레임을 예측하듯, 인간의 뇌도 ‘Active Inference’를 통해 기대와 실제 경험의 차이를 최소화하려 함
결국 현실감이란 외부 세계의 직접 기록이 아니라, 끊임없이 보정되는 상호작용적 시뮬레이션이라는 관점임- 신경학적으로는 이미 꽤 확립된 개념임
예를 들어 꿈은 감각 입력이 차단된 상태에서 내부 모델이 자유롭게 작동하는 사례로 볼 수 있음 - 관련 영상으로 kurzgesagt의 Why Your Brain Blinds You For 2 Hours Every Day와 그 출처 모음을 추천함
- Anil Seth의 Your Brain Hallucinates Your Conscious Reality도 같은 맥락임
이런 주제는 오래전부터 철학과 종교에서도 다뤄졌으며, 인간의 의식이 스스로의 투사로 현실을 구성한다는 점이 흥미로움 - 스마트폰 사진의 후처리도 비슷한 비유로 볼 수 있음
어느 순간부터 사진이 아니라 계산된 인상주의 작품이 되는가 하는 질문이 떠오름 - Donald Hoffman의 『The Case Against Reality』도 함께 읽어볼 만함
- 신경학적으로는 이미 꽤 확립된 개념임
-
많은 사람들이 Genie를 단순히 게임이나 영화용 제품으로 오해하는 듯함
하지만 진짜 목적은 차세대 AI와 로봇의 ‘상상력 엔진’ , 즉 행동 결과를 시뮬레이션해 의사결정을 돕는 세계 모델을 만드는 것임- 나도 동의함. LLM에는 세계 모델이 없다고들 했는데, 이제 그다음 단계로 나아가는 셈임
현실 영상을 일정 프레임 속도로 인코딩해 모델의 상상력을 현실 데이터로 정착시키고, 가능한 행동 시나리오를 분기해 평가한 뒤 최적의 예측을 모터로 보내는 구조를 상상함
타이밍 조정이 쉽진 않겠지만, 큰 틀은 이미 보임 - 약간 다른 의견임. 진짜 상상력을 원한다면 굳이 비디오 디코딩이 필요 없다고 생각함
Genie는 인간이 이해하고 디버깅할 수 있는 인터페이스로서 비디오를 생성하는 것임
즉, 연구자용 AI 실험 게임이라는 점에서 목적이 다름 - 하지만 이런 구조는 비용이 너무 큼. 로보틱스에는 전혀 다른 아키텍처가 필요할 것 같음
- 인스타그램도 처음엔 친구들과 사진을 공유하는 앱이었지만, 지금은 중독적 플랫폼이 되었음
Genie가 VR과 결합되면 비슷한 디스토피아적 전환점이 올 수도 있음 - 이런 환경 매핑과 AI의 대체 결과 생성은 결국 홀로덱 개념임
하지만 나는 여전히 현실의 위험과 생동감을 선호함
- 나도 동의함. LLM에는 세계 모델이 없다고들 했는데, 이제 그다음 단계로 나아가는 셈임
-
Genie 공개가 정말 반가움
초기 사용자들의 흥미로운 영상들이 있음:
도시 탐험, 헬리콥터 시뮬레이션, 우주정거장과 던킨도너츠, 노트북 시뮬레이션, 수달 조종사- 나도 얼리 테스터로 참여했음
달 위를 걷거나, 221B Baker Street에서 Holmes와 Watson을 만나거나, 타이베이 야시장 속 거대한 버블티로 탐험하는 등 다양한 세계를 만들어봄
시연 영상도 있음
아직은 실험적 프로토타입이지만, 미래의 단서처럼 느껴짐 - 기술적으로는 놀랍지만, 몰입감은 부족함
Unreal 5 자산을 몇 단어로 생성할 수 있다는 건 멋지지만, 실제로는 그렇게 놀고 싶진 않음
게다가 초당 계산 비용을 지불할 생각도 없음 - 공룡 시대를 재현한 버전이 나오면 정말 보고 싶음
- Project Genie에 대한 의견이 궁금함
- 나도 얼리 테스터로 참여했음
-
Genie의 진짜 돌파구는 뒤돌아볼 수 있다는 점임
다른 연구소의 시뮬레이터들은 시야 밖의 일관성을 유지하지 못했는데, Genie는 그걸 해결함- Fei-Fei Li 연구실은 진짜 3D 세계를 생성한다고 들었음
다만 그 방식은 애니메이션 표현에는 제약이 있을 듯함 - ML 연구자들이 이렇게 늦게서야 명시적 캐시 구조의 필요성을 깨달은 게 놀라움
- 그렇다면 일주일 뒤에 같은 장소로 돌아가면 그 장면이 유지될까 궁금함
- Fei-Fei Li 연구실은 진짜 3D 세계를 생성한다고 들었음
-
Project Genie 팀의 인터뷰 영상이 있음
YouTube 링크
Genie는 실시간으로 무한히 다양한 포토리얼 세계를 생성·탐험·상호작용할 수 있는 연구 프로토타입임
수동적 비디오 생성에서 인터랙티브 미디어로의 전환, 세계 일관성과 메모리 유지의 기술적 도전, 그리고 AI 에이전트의 훈련장으로서의 역할을 다룸 -
이런 기술을 볼수록 오히려 현실 세계에서 시간을 보내고 싶음
화면을 끄고 내가 사랑하는 일들을 다시 하고 싶음- 나도 같은 느낌임. 영상 속에서 키보드를 두드리는 사람을 보는 순간, 뭔가 씁쓸함이 밀려옴
실제 촬영된 장면으로 만들어진 가상 세계가 오히려 슬픔을 줌 - AI를 사랑하지만, 오히려 이런 기술이 진짜 인간 경험의 가치를 일깨워주길 바람
- 평생 기술 업계에서 일했지만, 이제는 모든 걸 꺼버리고 싶음
- 아이러니하게도 이런 발전이 시뮬레이션 가설을 더 믿게 만듦
어쩌면 현실도 이미 시뮬레이션일지도 모름 - 하늘이 파랗고 햇살이 좋은데, 귀찮으니 그냥 산책 시뮬레이션이나 돌려볼까 하는 생각이 듦
- 나도 같은 느낌임. 영상 속에서 키보드를 두드리는 사람을 보는 순간, 뭔가 씁쓸함이 밀려옴
-
예전에 HN에 올라온 공원 비디오로 세계 모델을 학습한 개인 프로젝트가 떠오름
인터랙티브 데모도 있었는데, Genie는 그 아이디어를 한 단계 끌어올린 느낌임
블로그나 인디 데모들이 인용되지 않는 현실이 아쉬움- 맞음, 개념은 비슷하지만 규모의 극단이 다름
공원 모델은 500만 파라미터, 15분짜리 영상으로 학습되어 아이폰에서도 실행됨
반면 Genie 3는 수십억 파라미터로 수백만 시간의 영상을 학습한 초대형 모델임
중간 규모의 모델들도 등장 중이라, 1~2년 내에는 게이밍 GPU로 로컬 실행이 가능할 듯함
예: LingBot-World, Waypoint 1
- 맞음, 개념은 비슷하지만 규모의 극단이 다름
-
이 모든 게 영화 『The Thirteenth Floor』 의 주제와 닮아 있음
예고편 링크 -
누가 이 GIF로 세계 하나 만들어줬으면 좋겠음
-
예전부터 궁금했음. 왜 Meta(FB) 는 세계 모델에 적극적이지 않은가
이게야말로 메타버스 비전의 핵심인데, 오히려 Yann LeCun을 내보냈음- LeCun은 성과 부재와 고집스러운 연구 방향으로 내부 균열을 초래했음
LLM 경쟁에 참여하지 않고, 검증되지 않은 이론에만 몰두함
그 결과 Meta는 AI 선두 그룹에서 밀려났고, LeCun은 명예를 지킨 채 떠난 셈임 - JEPA와 Genie의 차이를 이렇게 비유함
JEPA는 소설가처럼 “개가 우체부에게 달려간다”고 요약함
Genie는 화가처럼 다음 장면을 직접 그려야 이야기가 존재함
즉, Genie는 프레임 단위의 생성, JEPA는 개념 단위의 예측임 - 완전히 동의함. 세계 모델이야말로 Reality Labs 투자의 구원 카드임
이를 제품화하지 못하면 프로젝트 자체를 접어야 함 - 실패 사례는 공개되지 않음. 실제로 Meta가 어디에 투자했는지 불분명함
- 근본적으로 사람들은 VR 헤드셋 착용을 좋아하지 않음
아무리 콘텐츠가 좋아도 여전히 니치 시장에 머물러 있음
- LeCun은 성과 부재와 고집스러운 연구 방향으로 내부 균열을 초래했음