13P by GN⁺ 3일전 | ★ favorite | 댓글 1개
  • 텍스트 프롬프트만으로 실시간 인터랙티브 3D 환경을 생성하는 최초의 범용 월드 모델
  • 24fps, 720p 해상도, 수 분간 일관성 유지가 가능하며, 기존 Genie 2 대비 상호작용성·사실감·지속성이 대폭 개선됨
  • 물리 현상, 생태계, 애니메이션, 역사·지리적 배경 등 다양한 주제의 가상 세계를 자연스럽고 다채롭게 생성할 수 있음
  • Promptable world events 기능을 통해 사용자가 텍스트로 날씨 변화, 객체 추가 등 동적 이벤트를 실시간으로 제어할 수 있음
  • 에이전트 연구용으로 설계되어 SIMA 에이전트 등과 연계, 장기 목표 달성이나 복잡한 행동 시퀀스 테스트가 가능함

Genie 3: 월드 시뮬레이션의 혁신

월드 모델의 발전 배경

  • DeepMind는 AI 에이전트 학습, 오픈엔디드 러닝, 로보틱스 등에서 시뮬레이션 환경 연구를 선도해왔음
  • 월드 모델은 환경의 변화와 에이전트의 행동 결과를 예측·재현할 수 있는 AI 시스템으로, AGI로 가는 중요한 중간 단계로 평가받음
  • Genie 1, 2를 거쳐, Genie 3은 실시간 상호작용성과 시각적·물리적 일관성을 동시에 제공하는 최초의 월드 모델임

Genie 3의 주요 기능

  • 자연 및 물리 현상 모델링

    • 물, 빛, 다양한 환경 상호작용 등 실제 세계의 자연 현상을 프롬프트만으로 자연스럽게 구현함
  • 복잡한 생태계와 애니메이션

    • 동물 행동, 식물의 성장 등 생태계의 역동성상상력 기반 애니메이션 세계 생성이 가능함
  • 역사적·지리적 배경 구현

    • 지리적·시대적 경계를 넘어선 다양한 공간을 가상 환경으로 실시간 구축할 수 있음
  • 실시간 상호작용 및 컨트롤

    • 사용자 입력에 따라 24fps, 720p로 즉각적 세계 변화를 시각화함
    • 과거 방문했던 위치·상태를 기억하여, 수 분간 물리적·시각적 일관성을 유지함
  • Promptable World Events

    • 텍스트 프롬프트로 날씨 변화, 객체·캐릭터 추가 등 환경 변화 이벤트를 실시간 발생시킬 수 있음
    • 탐색 컨트롤 외에도, “만약에” 시나리오나 비일상적 상황 생성 등 넓은 응용 가능성을 제공함
  • 에이전트 연구 및 실험

    • SIMA 등 3D 환경 특화 AI 에이전트가 Genie 3 내 세계에서 복합적인 목표를 추구하며, 장기 시퀀스 수행 능력을 검증함
    • 에이전트의 목표는 Genie 3에 공유되지 않고, 오직 행동 시퀀스와 월드 시뮬레이션으로 결과를 생성함

기술적 도전과 성과

  • 프레임별 오토리그레시브 생성 과정에서, 사용자 입력 및 과거 시퀀스를 모두 실시간으로 반영해야 하므로 고난도 기술이 요구됨
  • 기존 NeRF, Gaussian Splatting 등과 달리, Genie 3은 명시적 3D 표현이 없는 순수 생성 기반으로, 훨씬 더 역동적이고 풍부한 환경을 구현함

한계와 과제

  • 행동 범위 제한: 프롬프트 기반 환경 변화는 다양하지만, 직접 수행 가능한 행동은 아직 제한적임
  • 다중 에이전트 상호작용: 복수 에이전트 간 상호작용의 정확한 시뮬레이션은 여전히 연구 과제임
  • 실세계 위치 재현 한계: 실제 지리적 공간의 완벽한 정확도는 제공하지 않음
  • 텍스트 렌더링 한계: 명시적으로 입력한 경우에만 명확한 텍스트 표현이 가능함
  • 상호작용 시간 한계: 현재는 몇 분 내외의 지속적 상호작용만 지원함

책임과 공개 범위

  • Genie 3의 오픈엔디드·실시간 생성 특성은 새로운 안전·윤리 문제를 동반하므로, Responsible Development & Innovation Team과 긴밀히 협력함
  • 초기에는 한정된 연구자·창작자 그룹에만 연구 프리뷰 형태로 제공하며, 피드백을 통해 점진적 확대 및 리스크 대응 방안 마련 예정임

미래와 활용 전망

  • Genie 3는 교육·훈련·AI 에이전트 학습·성능 검증 등 다양한 분야에서 새로운 가능성을 제시함
  • AGI(범용 인공지능) 연구에서 핵심적 역할을 기대하며, 인류에 유익한 방향으로 안전하게 개발될 예정임
Hacker News 의견
  • 혹시 이 분야에서 일하거나 전문성을 가진 분이 있다면, Genie 3가 어떤 기술과 아키텍처, 시스템 디자인, 컴퓨팅 요구사항으로 구현됐을지 추측해서 알려줄 수 있는지 궁금함. 현재 공개된 정보가 적어서, 특히 이 분야 전문가들이 어떻게 구현됐을지 예상하거나 추론하는 방식을 듣고 싶음

  • 몇 분 동안의 일관성을 실시간 720p로 구현하는 게 가능하다는 게 전혀 예상 못 했던 수준임. Genie 3의 일관성은 모델 확장으로 생겨난 emergent capability라고 들었음. 즉, 아키텍처를 일부러 나아지게 한 게 아니라 모델을 크게 만들다 보니 우연히 생긴 성능 같음. 제한사항을 직접 써본 사람이 정리해줌(X 링크):

    • 물리 시뮬레이션은 여전히 어렵고, 심리학에서 쓰는 직관적 물리 실험(블록 쌓기 등)에서 실패 케이스가 명확히 존재함

    • 사회적 상호작용이나 여러 에이전트가 얽히는 상황이 어렵고, 1:1 대결 같은 게임은 잘 되지 않음

    • 복잡한 지시사항이나 게임 논리(키를 모아 문 열기 등)도 잘 안 됨

    • 액션 공간 역시 제한적임

    • 진짜 게임 엔진까지는 아직 멀었지만, 분명히 미래의 단면을 직접 볼 수 있는 기회임 이런 한계에도 불구하고, 월드 모델이 앞으로 로보틱스와 실제 세계의 AI에서 생각보다 더 중요한 역할을 할 것 같다는 느낌을 줌. 미래의 로봇들은 꿈에서 배우는 시대가 될지도 모름

    • 멀티플레이어가 단순히 로그리스틱, 기술 측면뿐만 아니라 게임 플레이 관점에서도 어떻게 가능할지 정말 궁금함

    • 게임이 분명히 주요 활용 사례지만, 근본적으로는 Google의 창고 로봇 트레이닝용 synthetic data generation을 목적으로 개발된 것 같음. 관련 소식은 The Guardian 기사Gemini Robot 출시 4개월 전 HN 글 참고바람

    • 기술 발전 속도가 이렇게 빠를 줄은 예상 못 했음. 내가 몇 달 전에 월드 모델 출력 조작이 AAA 게임의 다음 단계라는 글을 썼는데(블로그 글), 그때만 해도 몇 년은 남았다고 생각했음. Rockstar가 GTA6 개발 중 월드모델에 현혹될 거란 농담도 했지만, 이제 그게 그리 이상하게 들리지 않음. GameNGen 등장 이후 진행 상황을 보면, GTA6 출시보다 빠르게 역전될 수도 있겠다는 생각이 듦

    • 이 정도 수준이면 시각적으로는 현실과의 격차(reality gap)를 메울 수 있어서 로보틱스에 아주 좋은 툴이 될 것 같음. 물론 물리 시뮬레이션은 여전히 별개의 과제임

    • Bitter lesson이 또 한 번 적용된 순간임

  • 정말 고무적인 발전임, 아마 Demis가 지난달에 예고했던 게 이거였던 것 같음(관련 트윗). 공개된 클립을 보고 기술 디테일을 몇 가지 추측해보면:

    1. 텍스처가 4프레임마다 '점프'하는 현상이 있는데, 이건 아마 4배 시간축 다운스케일된 VAE로, 최소 4프레임 인터랙션 레이턴시가 있음을 의미함(VAE가 컨트롤 컨디셔닝을 지원하지 않는 한). 실시간 영상은 못 봤지만, 한 장면에서 화면 녹화와 키보드 b-roll을 섞어서 보여줌
    2. 빠른 모션에서 16x16 스페이셜 블로킹이 보여서, VAE의 공간축에서도 16x16 다운스케일이 추측됨. 첫 번째와 결합하면 초당 21,600 토큰, 분당 약 130만 토큰 처리
    3. 각 클립의 첫 프레임이 이후 프레임들보다 더 선명하고 비디오게임스럽지 않게 보이는데, t2i(텍스트 투 이미지) + i2w(이미지 투 월드)가 같이 적용된 듯함. t2i는 일반 데이터로, i2w는 라벨된 컨트롤로 게임 데이터로 파인튜닝한 시스템 추정. 시간이 지날수록 콘트라스트, 채도가 강해지는 경향이 있는데, 다른 오토리그레시브 비디오 모델보단 덜 심함 (예시 영상)
    • 레이턴시 관련해서는 이 실시간 게임플레이 영상에서 키프레스와 피사체 움직임 사이가 약 1.1초(30fps에서 약 33프레임) 정도임을 계산했음. Genie 3 리서치 프리뷰 사용자의 후기에서는 "일부 컨트롤 지연이 있지만 이는 모델 자체보다는 서비스를 제공하는 인프라 때문"이라고 들었다고 하니, 클라이언트/서버 스트리밍 구조에 기인한 레이턴시가 많을 것임
  • 어떻게 동작하는지 더 공개해줬으면 함. 연구자용 논문 하나라도 있었으면 좋겠음. 내 추측으로는 기존 비디오 생성 모델과 유사하지만 입력을 movement direction, viewangle 등으로 컨디셔닝하는 방식인 듯함. 상대적 입력이 아닌 절대 입력이고 state simulation이 일부 포함되어 있을 수도 있다고 생각함(하지만 데모 영상에 물체 충돌 물리효과가 있는 걸 보면 아닐 수도 있고, 또는 2D에서 up axis가 생성되는 걸 수도 있음). 분명 게임 엔진 기반 데이터로 학습한 듯, 스크린스페이스 반사 artifact들이 드러나 있음. 포토스캔/스플렛 기반 데이터도 추가한 듯하고, 비현실적 요소의 해상도는 특히 낮아보임. 데모에서 눈에 띄는 불일치 현상도 존재함:

    • 윙수트 장면 화질이 더 낮아 보임(아마 고해상도 이미지로 초기화?)
    • 정원 데모에서 각 variation마다 geometry가 달라 보임. 두 번째 호스는 한 버전에만 나타나며, 처음 볼 때마다 새로운 geometry가 즉석 생성되는 듯함
    • 학교 데모에서는 창밖에 반쪽만 있는 차가 눈에 띄고, 반복 패턴이 나타남(transformer의 파라미터가 적으면 무한 루프 패턴이 자주 생기는데, 이건 스케일 가능성이 있다는 의미기도. 안정성 위해 greedy sampling 사용하는 듯)
    • 박물관 씬에선 amethyst 박스의 이상한 반사, mammoth 뒷부분이 오른쪽 박스 가장자리에서만 반사 없이 나오다 박스를 통해 보일 때 갑자기 튀어나옴. tusk 반사도 갑자기 등장하는데, 이건 Fresnel 효과와 무관함
  • 진짜 인상적인데, 세부 디테일은 정말 부족함. 다른 댓글처럼 직접 써보지 못하면 의미 없다는 데엔 동의하지 않지만, 불과 몇 년 전엔 이런 발표라면 꼭 논문이 같이 나왔을 것이란 점에서 변화가 놀라울 뿐임. 지금은 논문 일부처럼 제작진, 데모, bibtex citation 등이 있지만 실제 연구 공유는 없음. 지인과 대화하다가, AI가 당장 할 수 있는 능력이 아니라, 순식간에 연구·학술 모드에서 '가치 추출'로 경제 논리가 앞서게 됐다는 점이 오히려 걱정임. 정책, 경제에 이걸 간접적으로나마 기반으로 삼는 게 위험성도 크고 말임. 상업화를 반대하는 건 아니지만, 연구논문인 듯한 제품 발표와 최근 학술 연구 지원 축소에 대한 수학자들의 경고가 동시에 나온다는 게 장기적으로 봤을 때 신뢰감을 약화시키는 현상임

  • 예측 기반으로 ‘다음 픽셀’을 뽑아내는 게 기존 방식대로 결정론적으로 장면을 빌드해 렌더링하는 것보다 낫다고 상상하는 게 아직도 어려움. 예를 들어 AI를 써서 텍스처, 모델, 모션 시퀀스를 만들고, 그래픽카드가 그걸 조합해서 장면을 렌더링하게 하면 유저가 wire 모델, 텍스처, 카메라 위치 등을 임의로 조작할 수 있음

    • 특정 수준 이상의 비주얼 퀄리티가 필요하면, 오히려 ‘다음 픽셀’ 예측이 기존 렌더보다 더 저렴해지는 순간이 옴. 모델이 표면에 무한히 줌인해서 그 안에 무엇이 있을지도 묘사(예측) 가능함. 전통적 렌더 방식으로는 도달하기 어려운 테크니컬 챌린지가 줄어듦
  • 혁명적인 느낌임. 올 거라 예상은 했지만, 정말 직접 마주하니 새로움. 한계는 있지만 시작점임. 지금까지 게임 엔진에선 엔지니어나 개발자가 도형(삼각형 등)을 픽셀에 딱 맞게 위치 조정하는 게 핵심이었는데, 이젠 프레임마다 컴퓨터가 직접 ‘그림’을 그려내는 느낌이고, 삼각형 연산도 없이 이미지를 뽑아냄

  • 텍스트 렌더링. 명확하고 읽을 수 있는 텍스트는 입력 월드 설명에 포함돼 있을 때만 주로 생성 가능 이미지 AI가 예전에 텍스트를 못 뽑을 때를 떠올리게 함. 그 문제도 곧 해결됐었으니, 시간 문제일 듯함

    • 그리고 손 그림 퀄리티도 10배 이상 나빠졌었음. 이제 손, 텍스트, 이미지 모두 좋아졌으니 결함 찾으려고 ‘월리 어디있니’ 놀이를 다시 하게 될 듯함. 언젠간 AI 워터마크가 픽셀 1/3 수준으로 숨겨진 무한 줌 비디오도 나올 거라 기대함. 개인적으로는 augmented video 분야가 더 흥미로움. stormtrooper vlog 스타일 영상처럼 Runway 등에서 시도 중인데 가격이 너무 비쌈

    • 텍스트 문제는 완전히 해결됐다고 보기엔 아직 이르고, 확실히 많이 나아졌지만 gpt-image-1도 텍스트 생성에서 가끔씩 실패함

    • 프롬프트와 생성된 칠판 내용이 대시(-) 유무에서 서로 다름

  • 현실의 감각이 여러 번 흔들린 프레젠테이션은 처음임. 정말 마인드가 털리는 경험이었음

  • 생성 AI의 진보가 갈수록 더 우울해짐. 창의성을 점점 더 빠르게 빼앗기는 느낌임. 기술이 이 상태에서 도구로 남아서 인간의 창작을 도와주는 선이라면 괜찮겠지만, 지금은 오히려 완전 대체를 지향하는 것처럼 보임. 물론 "직접 음악이나 그림을 만들 수도 있다"고 할 수 있지만, 역사적으로 예술작품은 오롯이 자기만을 위해 만든다기보다 남과 공유하려는 사회적 맥락에서 생겨남. 그래서 결국 우리에게 남겨지는 것은 무엇인가? 아직 자동화 안된 단순 노동 뿐이고, 그마저 자동화되면 인간은 뭘 남기는지 모르겠음. 결국 뇌에 퍼스널라이즈드 자극 줘서 도파민만 올리다 뇌가 망가지는 미래(이미 tiktok 류로 일부 실현 중)로 가는 건가? 모든 일이 자동화되면 그걸로 어떻게 경제 구조가 유지될 수 있는지 의문임. 어쩌면 Fermi paradox의 한 해석이 될 수도 있을 듯. 기술은 몰라서 손 댈 수 없고, 단순 기술 접근도 사라지고, 자원은 돌이킬 수 없이 고갈된 세상임. 그런 상황에서 어떻게 삶의 의미를 찾을 수 있을지 고민임

    • 예술작품이 대중과 공유하지 않고 오롯이 자신을 위해 만들어지지 않았다는 주장에는 수많은 유명 작가, 화가, 예술가들이 반례임. 카프카도 대표적이고, 중요한 작품들은 본인 사후와 본인 의사에 반해 뒤늦게 발견된 경우도 많음. 이게 나머지 논점을 지우진 않지만, 예술은 스스로를 위해서 존재했던 적이 항상 있었고 앞으로도 있을 것임

    • "이 시대에 산다는 데 기뻐하는 사람들의 주장을 받아들일 수 없다"는 말에 대해, 기쁨이란 느낌이고 논리적 행위가 아님. 희망과 상상력에서 오는 감정임. 낙관에 논리가 필요하지 않음. 그리고 삶의 의미를 찾는 문제는 LLM이 등장해서 처음 묻는 게 아니라, 수천 년 전에도 다뤘던 주제임. 예를 들어 [바가바드 기타]에서도 주인공이 "결과도 무의미한데 왜 행동해야 하나"를 신에게 묻지만 확실한 정답 없이 명상적 고민만 남음. 이 질문은 인공지능 이전부터 인간이 오랫동안 마주한 주제임

    • 오늘날 우리가 생존을 위해 걷거나 무거운 걸 들어야 할 필요가 없게 되면서 운동하지 않으면 점점 약해지는 것과 비슷함. 미래엔 대부분이 먹고 살기 위해 사고, 창작, 탐구 자체를 할 필요가 없어지면 점점 바보가 될 것임. 소수만이 두뇌를 연마하겠지만, 그들도 결국 기계보다 똑똑해질 수는 없을 것임. 마치 최고의 운동선수가 기계를 이길 수 없는 것처럼 변함

    • 이미 우리가 살고 있는 세상에도, 나보다 훨씬 연주를 잘하는 사람이 만든 곡들이 유튜브, 스포티파이에 쌓여있음. 그래서 이번 변화도 그 연장선에 있다고 생각함

    • 네 주장에 공감이 가지 않음. 나는 평생 수백 곡을 만들었지만 누구와도 공유하지 않았고, 모든 뮤지션 친구들도 마찬가지임. 창작 행위는 관객 유무와는 별개의 영역임. 실제로 오히려 정반대에 가까움. 그리고 음악 제작 역사도 새로운 기술로 점차 진입장벽을 낮추어 왔고, 과거엔 고가 장비 때문에 진입이 막혀 있었음