# 공간 지능은 AI의 다음 개척지

> Clean Markdown view of GeekNews topic #24304. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=24304](https://news.hada.io/topic?id=24304)
- GeekNews Markdown: [https://news.hada.io/topic/24304.md](https://news.hada.io/topic/24304.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-11-12T07:33:20+09:00
- Updated: 2025-11-12T07:33:20+09:00
- Original source: [drfeifei.substack.com](https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence)
- Points: 14
- Comments: 1

## Summary

AI의 다음 진화는 언어가 아니라 **공간 지능(spatial intelligence)** 에 있습니다. World Labs가 개발 중인 **월드 모델(world model)** 은 텍스트·이미지·행동 입력을 통합해 **물리적으로 일관된 3D 세계를 생성·유지**하는 새로운 형태의 생성 AI로, 로보틱스부터 콘텐츠 제작까지 현실과 가상의 경계를 허물 잠재력을 보여줍니다. 이는 단순한 시각 생성이 아니라, **거리·방향·동역학**을 이해하는 AI를 향한 시도이자 인간의 **창의성과 탐구 능력**을 확장하는 기술적 전환점입니다. 언어 모델의 시대를 지나, 이제 AI가 ‘공간’을 이해하기 시작했다는 점이 가장 흥미롭습니다.

## Topic Body

- **공간 지능(spatial intelligence)** 은 AI가 현실과 가상 세계를 이해하고 상호작용하는 방식을 근본적으로 바꾸는 핵심 영역  
- 현재의 **대규모 언어 모델(LLM)** 은 언어 처리에는 뛰어나지만, 거리·방향·물리적 일관성 등 공간적 추론 능력은 인간 수준에 미치지 못함  
- 이를 해결하기 위한 새로운 접근으로 **‘월드 모델(world model)’** 이 제안되며, 이는 생성적·다중모달·상호작용적 특성을 갖춘 차세대 생성 모델 구조  
- World Labs는 이러한 모델을 개발 중이며, **‘Marble’** 이라는 초기 버전은 다중 입력을 기반으로 일관된 3D 환경을 생성·유지하는 기능을 시연함  
- 공간 지능은 **창의성, 로보틱스, 과학·의료·교육** 등 다양한 분야에서 인간의 능력을 증강시키는 AI 발전의 다음 단계임  
  
---  
  
### 공간 지능의 개념과 중요성  
- 인간의 지능은 **지각과 행동의 순환(perception-action loop)** 을 기반으로 진화했으며, 공간 지능은 이를 가능하게 하는 핵심 요소임  
  - 자동차 주차, 물건 잡기, 복잡한 환경 내 이동 등 일상적 행동 모두 공간적 추론에 의존  
  - 언어 이전의 아동 발달 과정에서도 환경과의 상호작용을 통해 공간 감각을 습득  
- **창의성과 상상력** 또한 공간 지능에 기반함  
  - 동굴 벽화에서 영화, 게임, 가상현실(VR)에 이르기까지 인간은 공간적 사고를 통해 세계를 표현  
  - 산업 설계, 디지털 트윈, 로봇 훈련 등에서도 공간 시뮬레이션이 핵심 역할 수행  
- 역사적으로도 공간 지능은 문명 발전의 원동력이었음  
  - 에라토스테네스의 지구 둘레 계산, 스피닝 제니의 구조 혁신, DNA 구조 발견 등은 모두 공간적 사고의 결과  
- 현재 AI는 시각 인식과 생성 능력에서 진보했지만, **거리·방향·물리 법칙 이해** 등 공간적 일관성은 여전히 부족  
  - 최신 멀티모달 모델도 물체 회전, 미로 탐색, 물리적 예측 등에서 낮은 성능  
  - 이 한계로 인해 로봇 제어, 자율주행, 몰입형 학습 등 실제 세계 응용이 제약됨  
  
### 월드 모델: 공간 지능을 구현하는 새로운 AI 구조  
- 공간 지능을 구현하기 위해서는 LLM보다 더 복합적인 **월드 모델(world model)** 이 필요함  
  - 현실·가상 세계의 **의미적, 물리적, 기하학적, 동적 복잡성**을 통합적으로 이해·생성·상호작용해야 함  
- 월드 모델의 세 가지 핵심 능력  
  1. **생성적(Generative)** : 지각적·기하학적·물리적으로 일관된 세계를 생성  
     - 현실 또는 가상 공간을 시뮬레이션하며, 현재 상태와 과거 상태 간의 연속성 유지  
  2. **다중모달(Multimodal)** : 이미지, 비디오, 텍스트, 제스처 등 다양한 입력을 통합 처리  
     - 시각적 충실도와 의미 해석 능력을 동시에 갖추어야 함  
  3. **상호작용적(Interactive)** : 입력된 행동에 따라 다음 상태를 예측·생성  
     - 목표 상태가 주어질 경우, 그에 맞는 세계 변화와 행동까지 예측 가능해야 함  
- 언어 생성보다 훨씬 복잡한 **물리 법칙·기하 구조·동역학**을 일관되게 반영해야 하므로 기술적 난도가 매우 높음  
  
### World Labs의 연구와 기술적 과제  
- World Labs는 2024년 초 설립되어 **공간 지능 중심의 월드 모델 연구**를 진행 중  
- 주요 연구 주제  
  - **보편적 학습 함수 정의:** LLM의 ‘다음 토큰 예측’처럼 단순하면서도 물리·기하 법칙을 반영하는 학습 목표 수립  
  - **대규모 학습 데이터:** 인터넷 이미지·비디오, 합성 데이터, 깊이·촉각 정보 등 다중 소스 활용  
  - **새로운 모델 구조:** 3D·4D 인식 기반 토크나이징과 메모리 구조 연구  
    - 예: **RTFM(Real-Time Frame-based Model)** 은 공간적 프레임을 메모리로 활용해 실시간 생성과 일관성 유지  
- 초기 결과물인 **Marble**은 다중 입력으로 일관된 3D 환경을 생성·유지하며, 일부 사용자에게 시연됨  
  - 향후 공개를 목표로 개발 중  
  
### 공간 지능의 응용 영역  
#### 창의성 및 콘텐츠 제작  
- **Marble**은 영화 제작자, 게임 디자이너, 건축가 등에게 **완전 탐색형 3D 세계 생성** 기능 제공  
  - 예산·지리 제약 없이 다양한 장면과 시점을 실험 가능  
  - 스토리텔링, 예술, 교육, 설계 등에서 몰입형 경험 창출  
- **공간적 내러티브 설계**를 통해 건축·산업·패션 디자인의 시각화 과정 단축  
- **VR·XR 기반 몰입형 경험** 확장으로 개인 창작자도 자신만의 세계를 구축 가능  
  
#### 로보틱스  
- 로봇 학습의 병목은 **훈련 데이터 부족**이며, 월드 모델이 이를 보완  
  - 시뮬레이션과 현실 간 격차를 줄여 다양한 환경에서 학습 가능  
- **인간 협력형 로봇** 구현을 위해 공간 지능이 필수  
  - 실험실·가정 등에서 인간의 목표와 행동에 공감하며 협력하는 로봇 개발  
- **다양한 형태의 로봇**—나노봇, 소프트 로봇, 심해·우주용 로봇—의 훈련 환경과 벤치마크 구축에도 활용  
  
#### 과학, 의료, 교육  
- **과학 연구:** 다차원 시뮬레이션으로 실험 가속화, 기후·재료 연구 등에서 계산 비용 절감  
- **의료:** 약물 탐색, 영상 진단, 환자 모니터링 등에서 공간 지능 기반 AI의 활용 확대  
- **교육:** 복잡한 개념을 시각화하고, 학습자 맞춤형 몰입형 학습 환경 제공  
  - 학생은 세포 구조나 역사적 사건을 탐험하고, 전문가들은 현실감 있는 시뮬레이션으로 기술 연습 가능  
  
### 인간 중심의 AI 발전 비전  
- AI 개발의 목적은 **인간 능력의 증강**이며, 대체가 아님  
  - 창의성·생산성·연결성·삶의 만족도를 높이는 방향으로 발전해야 함  
- 공간 지능은 **인간의 상상력·돌봄·탐구 능력**을 확장하는 기술로 제시됨  
- 이러한 비전을 실현하기 위해 연구자·기업·정책 입안자 등 **AI 생태계 전체의 협력**이 필요함  
  
### 결론  
- AI는 이미 사회 전반을 변화시켰지만, **공간 지능**은 그 다음 단계의 혁신으로 제시됨  
- 월드 모델을 통해 현실 세계와 조화롭게 상호작용하는 **공간적으로 지능적인 기계** 개발이 가능해짐  
- 이는 질병 연구, 스토리텔링, 돌봄 등 인간의 핵심 활동을 향상시키는 기술적 전환점으로 평가됨  
- 인간 지능의 진화가 공간 지능에서 시작된 것처럼, **AI의 완성 또한 공간 지능으로 완결될 것**이라는 비전 제시

## Comments



### Comment 46211

- Author: neo
- Created: 2025-11-12T07:33:21+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=45880939) 
- 글을 읽어보니 이들이 실제로 **무엇을 이해하고 있는지** 잘 모르겠음  
  노트에는 실질적인 정보가 거의 없고, 단지 “Imagenet처럼 공간 데이터를 모은다”는 수준임  
  공간 지능을 연구하는 사람들은 주로 **신경과학** 쪽에 있음  
  내가 쓴 [요약 논문](https://arxiv.org/abs/2210.12068)에서는 **entorhinal cortex**, **grid cell**, 좌표 변환이 핵심일 수 있다고 설명했음  
  모든 동물은 실시간으로 좌표를 변환해 세상을 탐색하며, 인간은 그중에서도 가장 많은 좌표 표현을 가짐  
  인간 수준의 지능이란 언제, 어떻게 좌표계를 변환해 유용한 정보를 뽑아내는지를 아는 것이라 생각함  
  LLM 붐 이전에 쓴 글이지만 여전히 이 방향이 맞다고 믿음
  - 1990년대에 비슷한 생각을 했었음  
    충돌 감지, 물리 기반 애니메이션, 비선형 방정식 풀이, 거친 지형에서의 **다리 달린 주행** 연구로 이어졌지만 AI는 아니었음  
    요즘은 엄청난 연산을 투입해 학습 시스템이 공간 세계의 내부 표현을 스스로 찾길 기대하는 식임  
    로봇 보행은 꽤 좋아졌지만 **비정형 환경에서의 조작(manipulation)** 은 여전히 형편없음  
    1960년대 Stanford의 McCarthy 연구실 영상과 비교해도 큰 차이가 없음  
    예전엔 인간 수준보다 **쥐나 다람쥐 수준의 지능**을 먼저 달성해야 한다고 생각했는데, 오히려 추상적 AI가 먼저 나와 놀랐음  
    최근엔 짧은 영상을 보고 다음 장면을 예측하는 **비디오 생성** 연구가 흥미로움  
    상식(common sense)의 핵심은 바로 “다음에 무슨 일이 일어날지”를 짧은 시간 안에 예측하는 능력이라 생각함
  - 당신과 **Moser 부부(노벨상 수상자)** 모두 grid cell이 동물이 세상 속 위치를 이해하는 핵심이라 믿는다는 점이 흥미로움  
    관련 [노벨상 보도자료](https://www.nobelprize.org/prizes/medicine/2014/press-release/)도 참고할 만함
  - 몇 단락 읽다가 ‘공간 지능’의 정의가 안 나와서 포기했음  
    “transform”, “revolutionize”, “next frontier”, “North Star” 같은 **VC식 유행어**가 너무 많아 신뢰가 떨어짐
  - 논문 잘 읽었음, 참고문헌이 특히 흥미로웠음  
    2018년 Nature의 ["Vector-based navigation using grid-like representations in artificial agents"](https://www.nature.com/articles/s41586-018-0102-6),  
    2024년 Nature의 ["Modeling hippocampal spatial cells in rodents navigating in 3D environments"](https://www.nature.com/articles/s41598-024-66755-x),  
    그리고 [DeepMind의 grid-cell 시뮬레이션](https://github.com/google-deepmind/grid-cells)도 함께 보면 좋음  
    신경과학에서는 꽤 오래전부터 공간 인식 연구를 해왔음
  - 결국 중요한 건 이런 연구에서 **실질적인 통찰**을 얻을 수 있느냐임  
    생물학적 시스템을 그대로 복제하는 건 거의 실패함  
    CNN은 뇌에서 영감을 받았지만 구조적으로는 다르고, LLM은 인간 뇌와 거의 유사하지 않음  
    LLM의 기능적 유사성은 뇌 구조 모방이 아니라 **훈련 과정**에서 비롯된 것임

- 이건 좁은 가상 세계에서 작동하는 **시뮬레이션 시스템**에 불과함  
  이런 시스템은 현실 세계의 복잡한 동역학을 학습하는 데 거의 도움이 안 됨  
  가상 세계 모델은 물리 세계 모델의 **단순화된 특수 사례**일 뿐이며, 이 회사가 공간 지능 분야에서 실질적 진전을 이룰 증거는 보이지 않음

- 최근 **agentic coding**을 CAD에 적용해 놀라운 경험을 했음  
  3D 프린트 모델에 나사산을 추가해야 했는데, 계산기하학을 이용해 에이전트가 모델을 ‘느낄 수 있게’ 함  
  구체 반경을 모델 전체에 컨볼루션해 포트 위치를 찾고 나사산을 추가했음  
  몇 번의 시도 끝에 성공했고, 이 경험으로 모델이 **‘촉각적 감각’을 가져야 함**을 깨달음  
  최종적으로 3D 모델은 코드로 구현되어 검증 가능해야 했음
  - **Generative CAD**의 잠재력은 엄청남  
    OpenSCAD로 실험해봤지만 현재 모델들은 **형상 연결의 상식(common sense)** 이 부족함  
    코드 기반 CAD 데이터셋이 더 많아지면 훨씬 쓸모 있을 것임  
    그렇지 않다면 결국 **물리 시뮬레이션 기반 학습**이 필요함
  - 혹시 **CadQuery**를 썼는지 궁금함, 배운 점을 정리한 글이 있다면 보고 싶음
  - 구현 과정을 더 자세히 알고 싶음, 글로 정리할 계획이 있는지도 궁금함
  - 나도 **생성형 3D 객체** 접근을 실험 중이라 더 듣고 싶음
  - LLM 프롬프트와 달리 **기하학적 객체를 텍스트로 설명**하는 건 정말 어려움  
    “그거 거기 두지 말고, 저기 두라” 수준의 모호함이 생김

- **Genie 3**는 그녀가 말한 목표, 즉 일관된 물리 법칙을 가진 **제어 가능한 세계 모델**을 어느 정도 달성했음  
  형제 모델 **Veo 3**는 [공간 문제 해결 능력](https://video-zero-shot.github.io/)도 보여줌  
  Genie와 Veo는 World Labs보다 그녀의 비전에 훨씬 가까움  
  하지만 글에서는 Google 모델을 전혀 언급하지 않아 **자사 홍보용 글**처럼 느껴짐
  - **Gemini ER**도 실제 세계에서 공간적으로 작동하는 모델임  
    [DeepMind Gemini Robotics ER](https://deepmind.google/models/gemini-robotics/gemini-robotics-er/) 참고

- 현재 AI는 웹에서만 학습하고, 인간과의 **상호작용으로부터 배우지 못함**  
  인간은 평생의 맥락과 기억을 통해 배우지만, AI는 대화가 끝나면 그 맥락이 사라짐  
  개인화된 **거대한 컨텍스트 메모리**가 있다면 훨씬 가치가 높아질 것임  
  - Google Research의 [Nested Learning](https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/)이 이런 문제의 해결책일 수 있음  
    기존 방식은 추가 학습 시 **catastrophic forgetting**이 발생하지만, Nested Learning은 여러 작은 모델로 나눠 재학습 시 다른 부분을 망치지 않게 함
  - 인간의 ‘맥락’은 수십억 년의 **진화적 축적**의 결과임  
    우리가 가진 공간 이해는 우주 규모의 양자 시뮬레이션처럼 방대함  
    반면 오늘날 우리가 완전하게 시뮬레이션할 수 있는 건 **원자나 세포 수준**에 불과함

- 이 글을 읽으며 인간이 자연을 ‘앞질러 생각한’ 첫 사례가 **바퀴**라는 생각이 들었음  
  자연은 울퉁불퉁하지만 인간은 평평한 도로를 만들어 굴림을 가능하게 했음  
  과학과 기술의 발전은 세대 간 **패턴 직관의 전승**을 가능하게 한 또 다른 예임  
  ‘초지능’이 속도 외의 형태로 가능한지는 모르겠지만, **3차원적 사고 능력**은 AI가 인간과 자연을 넘어서는 데 필수적일 것임  
  - 인간의 몸은 세포들이 협력하는 **조직화된 시스템**임  
    혈관이 영양과 신호를 전달하듯, 도로도 자원을 운반함  
    어쩌면 자연은 그 조직 능력을 **종 단위로 확장**했을 뿐이며, 인간이 자연보다 위에 있다고 말할 근거는 약함

- 인간의 인지는 **공간적 지능** 위에 세워진 구조물임  
  추상적 사고만으로 이뤄진 게 아니라 **감각에 기반한 통합적 경험**임  
  진화는 상징적 뇌가 아니라 **감각의 융합**을 통해 일반화를 이뤘음  
  지능은 알고리즘이 아니라 **감각 간의 일관된 조화**에서 비롯됨  
  감각의 완전성이야말로 앞으로 나아갈 방향임

- LLM의 **공간 추론** 현황을 정리한 [블로그 글](https://arcturus-labs.com/blog/2025/03/31/visual-reasoning-is-coming-soon/)을 추적 중임  
  결론은… 아직 갈 길이 멂

- **Spatial token**이 도움이 될 수는 있지만 필수는 아님  
  많은 물리 문제는 여전히 **종이와 펜**으로 풀 수 있음  
  512×512 이미지를 85개의 토큰으로, 비디오는 초당 263개의 토큰으로 표현할 수 있다는 점이 놀라움  
  이는 **메모리 대 임베딩**의 새로운 균형 문제로 보임  
  “머릿속에서 사과를 회전시킬 수 있느냐”는 질문처럼, 공간 임베딩은 **직관적 동역학 이해**를 가능하게 할 것임  
  우리 팀 FlyShirley에서도 **조종사 훈련 시뮬레이션**을 통해 이 영역을 연구 중이며, Fei-Fei의 모델을 시도해볼 계획임

- 영상 기반 학습과 추론은 **막대한 연산 자원**이 필요하므로,  
  이런 접근이 **에이전트 어시스턴트**(코딩, 마케팅, 일정 관리 등)에 실제로 도움이 될지는 의문임  
  오히려 **로보틱스 분야**에서 더 유리한 계산 구조일 것이라 생각함
