공간 지능은 AI의 다음 개척지
(drfeifei.substack.com)- 공간 지능(spatial intelligence) 은 AI가 현실과 가상 세계를 이해하고 상호작용하는 방식을 근본적으로 바꾸는 핵심 영역
- 현재의 대규모 언어 모델(LLM) 은 언어 처리에는 뛰어나지만, 거리·방향·물리적 일관성 등 공간적 추론 능력은 인간 수준에 미치지 못함
- 이를 해결하기 위한 새로운 접근으로 ‘월드 모델(world model)’ 이 제안되며, 이는 생성적·다중모달·상호작용적 특성을 갖춘 차세대 생성 모델 구조
- World Labs는 이러한 모델을 개발 중이며, ‘Marble’ 이라는 초기 버전은 다중 입력을 기반으로 일관된 3D 환경을 생성·유지하는 기능을 시연함
- 공간 지능은 창의성, 로보틱스, 과학·의료·교육 등 다양한 분야에서 인간의 능력을 증강시키는 AI 발전의 다음 단계임
공간 지능의 개념과 중요성
- 인간의 지능은 지각과 행동의 순환(perception-action loop) 을 기반으로 진화했으며, 공간 지능은 이를 가능하게 하는 핵심 요소임
- 자동차 주차, 물건 잡기, 복잡한 환경 내 이동 등 일상적 행동 모두 공간적 추론에 의존
- 언어 이전의 아동 발달 과정에서도 환경과의 상호작용을 통해 공간 감각을 습득
-
창의성과 상상력 또한 공간 지능에 기반함
- 동굴 벽화에서 영화, 게임, 가상현실(VR)에 이르기까지 인간은 공간적 사고를 통해 세계를 표현
- 산업 설계, 디지털 트윈, 로봇 훈련 등에서도 공간 시뮬레이션이 핵심 역할 수행
- 역사적으로도 공간 지능은 문명 발전의 원동력이었음
- 에라토스테네스의 지구 둘레 계산, 스피닝 제니의 구조 혁신, DNA 구조 발견 등은 모두 공간적 사고의 결과
- 현재 AI는 시각 인식과 생성 능력에서 진보했지만, 거리·방향·물리 법칙 이해 등 공간적 일관성은 여전히 부족
- 최신 멀티모달 모델도 물체 회전, 미로 탐색, 물리적 예측 등에서 낮은 성능
- 이 한계로 인해 로봇 제어, 자율주행, 몰입형 학습 등 실제 세계 응용이 제약됨
월드 모델: 공간 지능을 구현하는 새로운 AI 구조
- 공간 지능을 구현하기 위해서는 LLM보다 더 복합적인 월드 모델(world model) 이 필요함
- 현실·가상 세계의 의미적, 물리적, 기하학적, 동적 복잡성을 통합적으로 이해·생성·상호작용해야 함
- 월드 모델의 세 가지 핵심 능력
-
생성적(Generative) : 지각적·기하학적·물리적으로 일관된 세계를 생성
- 현실 또는 가상 공간을 시뮬레이션하며, 현재 상태와 과거 상태 간의 연속성 유지
-
다중모달(Multimodal) : 이미지, 비디오, 텍스트, 제스처 등 다양한 입력을 통합 처리
- 시각적 충실도와 의미 해석 능력을 동시에 갖추어야 함
-
상호작용적(Interactive) : 입력된 행동에 따라 다음 상태를 예측·생성
- 목표 상태가 주어질 경우, 그에 맞는 세계 변화와 행동까지 예측 가능해야 함
-
생성적(Generative) : 지각적·기하학적·물리적으로 일관된 세계를 생성
- 언어 생성보다 훨씬 복잡한 물리 법칙·기하 구조·동역학을 일관되게 반영해야 하므로 기술적 난도가 매우 높음
World Labs의 연구와 기술적 과제
- World Labs는 2024년 초 설립되어 공간 지능 중심의 월드 모델 연구를 진행 중
- 주요 연구 주제
- 보편적 학습 함수 정의: LLM의 ‘다음 토큰 예측’처럼 단순하면서도 물리·기하 법칙을 반영하는 학습 목표 수립
- 대규모 학습 데이터: 인터넷 이미지·비디오, 합성 데이터, 깊이·촉각 정보 등 다중 소스 활용
-
새로운 모델 구조: 3D·4D 인식 기반 토크나이징과 메모리 구조 연구
- 예: RTFM(Real-Time Frame-based Model) 은 공간적 프레임을 메모리로 활용해 실시간 생성과 일관성 유지
- 초기 결과물인 Marble은 다중 입력으로 일관된 3D 환경을 생성·유지하며, 일부 사용자에게 시연됨
- 향후 공개를 목표로 개발 중
공간 지능의 응용 영역
창의성 및 콘텐츠 제작
-
Marble은 영화 제작자, 게임 디자이너, 건축가 등에게 완전 탐색형 3D 세계 생성 기능 제공
- 예산·지리 제약 없이 다양한 장면과 시점을 실험 가능
- 스토리텔링, 예술, 교육, 설계 등에서 몰입형 경험 창출
- 공간적 내러티브 설계를 통해 건축·산업·패션 디자인의 시각화 과정 단축
- VR·XR 기반 몰입형 경험 확장으로 개인 창작자도 자신만의 세계를 구축 가능
로보틱스
- 로봇 학습의 병목은 훈련 데이터 부족이며, 월드 모델이 이를 보완
- 시뮬레이션과 현실 간 격차를 줄여 다양한 환경에서 학습 가능
-
인간 협력형 로봇 구현을 위해 공간 지능이 필수
- 실험실·가정 등에서 인간의 목표와 행동에 공감하며 협력하는 로봇 개발
- 다양한 형태의 로봇—나노봇, 소프트 로봇, 심해·우주용 로봇—의 훈련 환경과 벤치마크 구축에도 활용
과학, 의료, 교육
- 과학 연구: 다차원 시뮬레이션으로 실험 가속화, 기후·재료 연구 등에서 계산 비용 절감
- 의료: 약물 탐색, 영상 진단, 환자 모니터링 등에서 공간 지능 기반 AI의 활용 확대
-
교육: 복잡한 개념을 시각화하고, 학습자 맞춤형 몰입형 학습 환경 제공
- 학생은 세포 구조나 역사적 사건을 탐험하고, 전문가들은 현실감 있는 시뮬레이션으로 기술 연습 가능
인간 중심의 AI 발전 비전
- AI 개발의 목적은 인간 능력의 증강이며, 대체가 아님
- 창의성·생산성·연결성·삶의 만족도를 높이는 방향으로 발전해야 함
- 공간 지능은 인간의 상상력·돌봄·탐구 능력을 확장하는 기술로 제시됨
- 이러한 비전을 실현하기 위해 연구자·기업·정책 입안자 등 AI 생태계 전체의 협력이 필요함
결론
- AI는 이미 사회 전반을 변화시켰지만, 공간 지능은 그 다음 단계의 혁신으로 제시됨
- 월드 모델을 통해 현실 세계와 조화롭게 상호작용하는 공간적으로 지능적인 기계 개발이 가능해짐
- 이는 질병 연구, 스토리텔링, 돌봄 등 인간의 핵심 활동을 향상시키는 기술적 전환점으로 평가됨
- 인간 지능의 진화가 공간 지능에서 시작된 것처럼, AI의 완성 또한 공간 지능으로 완결될 것이라는 비전 제시
Hacker News 의견
-
글을 읽어보니 이들이 실제로 무엇을 이해하고 있는지 잘 모르겠음
노트에는 실질적인 정보가 거의 없고, 단지 “Imagenet처럼 공간 데이터를 모은다”는 수준임
공간 지능을 연구하는 사람들은 주로 신경과학 쪽에 있음
내가 쓴 요약 논문에서는 entorhinal cortex, grid cell, 좌표 변환이 핵심일 수 있다고 설명했음
모든 동물은 실시간으로 좌표를 변환해 세상을 탐색하며, 인간은 그중에서도 가장 많은 좌표 표현을 가짐
인간 수준의 지능이란 언제, 어떻게 좌표계를 변환해 유용한 정보를 뽑아내는지를 아는 것이라 생각함
LLM 붐 이전에 쓴 글이지만 여전히 이 방향이 맞다고 믿음- 1990년대에 비슷한 생각을 했었음
충돌 감지, 물리 기반 애니메이션, 비선형 방정식 풀이, 거친 지형에서의 다리 달린 주행 연구로 이어졌지만 AI는 아니었음
요즘은 엄청난 연산을 투입해 학습 시스템이 공간 세계의 내부 표현을 스스로 찾길 기대하는 식임
로봇 보행은 꽤 좋아졌지만 비정형 환경에서의 조작(manipulation) 은 여전히 형편없음
1960년대 Stanford의 McCarthy 연구실 영상과 비교해도 큰 차이가 없음
예전엔 인간 수준보다 쥐나 다람쥐 수준의 지능을 먼저 달성해야 한다고 생각했는데, 오히려 추상적 AI가 먼저 나와 놀랐음
최근엔 짧은 영상을 보고 다음 장면을 예측하는 비디오 생성 연구가 흥미로움
상식(common sense)의 핵심은 바로 “다음에 무슨 일이 일어날지”를 짧은 시간 안에 예측하는 능력이라 생각함 - 당신과 Moser 부부(노벨상 수상자) 모두 grid cell이 동물이 세상 속 위치를 이해하는 핵심이라 믿는다는 점이 흥미로움
관련 노벨상 보도자료도 참고할 만함 - 몇 단락 읽다가 ‘공간 지능’의 정의가 안 나와서 포기했음
“transform”, “revolutionize”, “next frontier”, “North Star” 같은 VC식 유행어가 너무 많아 신뢰가 떨어짐 - 논문 잘 읽었음, 참고문헌이 특히 흥미로웠음
2018년 Nature의 "Vector-based navigation using grid-like representations in artificial agents",
2024년 Nature의 "Modeling hippocampal spatial cells in rodents navigating in 3D environments",
그리고 DeepMind의 grid-cell 시뮬레이션도 함께 보면 좋음
신경과학에서는 꽤 오래전부터 공간 인식 연구를 해왔음 - 결국 중요한 건 이런 연구에서 실질적인 통찰을 얻을 수 있느냐임
생물학적 시스템을 그대로 복제하는 건 거의 실패함
CNN은 뇌에서 영감을 받았지만 구조적으로는 다르고, LLM은 인간 뇌와 거의 유사하지 않음
LLM의 기능적 유사성은 뇌 구조 모방이 아니라 훈련 과정에서 비롯된 것임
- 1990년대에 비슷한 생각을 했었음
-
이건 좁은 가상 세계에서 작동하는 시뮬레이션 시스템에 불과함
이런 시스템은 현실 세계의 복잡한 동역학을 학습하는 데 거의 도움이 안 됨
가상 세계 모델은 물리 세계 모델의 단순화된 특수 사례일 뿐이며, 이 회사가 공간 지능 분야에서 실질적 진전을 이룰 증거는 보이지 않음 -
최근 agentic coding을 CAD에 적용해 놀라운 경험을 했음
3D 프린트 모델에 나사산을 추가해야 했는데, 계산기하학을 이용해 에이전트가 모델을 ‘느낄 수 있게’ 함
구체 반경을 모델 전체에 컨볼루션해 포트 위치를 찾고 나사산을 추가했음
몇 번의 시도 끝에 성공했고, 이 경험으로 모델이 ‘촉각적 감각’을 가져야 함을 깨달음
최종적으로 3D 모델은 코드로 구현되어 검증 가능해야 했음-
Generative CAD의 잠재력은 엄청남
OpenSCAD로 실험해봤지만 현재 모델들은 형상 연결의 상식(common sense) 이 부족함
코드 기반 CAD 데이터셋이 더 많아지면 훨씬 쓸모 있을 것임
그렇지 않다면 결국 물리 시뮬레이션 기반 학습이 필요함 - 혹시 CadQuery를 썼는지 궁금함, 배운 점을 정리한 글이 있다면 보고 싶음
- 구현 과정을 더 자세히 알고 싶음, 글로 정리할 계획이 있는지도 궁금함
- 나도 생성형 3D 객체 접근을 실험 중이라 더 듣고 싶음
- LLM 프롬프트와 달리 기하학적 객체를 텍스트로 설명하는 건 정말 어려움
“그거 거기 두지 말고, 저기 두라” 수준의 모호함이 생김
-
Generative CAD의 잠재력은 엄청남
-
Genie 3는 그녀가 말한 목표, 즉 일관된 물리 법칙을 가진 제어 가능한 세계 모델을 어느 정도 달성했음
형제 모델 Veo 3는 공간 문제 해결 능력도 보여줌
Genie와 Veo는 World Labs보다 그녀의 비전에 훨씬 가까움
하지만 글에서는 Google 모델을 전혀 언급하지 않아 자사 홍보용 글처럼 느껴짐-
Gemini ER도 실제 세계에서 공간적으로 작동하는 모델임
DeepMind Gemini Robotics ER 참고
-
Gemini ER도 실제 세계에서 공간적으로 작동하는 모델임
-
현재 AI는 웹에서만 학습하고, 인간과의 상호작용으로부터 배우지 못함
인간은 평생의 맥락과 기억을 통해 배우지만, AI는 대화가 끝나면 그 맥락이 사라짐
개인화된 거대한 컨텍스트 메모리가 있다면 훨씬 가치가 높아질 것임- Google Research의 Nested Learning이 이런 문제의 해결책일 수 있음
기존 방식은 추가 학습 시 catastrophic forgetting이 발생하지만, Nested Learning은 여러 작은 모델로 나눠 재학습 시 다른 부분을 망치지 않게 함 - 인간의 ‘맥락’은 수십억 년의 진화적 축적의 결과임
우리가 가진 공간 이해는 우주 규모의 양자 시뮬레이션처럼 방대함
반면 오늘날 우리가 완전하게 시뮬레이션할 수 있는 건 원자나 세포 수준에 불과함
- Google Research의 Nested Learning이 이런 문제의 해결책일 수 있음
-
이 글을 읽으며 인간이 자연을 ‘앞질러 생각한’ 첫 사례가 바퀴라는 생각이 들었음
자연은 울퉁불퉁하지만 인간은 평평한 도로를 만들어 굴림을 가능하게 했음
과학과 기술의 발전은 세대 간 패턴 직관의 전승을 가능하게 한 또 다른 예임
‘초지능’이 속도 외의 형태로 가능한지는 모르겠지만, 3차원적 사고 능력은 AI가 인간과 자연을 넘어서는 데 필수적일 것임- 인간의 몸은 세포들이 협력하는 조직화된 시스템임
혈관이 영양과 신호를 전달하듯, 도로도 자원을 운반함
어쩌면 자연은 그 조직 능력을 종 단위로 확장했을 뿐이며, 인간이 자연보다 위에 있다고 말할 근거는 약함
- 인간의 몸은 세포들이 협력하는 조직화된 시스템임
-
인간의 인지는 공간적 지능 위에 세워진 구조물임
추상적 사고만으로 이뤄진 게 아니라 감각에 기반한 통합적 경험임
진화는 상징적 뇌가 아니라 감각의 융합을 통해 일반화를 이뤘음
지능은 알고리즘이 아니라 감각 간의 일관된 조화에서 비롯됨
감각의 완전성이야말로 앞으로 나아갈 방향임 -
LLM의 공간 추론 현황을 정리한 블로그 글을 추적 중임
결론은… 아직 갈 길이 멂 -
Spatial token이 도움이 될 수는 있지만 필수는 아님
많은 물리 문제는 여전히 종이와 펜으로 풀 수 있음
512×512 이미지를 85개의 토큰으로, 비디오는 초당 263개의 토큰으로 표현할 수 있다는 점이 놀라움
이는 메모리 대 임베딩의 새로운 균형 문제로 보임
“머릿속에서 사과를 회전시킬 수 있느냐”는 질문처럼, 공간 임베딩은 직관적 동역학 이해를 가능하게 할 것임
우리 팀 FlyShirley에서도 조종사 훈련 시뮬레이션을 통해 이 영역을 연구 중이며, Fei-Fei의 모델을 시도해볼 계획임 -
영상 기반 학습과 추론은 막대한 연산 자원이 필요하므로,
이런 접근이 에이전트 어시스턴트(코딩, 마케팅, 일정 관리 등)에 실제로 도움이 될지는 의문임
오히려 로보틱스 분야에서 더 유리한 계산 구조일 것이라 생각함