5P by neo 3시간전 | ★ favorite | 댓글과 토론
  • 소프트웨어 AI가 비약적으로 발전했음에도 물리적 세계의 로봇은 빨래 개기나 식기세척기 정리 같은 기본 작업조차 여전히 어려움
  • 물리 세계는 마찰, 가림(occlusion), 예측 불가능한 동역학, 무작위성으로 가득 차 있어, 이는 텍스트 중심 AI 환경과 본질적으로 다름
  • World Model은 물리 법칙을 직접 프로그래밍하는 것이 아니라, 실제 경험에서 직접 학습해 행동에 따른 미래 상태를 예측하는 방식으로 작동
  • JEPA(Joint-Embedding Predictive Architecture)는 픽셀 단위 예측 대신 추상적 표현을 예측해 노이즈를 걸러내지만, 표현 붕괴(collapse) 문제가 있었음
  • LeJEPA는 수학적 정규화 기법으로 이 문제를 해결하며, 로보틱스가 수작업 규칙 기반에서 학습 기반 접근으로 전환할 이론적 기반 제시

디지털 AI와 물리적 로봇의 격차

  • LLM은 코드 작성, 신약·단백질 설계, 법률 문서 요약, 학생 튜터링, 음악·예술 생성, 수십 년간 고전 AI가 풀지 못했던 수학적 추론 문제 해결까지 수행 가능
  • 반면 물리 세계의 로봇은 통제된 창고 환경을 벗어나면 빨래 개기, 어지러운 방 청소, 불규칙한 물체 집기, 식기세척기 정리, 요리, 식탁 차리기 같은 기본 작업에서 지속적으로 실패
  • 자율 가정용 보조 로봇이나 예측 불가능한 환경을 안전하게 이동하는 시스템, 유아 수준의 유연한 물체 조작 능력은 아직 구현되지 않았으며, 공장·연구소 로봇은 여전히 고비용·취약·스크립트 의존·좁은 전문화 상태
  • Rodney Brooks 같은 로보틱스 연구자들은 “비전 전용” 접근에 회의적이며, 조작(manipulation)은 촉각, 힘 피드백, 고유수용감각(proprioception) 신호에 크게 의존하지만 현재 시스템에서는 이 신호들이 없거나 매우 조잡함
  • 언어 모델은 텍스트라는 구조가 일관된 안정적 세계에서 작동하고 디지털 동작은 되돌릴 수 있지만, 물리 세계는 마찰, 가림, 예측 불가능한 동역학, 지속적인 무작위성으로 가득함

World Model의 정의와 역할

  • 인간은 현실에서 결정을 내리고 계획을 세울 때 환경에 대한 내부 표현(internal representation) 에 의존하며, 계획한다는 것은 행동에 따라 나타날 미래 상태를 마음속에서 그려보는 과정
  • 이 내부 표현은 문제 해결에 필요한 정보만 남기고 불필요한 세부사항은 제거하며, 예를 들어 출근 경로를 계획할 때 도로·시간·교통량은 고려하지만 각 차량이 내는 특정 소음 같은 무관한 정보는 포함하지 않음
  • 더 높은 수준에서는 이러한 내부 표현이 세계의 구조를 반영해, 새로운 상황을 기존의 익숙한 패턴에 빠르게 끼워 맞출 수 있게 함
    • 예: 처음 보는 형태의 손잡이가 달린 문을 마주해도, 모양과 위치를 통해 손잡이임을 인식하고 “문은 손잡이에 힘을 가해 연다”는 일반적 이해를 바탕으로 작동 방식을 추론 가능
  • World Model은 관찰을 즉시 행동으로 바꾸는 정책(policy) 과 다르며, 스스로 결정을 내리기보다는 가능한 여러 행동에 따라 세계가 어떻게 변할지를 예측해 미래 상태의 압축된 표현을 생성하는 역할
  • 이러한 예측 모델이 있으면 플래너(또는 하위 정책)가 상상된 여러 미래를 비교·평가해 가장 좋은 결과로 이어지는 행동 시퀀스를 선택 가능

유용한 World Model의 4가지 속성

  • 세계의 구조 반영: 원시 감각 데이터가 아니라, 세계의 구조를 드러내는 표현을 담아야 함
  • 다중 작업 일반화: 매번 처음부터 다시 학습하지 않고도 새로운 작업에 적응 가능해야 함
  • 무관한 세부사항 필터링: 결과에 영향을 주는 정보에만 집중하고 불필요한 요소는 제거해야 함
  • 행동에 따른 세계 변화 예측: 실제로 행동하기 전에 가능한 결과를 미리 그려볼 수 있어야 함

의미 있는 세계 표현 학습의 역사

  • 딥러닝 인식(perception) 분야의 주요 돌파구는 의도하지 않았음에도 세계에 대한 구조화된 표현을 내부적으로 만들어냄
  • 컴퓨터 비전에서 이미지를 고양이, 개, 코끼리처럼 분류하도록 학습한 모델은 잘 조직되고 재사용 가능한 내부 표현을 형성
  • 이미지 내용을 맞히는 단순한 목표를 최적화하는 과정에서, 학습된 특징들이 모양, 질감, 자세, 의미론 같은 정보를 자연스럽게 인코딩
  • 이렇게 얻은 표현은 별도의 추가 학습 없이도 물체 탐지, 추적, 분할 같은 작업의 상태 입력으로 활용 가능
  • 이후 분류 중심 접근에서 벗어나, 주어진 맥락을 바탕으로 누락된 부분을 채우는 이미지 재구성 방식으로 학습이 확장되며 더 풍부하고 일반화된 표현이 등장
  • 하지만 근본적인 한계도 드러남: 감각 입력에는 하류 작업과 무관한, 예측 자체가 불가능한 세부사항이 항상 포함됨
    • 예: 끓는 냄비 표면의 미세한 물결 패턴은 본질적으로 무작위이며 어떤 의사결정에도 거의 기여하지 않음
    • 재구성 기반 모델은 이러한 세부사항까지 예측 대상으로 삼아, World Model에 의미 없는 무작위성을 함께 인코딩하려 함
    • 그 결과 세계에 대한 표현이 핵심 구조보다 노이즈와 뒤엉킨 상태로 형성됨

JEPA의 접근 방식

  • 이미지 재구성이 패턴 완성 문제(이미지 일부가 주어졌을 때 누락된 픽셀을 예측)라면, World Model은 시간에 대한 패턴 완성 문제로 볼 수 있음
    • 현재 세계 상태와 행동 시퀀스가 주어졌을 때 미래 상태를 예측하는 문제
  • JEPA(Joint-Embedding Predictive Architecture)는 이미지 재구성이나 픽셀 단위의 미래 비디오 프레임 예측 대신, 잠재 변수에 조건화된 미래의 추상적 표현을 예측하는 데 초점을 둠
  • 잠재 변수는 로봇이 수행하는 행동이거나, 미래 변화에 영향을 주는 독립적인 요인으로 이해 가능
  • 정확한 픽셀 수준의 외형이 아니라 장면의 추상적 상태를 예측하도록 학습해, 무관한 시각적 세부사항에 모델 용량을 낭비하지 않으면서 조직적이고 실행 가능한 표현을 형성
  • JEPA는 안정적이고 의미 있는 요소를 포착하는 동시에, 고도로 무작위적인 세부사항을 자연스럽게 배제하는 표현을 구축
  • 학습 목표 자체가 주전자에서 올라오는 증기의 정확한 모양이나 구겨진 천의 세밀한 질감을 인코딩하지 않도록 유도함
    • 이러한 세부사항은 본질적으로 예측 불가능하며, 미래 세계 상태 예측을 오히려 어렵게 만듦
  • 높은 성능을 내려면 모델은 세계가 어떻게 변해갈지를 이해하는 데 중요한 예측 가능한 측면을 표현해야 함
  • 이 아키텍처 선택의 핵심은 모델의 목표를 단순 재구성에서 세계의 예측 가능한 동역학을 학습하는 방향으로 전환했다는 점

JEPA의 한계와 표현 붕괴 문제

  • JEPA가 최근 몇 년간 크게 확산되지 못한 이유는, 노이즈가 많고 예측 불가능한 세부사항과 의미 있는 구조를 명확히 구분하기 어렵기 때문
  • 적절한 제약이 없을 경우, 모델은 사소한 표현(trivial representation) 으로 붕괴되는 경향을 보임
  • 이는 정보가 너무 많다는 문제를 해결하기 위해 문서 범주 자체를 통째로 버리는 파일링 시스템과 유사함
    • JEPA 모델은 예측 불가능한 노이즈를 피하려는 지름길을 택하다가, 그 과정에서 유용한 구조까지 함께 제거하게 됨

LeJEPA: 수학적 해결책

  • Randall BalestrieroYann LeCun이 제안한 LeJEPA는 JEPA에서 발생하는 표현 붕괴를 막기 위한 수학적으로 근거 있는 정규화기(regularizer) 를 제시
  • 핵심 아이디어는 내부 표현 공간이 일부 특징에만 분산을 과도하게 몰아주고 나머지를 방치하지 않도록, 모든 방향에서 균일한 해상도를 유지하게 만드는 것
  • 이를 위해 임베딩 분포를 등방성 가우시안(isotropic Gaussian) 형태로 유도
  • 이 제약은 모델이 표현 차원 전반에 걸쳐 용량을 고르게 사용하도록 유도해, 풍부하고 조건이 잘 맞는 내부 표현을 유지하게 함
  • 겉보기에는 단순한 기하학적 제약이지만 다음과 같은 강력한 효과를 보임
    • 학습 과정의 안정성 향상
    • 의미 있는 구조의 유지
    • 데이터 증강이나 대조적 네거티브 같은 휴리스틱 없이도 풍부하고 예측 가능한 표현 학습 가능
  • 이는 모델 붕괴를 막기 위한 임시 기법에서 벗어나, 노이즈에 휘둘리지 않고 세계의 구조 자체를 학습하도록 유도하는 이론적 접근으로의 전환을 의미

World Model이 제시하는 새로운 경로

  • 이러한 아이디어들은 로보틱스를 바라보는 방식의 근본적인 전환을 시사
  • 수십 년 동안 로보틱스는 다음과 같은 반복에 갇혀 있었음
    • 특정 작업을 위한 해법을 수작업으로 설계
    • 엣지 케이스에서의 실패 확인
    • 규칙과 예외를 계속 추가
  • World Model은 이 순환에서 벗어날 수 있는 경로를 제시
    • 물리 법칙을 기계에 직접 프로그래밍하는 대신
    • 미래 세계 상태를 예측하고 그 위에서 추론하도록 학습하는 시스템으로 전환 가능

남은 미해결 질문들

  • 모델이 의미 있고 유용한 행동을 탐색하도록 효율적으로 유도하는 방법
  • 비구조화된 환경이 지닌 전체적인 복잡성까지 확장하는 방법
  • 자율성이 커질수록 안전성을 유지하고 인간의 의도와 정렬시키는 방법
  • 이 문제들은 결코 단순하지 않지만, 지난 50년간 로보틱스를 가로막아온 문제들과는 질적으로 다른 성격
  • 달라진 점은 문제 구조에 부합하는 이론적 프레임워크가 등장했다는 사실

결론

  • LeJEPA와 관련 접근들은 단순한 점진적 개선이 아니라, 실세계의 불확실성을 다룰 수 있는 World Model 학습을 위한 수학적 토대를 제시
  • 디지털 지능과 물리적 역량 사이의 격차가 처음으로 공상과학이 아닌, 연구를 통해 극복 가능한 과제로 보이기 시작