1P by GN⁺ 4시간전 | ★ favorite | 댓글 1개
  • 대규모 자율주행 시뮬레이션을 위한 생성형 세계 모델로, 현실과 유사한 환경을 실시간으로 재현함
  • Genie 3 기반으로 구축되어, 희귀하거나 극단적인 상황(토네이도, 홍수, 동물 출현 등)을 실제처럼 재현 가능
  • 운전 제어, 장면 구성, 언어 제어를 통해 시뮬레이션을 세밀하게 조정할 수 있으며, 카메라와 라이다 데이터를 동시에 생성
  • 일반 영상이나 대시캠 영상을 다중 센서 시뮬레이션으로 변환해 실제 주행 장면을 그대로 재현
  • 이 모델은 안전성 검증과 서비스 확장을 위한 핵심 도구로, 현실에서 거의 불가능한 상황까지 대비할 수 있게 함

웨이모 월드 모델 개요

  • Waymo Driver는 미국 주요 도시에서 완전 자율주행으로 약 2억 마일을 주행했으며, 그 외에도 가상 환경에서 수십억 마일을 주행
    • 실제 도로에서 마주하기 어려운 복잡한 상황을 사전에 학습하도록 설계
  • 웨이모 월드 모델(Waymo World Model) 은 이러한 가상 주행을 위한 초현실적 시뮬레이션 생성 시스템
    • Waymo의 AI 생태계 핵심 3축 중 하나로, 안전성을 입증하는 기반 역할

Genie 3 기반의 구조와 기능

  • Google DeepMind의 Genie 3를 기반으로 하며, 운전 환경에 특화된 형태로 조정
    • Genie 3는 사실적이고 상호작용 가능한 3D 환경을 생성하는 범용 세계 모델
  • Genie의 광범위한 세계 지식을 활용해, 토네이도나 코끼리와의 조우 같은 현실에서 거의 불가능한 사건까지 시뮬레이션 가능
  • 언어 프롬프트, 운전 입력, 장면 배치를 통해 시뮬레이션을 세밀하게 제어
  • 카메라와 라이다 데이터를 모두 생성하는 다중 센서 출력을 지원

다중모달 세계 지식

  • 기존 자율주행 시뮬레이터는 자체 수집 데이터만으로 학습하지만, 웨이모 모델은 Genie 3의 사전 학습된 광범위한 비디오 데이터를 활용
  • 2D 영상 지식웨이모의 라이다 시스템용 3D 출력으로 전이
    • 카메라는 시각적 세부 묘사에, 라이다는 정확한 깊이 정보에 강점
  • 일상적인 주행부터 희귀한 롱테일 상황까지 다양한 장면을 생성 가능
  • 극한 기상 및 자연재해 시뮬레이션

    • 눈 덮인 금문교 주행, 토네이도 조우, 홍수로 잠긴 교외 지역, 열대 도시의 눈 덮인 거리, 화재 속 탈출 등의 장면 생성
  • 희귀·안전 중요 사건

    • 난폭 운전자, 나뭇가지에 부딪히는 차량, 짐이 불안정한 차량, 역주행 트럭 등 안전 관련 시나리오 재현
  • 롱테일 객체 및 특이 상황

    • 코끼리, 텍사스 롱혼, 사자, 공룡 복장의 보행자, 거대한 바람개비 등 비일상적 객체와의 조우 시뮬레이션 제공

시뮬레이션 제어 기능

  • 운전 동작 제어, 장면 구성 제어, 언어 제어의 세 가지 방식으로 조정 가능
  • 운전 동작 제어

    • 특정 운전 입력에 따라 반응하는 대화형 시뮬레이터 구현
      • 예: 특정 상황에서 더 적극적으로 주행했을 경우의 결과를 실험
    • 기존 3DGS(3D Gaussian Splats) 방식보다 시각적 일관성과 사실성 유지
  • 장면 구성 제어

    • 도로 구조, 신호 상태, 주변 차량 행동 등을 자유롭게 수정 가능
      • 사용자 지정 시나리오 생성 및 도로 환경 변형 지원
  • 언어 제어

    • 시간대, 날씨, 전체 장면을 텍스트 명령으로 변경 가능
      • 예: 새벽, 아침, 정오, 저녁, 밤 등 시간대 전환
      • 흐림, 안개, 비, 눈, 맑음 등 기상 조건 변경

영상 기반 시뮬레이션 변환

  • 일반 카메라나 대시캠 영상을 입력으로 받아, 웨이모 드라이버 시점의 다중 센서 시뮬레이션으로 변환
    • 실제 영상 기반이므로 사실성과 정확성이 높음
  • 예시: 노르웨이, 유타주 Arches 국립공원, 캘리포니아 Death Valley 등 실제 장소 영상 변환

확장 가능한 추론(Scalable Inference)

  • 긴 장면 시뮬레이션은 계산량이 많지만, 효율화된 모델 변형으로 고품질을 유지하며 연산량을 대폭 절감
    • 좁은 차선 통과, 복잡한 교차로, 오르막길 등 장시간 주행 시나리오 지원
  • 4배속 재생 예시: 고속도로 병목 회피, 복잡한 주택가 주행, 오르막길 오토바이 회피, SUV 유턴 등

안전성과 확장성

  • 현실에서 거의 불가능한 상황을 가상으로 재현해 사전 대비
  • 웨이모 드라이버의 안전 기준을 강화하고, 새로운 지역과 환경으로의 서비스 확장 기반 마련
  • 프로젝트에는 Waymo와 Google DeepMind 연구진 다수가 참여
Hacker News 의견들
  • 갑자기 DeepMind가 world model에 집중하는 이유가 이해됨
    Waymo를 Boston Dynamics의 휴머노이드처럼 ‘로봇’으로 생각해본 적은 없었지만, 사실상 로봇임
    Google/Alphabet은 AI 분야에서 수직 통합이 놀라울 정도로 완성되어 있음 — 자체 전력 생산, 칩, 데이터센터, 검색·Gmail·YouTube·Gemini·Workspace·Wallet, 수십억 Android·Chromebook 사용자, 광고 네트워크, 브라우저, Waymo, Boston Dynamics와의 협력, 핵융합 연구, 신약 개발까지
    이런 스케일을 보면 ChatGPT나 Grok 같은 챗봇은 비교가 안 됨

    • Google은 AI를 제품으로 팔기보다 내부 R&D와 자체 적용에 집중해왔음
      예전엔 자율주행차 연구가 Street View용이라 생각했는데, 지금 보니 훨씬 큰 그림이 있었음
    • Google은 이미 2018년부터 world model을 연구해왔음
      관련 논문은 여기에서 볼 수 있음
    • Tesla도 FSD 훈련용으로 비슷한 시스템을 만들었지만, 지도 서비스로 제품화하지 않은 게 아쉬움
      차량에서 실시간으로 도로 상황을 업데이트할 수 있었을 텐데, 지금은 많이 뒤처진 느낌임
    • Tesla가 휴머노이드 로봇을 시작한 이유도 이런 맥락으로 이해했음
    • 이런 관점을 이제야 깨달았다면 Tesla보다 3년은 늦은 셈임
      관련 영상은 여기 참고
  • Genie 모델이 희귀한 사건(토네이도, 코끼리 조우 등)을 시뮬레이션할 수 있다는데, 생성된 결과가 정말 현실적인지 의문임
    예를 들어 도로에 5mm 쇠구슬이 깔린 상황을 모델이 예측한다고 해도, 그게 합리적인 수치인지 어떻게 검증할 수 있을까 하는 걱정이 있음

    • 시간이 지나면 world model의 품질이 개선되어, 자율주행 시스템이 ‘충분히 현실적인’ 합성 데이터로 훈련될 수 있음
      완벽할 필요는 없고, 반복 사용과 검증을 통해 점점 나아지는 선순환 구조를 만들 수 있음
    • “이제 자동차가 쇠구슬에도 안전하다”고 선언하는 게 아니라, 단위 테스트처럼 특정 상황에서 예상대로 반응하는지를 확인하는 용도임
      예를 들어 눈보라 속 흰 소 같은 극단적 케이스도 시뮬레이션으로 잡아낼 수 있음
    • “토네이도부터 코끼리까지”를 시뮬레이션할 수 있다면, The Sims 같은 게임도 멋질 것 같음
    • 사실 이런 불확실성은 인간에게도 동일함
      완벽한 예측은 불가능하지만, 지식 기반의 최선의 판단을 향해 점진적으로 개선하는 과정임
    • 시뮬레이션으로 훈련하고, 현실에서 검증하는 접근이 필요함
  • Waymo World Model이 일반 카메라 영상도 멀티모달 시뮬레이션으로 변환할 수 있다는데, 이는 Waymo가 원하면 카메라만으로도 주행 가능하다는 의미임

    • 하지만 실제로는 LiDAR, 비디오, 기타 센서로 부트스트랩된 표현으로 변환하는 것임
      Tesla는 LiDAR 단계를 거치지 않았기 때문에 이런 결과를 얻기 어려움
    • LiDAR는 카메라 정확도가 떨어질 때 오류 보정을 위한 장치임
      인간의 양안 시차처럼 깊이 인식을 보완함
    • LiDAR 재밍 공격에 대비하기 위해서도 여전히 중요함
    • 영상 → 센서 데이터 변환과, 그 데이터를 이용한 주행은 별개의 단계임
      첫 번째는 훈련용, 두 번째는 실제 차량용임
    • 자율주행차가 인간보다 훨씬 안전해야 사회적으로 받아들여질 수 있음
      그래서 카메라만 쓰는 접근은 한계가 있음
  • 기술은 인상적이지만, 기차 인프라 개선이 더 시급하다고 생각함

    • Bay Area에 사는 입장에서 이미 기차가 있지만, 운영비도 못 건질 정도로 요금·관리·질서가 엉망
      무임승차, 폭력, 비위생 등으로 인해 이용자들이 떠남
      이런 현실을 외면한 채 대중교통만 외치는 건 공허함
      그래서 Waymo 같은 서비스가 약속한 품질을 실제로 제공하면 더 주목받게 됨
      개인적으로는 자전거 공유 시스템만이 약속을 지키는 유일한 대안이라 봄
    • 기차는 결국 사람들의 행동 규범이 유지되지 않으면 지옥이 됨
      소음, 구걸, 약물 문제 등으로 인해 대중교통이 회피 대상이 됨
    • 어떤 경우에도 자동차는 여전히 절대적 우위를 가짐
      미국의 인프라 현실상 대규모 철도 개혁은 비현실적임
      일본처럼 철도가 발달해도 차량 보유율은 미국과 큰 차이가 없음
    • 어디서든 원하는 곳으로, 개인 일정에 맞춰 안전하고 깨끗하게 이동할 수 있는 차량이 더 낫다고 생각함
    • 그래도 Waymo는 운전자를 줄이고 차량 소유를 줄이는 전환점이 될 수 있음
  • 이번 발표의 핵심은 2D 영상에서 3D LiDAR 데이터를 생성하는 기술임
    DeepMind와 Google 인프라 접근성은 Waymo의 압도적 경쟁력

    • 사실 2D 영상에서 3D를 추정하는 기술은 수십 년 전부터 존재했음
    • Metric3D 같은 monodepth 방식도 있지만, Waymo의 결과는 확실히 최신 수준(SOTA)임
  • 홍수, 토네이도, 산불 등 시뮬레이션은 인상적이지만, 정전 사태처럼 흔한 상황에서 Waymo가 동시에 멈춘 건 의문임
    이런 기본 시나리오를 처리하지 못한다면 시뮬레이션의 의미가 약함

    • 시뮬레이션은 개별 차량의 성능을 높이지만, 정전 사태는 원격 지원 인력 과부하로 인한 전체 시스템 문제였음
      즉, 시뮬레이션은 여전히 가치 있지만 모든 실패를 막을 수는 없음
    • 실제로 Waymo가 홍수 지역으로 진입한 사례도 있었음
      관련 영상
  • Waymo가 가상 반사실적(counterfactual) 상황을 훈련에 사용한다는 점이 위험해 보임
    실제 비극적 사례보다 ‘잘 대처한 영상’이 더 많을 테니, 결과적으로 과도한 자신감을 학습할 수 있음

    • 하지만 실제로는 ‘반사실적’이 아니라 희귀한 상황을 보완하기 위한 생성임
      Waymo가 토네이도나 코끼리를 만나도 멈추지 않고 대응하도록 하는 게 목적임
    • 운전은 속도와 안전의 균형 문제임
      완전한 안전만 추구하면 차는 아예 움직이지 않게 됨
    • 교차로에서 안전할 때 진입하지 않거나, 시속 5마일로만 주행하는 것도 잘못된 운전 행위
      단순히 ‘느리면 안전하다’는 접근은 맞지 않음
  • world model이 실제 안전 상황에서는 편향된 데이터로 인해 위험할 수 있음
    실패 사례가 거의 없는 데이터로 학습하면, 실제 사고 상황을 재현하지 못할 수 있음

    • 하지만 Waymo는 이미 1억 마일 이상의 실제 주행 데이터로 학습 중임
      예시로 제시된 영상은 충돌 회피 사례를 보여줌
    • 물론 여전히 편향 가능성은 존재하지만, LLM을 이용한 프롬프트 기반 시나리오 생성으로 다양성을 확보할 수 있음
      다만 “충분히 현실적인가?”라는 기준이 모호함
      인간도 100% 신뢰할 수 없으니, 10배 더 안전한 수준검증 가능한 코드 기반 안전장치가 결합된다면 사회적 수용성이 높아질 것임
  • DeepMind의 Project Genie가 Waymo의 기반 기술로 보임
    관련 글: Genie 3: A new frontier for world models
    Hacker News 토론: Genie 3, Project Genie

    • DeepMind는 단순한 Alphabet 자회사가 아니라, Demis Hassabis가 Google AI 전체를 이끌고 있는 핵심 조직
  • 자율주행 학습의 벨 커브 밈이 떠오름
    처음엔 물리 기반 시뮬레이터로 시작해, 실제 데이터를 수집하고, 다시 물리 정보를 반영한 딥러닝 시뮬레이터로 돌아오는 흐름임

    • 결국 단순한 시뮬레이션 → 현실 데이터 → 희귀 현실을 위한 시뮬레이션으로 순환함
      이런 패턴에 이름을 붙여야 할 정도로 자연스러운 발전 단계처럼 보임