Waymo 월드 모델: 자율주행 시뮬레이션의 새로운 경계

(waymo.com)

1P by GN⁺ 4시간전 | ★ favorite | 댓글 1개

대규모 자율주행 시뮬레이션을 위한 생성형 세계 모델로, 현실과 유사한 환경을 실시간으로 재현함
Genie 3 기반으로 구축되어, 희귀하거나 극단적인 상황(토네이도, 홍수, 동물 출현 등)을 실제처럼 재현 가능
운전 제어, 장면 구성, 언어 제어를 통해 시뮬레이션을 세밀하게 조정할 수 있으며, 카메라와 라이다 데이터를 동시에 생성
일반 영상이나 대시캠 영상을 다중 센서 시뮬레이션으로 변환해 실제 주행 장면을 그대로 재현
이 모델은 안전성 검증과 서비스 확장을 위한 핵심 도구로, 현실에서 거의 불가능한 상황까지 대비할 수 있게 함

웨이모 월드 모델 개요

Waymo Driver는 미국 주요 도시에서 완전 자율주행으로 약 2억 마일을 주행했으며, 그 외에도 가상 환경에서 수십억 마일을 주행
- 실제 도로에서 마주하기 어려운 복잡한 상황을 사전에 학습하도록 설계
웨이모 월드 모델(Waymo World Model) 은 이러한 가상 주행을 위한 초현실적 시뮬레이션 생성 시스템
- Waymo의 AI 생태계 핵심 3축 중 하나로, 안전성을 입증하는 기반 역할

Genie 3 기반의 구조와 기능

Google DeepMind의 Genie 3를 기반으로 하며, 운전 환경에 특화된 형태로 조정됨
- Genie 3는 사실적이고 상호작용 가능한 3D 환경을 생성하는 범용 세계 모델
Genie의 광범위한 세계 지식을 활용해, 토네이도나 코끼리와의 조우 같은 현실에서 거의 불가능한 사건까지 시뮬레이션 가능
언어 프롬프트, 운전 입력, 장면 배치를 통해 시뮬레이션을 세밀하게 제어
카메라와 라이다 데이터를 모두 생성하는 다중 센서 출력을 지원

다중모달 세계 지식

기존 자율주행 시뮬레이터는 자체 수집 데이터만으로 학습하지만, 웨이모 모델은 Genie 3의 사전 학습된 광범위한 비디오 데이터를 활용
2D 영상 지식을 웨이모의 라이다 시스템용 3D 출력으로 전이
- 카메라는 시각적 세부 묘사에, 라이다는 정확한 깊이 정보에 강점
일상적인 주행부터 희귀한 롱테일 상황까지 다양한 장면을 생성 가능
극한 기상 및 자연재해 시뮬레이션
- 눈 덮인 금문교 주행, 토네이도 조우, 홍수로 잠긴 교외 지역, 열대 도시의 눈 덮인 거리, 화재 속 탈출 등의 장면 생성
희귀·안전 중요 사건
- 난폭 운전자, 나뭇가지에 부딪히는 차량, 짐이 불안정한 차량, 역주행 트럭 등 안전 관련 시나리오 재현
롱테일 객체 및 특이 상황
- 코끼리, 텍사스 롱혼, 사자, 공룡 복장의 보행자, 거대한 바람개비 등 비일상적 객체와의 조우 시뮬레이션 제공

시뮬레이션 제어 기능

운전 동작 제어, 장면 구성 제어, 언어 제어의 세 가지 방식으로 조정 가능
운전 동작 제어
- 특정 운전 입력에 따라 반응하는 대화형 시뮬레이터 구현
  - 예: 특정 상황에서 더 적극적으로 주행했을 경우의 결과를 실험
- 기존 3DGS(3D Gaussian Splats) 방식보다 시각적 일관성과 사실성 유지
장면 구성 제어
- 도로 구조, 신호 상태, 주변 차량 행동 등을 자유롭게 수정 가능
  - 사용자 지정 시나리오 생성 및 도로 환경 변형 지원
언어 제어
- 시간대, 날씨, 전체 장면을 텍스트 명령으로 변경 가능
  - 예: 새벽, 아침, 정오, 저녁, 밤 등 시간대 전환
  - 흐림, 안개, 비, 눈, 맑음 등 기상 조건 변경

영상 기반 시뮬레이션 변환

일반 카메라나 대시캠 영상을 입력으로 받아, 웨이모 드라이버 시점의 다중 센서 시뮬레이션으로 변환
- 실제 영상 기반이므로 사실성과 정확성이 높음
예시: 노르웨이, 유타주 Arches 국립공원, 캘리포니아 Death Valley 등 실제 장소 영상 변환

확장 가능한 추론(Scalable Inference)

긴 장면 시뮬레이션은 계산량이 많지만, 효율화된 모델 변형으로 고품질을 유지하며 연산량을 대폭 절감
- 좁은 차선 통과, 복잡한 교차로, 오르막길 등 장시간 주행 시나리오 지원
4배속 재생 예시: 고속도로 병목 회피, 복잡한 주택가 주행, 오르막길 오토바이 회피, SUV 유턴 등

안전성과 확장성

현실에서 거의 불가능한 상황을 가상으로 재현해 사전 대비
웨이모 드라이버의 안전 기준을 강화하고, 새로운 지역과 환경으로의 서비스 확장 기반 마련

프로젝트에는 Waymo와 Google DeepMind 연구진 다수가 참여

▲

GN⁺ 4시간전 [-]

Hacker News 의견들

갑자기 DeepMind가 world model에 집중하는 이유가 이해됨
Waymo를 Boston Dynamics의 휴머노이드처럼 ‘로봇’으로 생각해본 적은 없었지만, 사실상 로봇임
Google/Alphabet은 AI 분야에서 수직 통합이 놀라울 정도로 완성되어 있음 — 자체 전력 생산, 칩, 데이터센터, 검색·Gmail·YouTube·Gemini·Workspace·Wallet, 수십억 Android·Chromebook 사용자, 광고 네트워크, 브라우저, Waymo, Boston Dynamics와의 협력, 핵융합 연구, 신약 개발까지
이런 스케일을 보면 ChatGPT나 Grok 같은 챗봇은 비교가 안 됨
- Google은 AI를 제품으로 팔기보다 내부 R&D와 자체 적용에 집중해왔음
  예전엔 자율주행차 연구가 Street View용이라 생각했는데, 지금 보니 훨씬 큰 그림이 있었음
- Google은 이미 2018년부터 world model을 연구해왔음
  관련 논문은 여기에서 볼 수 있음
- Tesla도 FSD 훈련용으로 비슷한 시스템을 만들었지만, 지도 서비스로 제품화하지 않은 게 아쉬움
  차량에서 실시간으로 도로 상황을 업데이트할 수 있었을 텐데, 지금은 많이 뒤처진 느낌임
- Tesla가 휴머노이드 로봇을 시작한 이유도 이런 맥락으로 이해했음
- 이런 관점을 이제야 깨달았다면 Tesla보다 3년은 늦은 셈임
  관련 영상은 여기 참고
Genie 모델이 희귀한 사건(토네이도, 코끼리 조우 등)을 시뮬레이션할 수 있다는데, 생성된 결과가 정말 현실적인지 의문임
예를 들어 도로에 5mm 쇠구슬이 깔린 상황을 모델이 예측한다고 해도, 그게 합리적인 수치인지 어떻게 검증할 수 있을까 하는 걱정이 있음
- 시간이 지나면 world model의 품질이 개선되어, 자율주행 시스템이 ‘충분히 현실적인’ 합성 데이터로 훈련될 수 있음
  완벽할 필요는 없고, 반복 사용과 검증을 통해 점점 나아지는 선순환 구조를 만들 수 있음
- “이제 자동차가 쇠구슬에도 안전하다”고 선언하는 게 아니라, 단위 테스트처럼 특정 상황에서 예상대로 반응하는지를 확인하는 용도임
  예를 들어 눈보라 속 흰 소 같은 극단적 케이스도 시뮬레이션으로 잡아낼 수 있음
- “토네이도부터 코끼리까지”를 시뮬레이션할 수 있다면, The Sims 같은 게임도 멋질 것 같음
- 사실 이런 불확실성은 인간에게도 동일함
  완벽한 예측은 불가능하지만, 지식 기반의 최선의 판단을 향해 점진적으로 개선하는 과정임
- 시뮬레이션으로 훈련하고, 현실에서 검증하는 접근이 필요함
Waymo World Model이 일반 카메라 영상도 멀티모달 시뮬레이션으로 변환할 수 있다는데, 이는 Waymo가 원하면 카메라만으로도 주행 가능하다는 의미임
- 하지만 실제로는 LiDAR, 비디오, 기타 센서로 부트스트랩된 표현으로 변환하는 것임
  Tesla는 LiDAR 단계를 거치지 않았기 때문에 이런 결과를 얻기 어려움
- LiDAR는 카메라 정확도가 떨어질 때 오류 보정을 위한 장치임
  인간의 양안 시차처럼 깊이 인식을 보완함
- LiDAR 재밍 공격에 대비하기 위해서도 여전히 중요함
- 영상 → 센서 데이터 변환과, 그 데이터를 이용한 주행은 별개의 단계임
  첫 번째는 훈련용, 두 번째는 실제 차량용임
- 자율주행차가 인간보다 훨씬 안전해야 사회적으로 받아들여질 수 있음
  그래서 카메라만 쓰는 접근은 한계가 있음
기술은 인상적이지만, 기차 인프라 개선이 더 시급하다고 생각함
- Bay Area에 사는 입장에서 이미 기차가 있지만, 운영비도 못 건질 정도로 요금·관리·질서가 엉망임
  무임승차, 폭력, 비위생 등으로 인해 이용자들이 떠남
  이런 현실을 외면한 채 대중교통만 외치는 건 공허함
  그래서 Waymo 같은 서비스가 약속한 품질을 실제로 제공하면 더 주목받게 됨
  개인적으로는 자전거 공유 시스템만이 약속을 지키는 유일한 대안이라 봄
- 기차는 결국 사람들의 행동 규범이 유지되지 않으면 지옥이 됨
  소음, 구걸, 약물 문제 등으로 인해 대중교통이 회피 대상이 됨
- 어떤 경우에도 자동차는 여전히 절대적 우위를 가짐
  미국의 인프라 현실상 대규모 철도 개혁은 비현실적임
  일본처럼 철도가 발달해도 차량 보유율은 미국과 큰 차이가 없음
- 어디서든 원하는 곳으로, 개인 일정에 맞춰 안전하고 깨끗하게 이동할 수 있는 차량이 더 낫다고 생각함
- 그래도 Waymo는 운전자를 줄이고 차량 소유를 줄이는 전환점이 될 수 있음
이번 발표의 핵심은 2D 영상에서 3D LiDAR 데이터를 생성하는 기술임
DeepMind와 Google 인프라 접근성은 Waymo의 압도적 경쟁력임
- 사실 2D 영상에서 3D를 추정하는 기술은 수십 년 전부터 존재했음
- Metric3D 같은 monodepth 방식도 있지만, Waymo의 결과는 확실히 최신 수준(SOTA)임
홍수, 토네이도, 산불 등 시뮬레이션은 인상적이지만, 정전 사태처럼 흔한 상황에서 Waymo가 동시에 멈춘 건 의문임
이런 기본 시나리오를 처리하지 못한다면 시뮬레이션의 의미가 약함
- 시뮬레이션은 개별 차량의 성능을 높이지만, 정전 사태는 원격 지원 인력 과부하로 인한 전체 시스템 문제였음
  즉, 시뮬레이션은 여전히 가치 있지만 모든 실패를 막을 수는 없음
- 실제로 Waymo가 홍수 지역으로 진입한 사례도 있었음
  관련 영상
Waymo가 가상 반사실적(counterfactual) 상황을 훈련에 사용한다는 점이 위험해 보임
실제 비극적 사례보다 ‘잘 대처한 영상’이 더 많을 테니, 결과적으로 과도한 자신감을 학습할 수 있음
- 하지만 실제로는 ‘반사실적’이 아니라 희귀한 상황을 보완하기 위한 생성임
  Waymo가 토네이도나 코끼리를 만나도 멈추지 않고 대응하도록 하는 게 목적임
- 운전은 속도와 안전의 균형 문제임
  완전한 안전만 추구하면 차는 아예 움직이지 않게 됨
- 교차로에서 안전할 때 진입하지 않거나, 시속 5마일로만 주행하는 것도 잘못된 운전 행위임
  단순히 ‘느리면 안전하다’는 접근은 맞지 않음
world model이 실제 안전 상황에서는 편향된 데이터로 인해 위험할 수 있음
실패 사례가 거의 없는 데이터로 학습하면, 실제 사고 상황을 재현하지 못할 수 있음
- 하지만 Waymo는 이미 1억 마일 이상의 실제 주행 데이터로 학습 중임
  예시로 제시된 영상은 충돌 회피 사례를 보여줌
- 물론 여전히 편향 가능성은 존재하지만, LLM을 이용한 프롬프트 기반 시나리오 생성으로 다양성을 확보할 수 있음
  다만 “충분히 현실적인가?”라는 기준이 모호함
  인간도 100% 신뢰할 수 없으니, 10배 더 안전한 수준과 검증 가능한 코드 기반 안전장치가 결합된다면 사회적 수용성이 높아질 것임
DeepMind의 Project Genie가 Waymo의 기반 기술로 보임
관련 글: Genie 3: A new frontier for world models
Hacker News 토론: Genie 3, Project Genie
- DeepMind는 단순한 Alphabet 자회사가 아니라, Demis Hassabis가 Google AI 전체를 이끌고 있는 핵심 조직임
자율주행 학습의 벨 커브 밈이 떠오름
처음엔 물리 기반 시뮬레이터로 시작해, 실제 데이터를 수집하고, 다시 물리 정보를 반영한 딥러닝 시뮬레이터로 돌아오는 흐름임
- 결국 단순한 시뮬레이션 → 현실 데이터 → 희귀 현실을 위한 시뮬레이션으로 순환함
  이런 패턴에 이름을 붙여야 할 정도로 자연스러운 발전 단계처럼 보임

답변달기

Waymo 월드 모델: 자율주행 시뮬레이션의 새로운 경계

웨이모 월드 모델 개요

Genie 3 기반의 구조와 기능

다중모달 세계 지식

극한 기상 및 자연재해 시뮬레이션

희귀·안전 중요 사건

롱테일 객체 및 특이 상황

시뮬레이션 제어 기능

운전 동작 제어

장면 구성 제어

언어 제어

영상 기반 시뮬레이션 변환

확장 가능한 추론(Scalable Inference)

안전성과 확장성

Hacker News 의견들