# Waymo, 자율주행을 위한 End-to-End 멀티모달 모델 EMMA 공개

> Clean Markdown view of GeekNews topic #17618. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=17618](https://news.hada.io/topic?id=17618)
- GeekNews Markdown: [https://news.hada.io/topic/17618.md](https://news.hada.io/topic/17618.md)
- Type: news
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-11-06T10:51:02+09:00
- Updated: 2024-11-06T10:51:02+09:00
- Original source: [waymo.com](https://waymo.com/blog/2024/10/introducing-emma/)
- Points: 5
- Comments: 0

## Summary

Waymo는 자율주행을 위한 End-to-End 멀티모달 모델 EMMA를 공개했으며, 이는 구글의 Gemini 멀티모달 LLM을 활용하여 센서 데이터에서 차량의 미래 궤적을 생성하고 자율주행에 특화된 학습을 통해 도로 상황에 대한 이해력을 높입니다. EMMA는 경로계획, 3D 객체인식 등 다양한 자율주행 작업에서 최고 수준의 성능을 달성했으며, 여러 작업을 공동학습하여 성능을 향상시킵니다. 그러나 장기 비디오 시퀀스 처리의 제한, 라이다 및 레이더 입력의 미활용 등의 한계가 있으며, 향후 멀티모달 기술을 통해 자율주행 시스템의 성능과 일반화 능력을 높일 가능성을 탐구하고 있습니다.

## Topic Body

- EMMA: End-to-End Multimodal Model for Autonomous Driving  
- 구글의 Gemini 멀티모달 LLM을 활용하여 센서 데이터에서 직접 차량의 미래 궤적을 생성함  
- 자율주행에 특화된 학습과 미세조정을 통해 도로 상황에 대한 이해력을 높임  
  
### 주요 연구 내용  
- 멀티모달 모델이 자율주행에 어떻게 적용될 수 있는지 보여줌   
- End-to-End 방식의 장단점을 탐구함  
- 멀티모달 세계지식 활용의 이점을 강조함  
  - 공간 이해력과 추론 능력이 필요한 자율주행 작업에서도 도움이 됨  
- 여러 주요 자율주행 작업에 대해 긍정적인 전이학습 효과를 입증함  
  - 경로계획, 객체인식, 도로그래프 이해 등을 공동학습하면 개별 학습보다 성능이 향상됨  
  - 더 많은 핵심 자율주행 작업을 유사한 방식으로 통합하는 것이 유망한 연구 방향임을 시사함  
  
### EMMA 소개  
- EMMA는 대규모 멀티모달 학습 모델과 기술을 더 많은 영역에 통합하려는 AI 연구 트렌드를 반영함  
- Gemini를 기반으로 경로계획, 3D 객체인식 등 자율주행 작업에 특화된 모델을 만듦  
  
주요 특징:  
1. End-to-End 학습  
   - 카메라 입력과 텍스트 데이터를 처리하여 경로, 인식 객체, 도로 그래프 요소 등 다양한 출력을 생성함   
2. 통합된 언어 공간  
   - 비센서 입출력을 자연어 텍스트로 표현하여 Gemini의 세계 지식을 최대한 활용함  
3. 연쇄 사고 추론  
   - 연쇄 사고 추론을 통해 의사결정 과정을 개선하여 End-to-End 계획 성능을 6.7% 향상시키고 운전 결정에 대한 해석 가능한 근거를 제공함  
  
### 주요 성과  
- 공개 및 내부 벤치마크에서 최고 수준의 성능을 달성함  
  - End-to-End 경로계획, 카메라 기반 3D 객체인식, 도로그래프 예측, 장면 이해 등  
- 공동학습을 통해 성능이 향상됨   
  - 하나의 EMMA 모델로 여러 작업의 출력을 동시에 생성하면서 개별 학습 모델과 동등하거나 우수한 성능을 보임  
  - 많은 자율주행 응용에 활용 가능한 범용 모델로서의 잠재력을 보여줌  
  
### 한계점  
- 장기 비디오 시퀀스 처리에 제한이 있어 실시간 주행 상황 추론에 어려움이 있음  
  - 장기 메모리가 필수적임   
- 라이다, 레이더 입력을 활용하지 않음  
  - 정교한 3D 센싱 인코더 통합이 필요함  
- 효율적인 시뮬레이션 방법, 최적화된 모델 추론 시간, 중간 의사결정 단계 검증 등의 과제가 있음  
  
### 향후 전망  
- EMMA가 독립적인 주행 모델로서는 한계가 있지만, 멀티모달 기술로 자율주행시스템의 성능과 일반화 능력을 높일 수 있음을 보여줌  
- 첨단 AI 기술을 실제 작업에 적용함으로써 AI의 역량을 복잡하고 역동적인 환경으로 확장하고 있음  
- 불확실한 상황에서 다양한 입력을 기반으로 신속하고 정확한 의사결정이 필요한 다른 중요 분야에도 AI가 도움이 될 수 있음  
- 멀티모달 대규모 언어모델의 자율주행 활용 가능성을 탐구하면서 도로 안전과 접근성 향상에 기여하고자 함  
- 복잡한 실제 환경을 더 효과적으로 탐색하고 추론할 수 있는 AI 발전에 기여할 것으로 기대됨  
  
### GN⁺의 의견  
- EMMA는 자율주행 기술 발전에 중요한 이정표가 될 연구임   
  - 멀티모달 학습의 강점을 잘 보여주는 사례임  
  - 여러 자율주행 핵심 작업을 통합하는 것이 성능 향상에 도움이 됨을 입증함  
- 아직 실제 주행에 바로 적용하기에는 한계가 있지만, 관련 기술 개발에 좋은 참고자료가 될 것임  
  - 특히 장기 메모리, 멀티모달 퓨전, 시뮬레이션 최적화 등은 앞으로 중점적으로 연구되어야 할 분야임  
- 자율주행 뿐만 아니라 의료, 제조, 재난 대응 등 다양한 분야에서 멀티모달 AI 기술이 활용될 수 있을 것으로 기대됨  
  - 데이터 형태가 다양하고 의사결정이 중요한 영역에서 특히 도움이 될 것임  
- 다만 멀티모달 모델의 블랙박스 특성상 설명가능성과 윤리성 문제가 대두될 수 있음  
  - 모델의 편향성을 최소화하고 출력 결과에 대한 근거를 제시하는 것이 중요할 것임  
- 유사한 연구로는 NVIDIA의 DriveNet, Wayve의 AV2.0, Tesla의 FSD 등이 있음  
  - 각 기업마다 조금씩 다른 접근법을 취하고 있지만 멀티모달 학습을 공통적으로 활용하고 있음  
  - 기업 간 경쟁과 협력을 통해 자율주행 기술이 더욱 발전할 것으로 기대됨

## Comments


_No public comments on this page._