Waymo, 자율주행을 위한 End-to-End 멀티모달 모델 EMMA 공개

(waymo.com)

주요 연구 내용

멀티모달 모델이 자율주행에 어떻게 적용될 수 있는지 보여줌
End-to-End 방식의 장단점을 탐구함
멀티모달 세계지식 활용의 이점을 강조함
- 공간 이해력과 추론 능력이 필요한 자율주행 작업에서도 도움이 됨
여러 주요 자율주행 작업에 대해 긍정적인 전이학습 효과를 입증함
- 경로계획, 객체인식, 도로그래프 이해 등을 공동학습하면 개별 학습보다 성능이 향상됨
- 더 많은 핵심 자율주행 작업을 유사한 방식으로 통합하는 것이 유망한 연구 방향임을 시사함

주요 특징:

End-to-End 학습
- 카메라 입력과 텍스트 데이터를 처리하여 경로, 인식 객체, 도로 그래프 요소 등 다양한 출력을 생성함
통합된 언어 공간
- 비센서 입출력을 자연어 텍스트로 표현하여 Gemini의 세계 지식을 최대한 활용함
연쇄 사고 추론
- 연쇄 사고 추론을 통해 의사결정 과정을 개선하여 End-to-End 계획 성능을 6.7% 향상시키고 운전 결정에 대한 해석 가능한 근거를 제공함

공개 및 내부 벤치마크에서 최고 수준의 성능을 달성함
- End-to-End 경로계획, 카메라 기반 3D 객체인식, 도로그래프 예측, 장면 이해 등
공동학습을 통해 성능이 향상됨
- 하나의 EMMA 모델로 여러 작업의 출력을 동시에 생성하면서 개별 학습 모델과 동등하거나 우수한 성능을 보임
- 많은 자율주행 응용에 활용 가능한 범용 모델로서의 잠재력을 보여줌

EMMA는 자율주행 기술 발전에 중요한 이정표가 될 연구임
- 멀티모달 학습의 강점을 잘 보여주는 사례임
- 여러 자율주행 핵심 작업을 통합하는 것이 성능 향상에 도움이 됨을 입증함
아직 실제 주행에 바로 적용하기에는 한계가 있지만, 관련 기술 개발에 좋은 참고자료가 될 것임
- 특히 장기 메모리, 멀티모달 퓨전, 시뮬레이션 최적화 등은 앞으로 중점적으로 연구되어야 할 분야임
자율주행 뿐만 아니라 의료, 제조, 재난 대응 등 다양한 분야에서 멀티모달 AI 기술이 활용될 수 있을 것으로 기대됨
- 데이터 형태가 다양하고 의사결정이 중요한 영역에서 특히 도움이 될 것임
다만 멀티모달 모델의 블랙박스 특성상 설명가능성과 윤리성 문제가 대두될 수 있음
- 모델의 편향성을 최소화하고 출력 결과에 대한 근거를 제시하는 것이 중요할 것임
유사한 연구로는 NVIDIA의 DriveNet, Wayve의 AV2.0, Tesla의 FSD 등이 있음
- 각 기업마다 조금씩 다른 접근법을 취하고 있지만 멀티모달 학습을 공통적으로 활용하고 있음
- 기업 간 경쟁과 협력을 통해 자율주행 기술이 더욱 발전할 것으로 기대됨