- Gemini 2.0을 로봇공학에 도입하여 비전-언어-행동(VLA) 모델과 공간을 이해하는 ER 모델을 발표함
- Google DeepMind는 복잡한 문제를 해결하기 위해 텍스트, 이미지, 오디오, 비디오를 활용한 멀티모달 추론 능력을 발전시켜 왔음
- 그러나 이러한 능력은 지금까지 디지털 환경에만 국한됨
- 물리적 세계에서 AI가 유용해지려면 인간처럼 환경을 이해하고 반응하며, 안전하게 작업을 수행하는 "구체적 추론(embodied reasoning)" 능력이 필요함
- 이에 따라 두 가지 새로운 모델 발표
-
Gemini Robotics: Gemini 2.0 기반으로 로봇을 직접 제어할 수 있는 비전-언어-행동(VLA) 모델
-
Gemini Robotics-ER: 향상된 공간 이해력과 로봇 제어 능력을 제공하는 모델
- Apptronik과 협력해 다음 세대의 인간형 로봇을 개발 중
- 소수의 신뢰할 수 있는 테스트 사용자와 협력해 모델 성능 개선 중
Gemini Robotics: 가장 발전된 비전-언어-행동 모델
1. 일반화 능력(Generality)
- 새로운 상황에서도 적응하고 다양한 작업을 수행 가능
- 새로운 사물, 명령 및 환경에서 우수한 성능 발휘
- 기술 보고서에 따르면, 기존 VLA 모델 대비 일반화 성능이 2배 이상 향상됨
2. 상호작용 능력(Interactivity)
- 자연어 명령을 이해하고 반응 가능
- 다양한 언어 및 일상 언어 명령에 대응
- 환경 변화에 실시간으로 반응하며 행동 수정 가능
- 사물이 손에서 미끄러지거나 위치가 바뀌어도 즉시 재계획 후 작업 지속 가능
3. 손재주(Dexterity)
- 세밀한 작업 수행 능력 강화
- 복잡한 다단계 작업 수행 가능 (예: 종이접기, 지퍼백에 간식 담기 등)
4. 다양한 형태의 로봇 적용 가능(Multiple embodiments)
- 다양한 로봇 형태에 쉽게 적용 가능
- ALOHA 2, Franka 기반 로봇 및 인간형 Apollo 로봇에서 작동 확인
Gemini Robotics-ER: 강화된 공간 이해 능력
- Gemini 2.0의 공간 인식 및 3D 탐지 성능 대폭 강화
- 로봇이 사물의 위치를 인식하고 적절한 방식으로 조작 가능
-
코드 생성 능력 결합 → 로봇이 새로운 작업 방식을 즉석에서 생성 가능
- 성공률이 Gemini 2.0 대비 2~3배 향상됨
- 시연 예시: 커피잔의 손잡이를 인식하고 안전한 경로로 접근해 집어 올림
AI 및 로봇의 안전 강화 전략
- 로봇의 물리적 안전 문제 해결에 초점
- 로봇이 충돌 방지, 접촉력 제한, 동적 안정성 유지 등 전통적인 안전 조치 수행
- Gemini Robotics-ER은 안전이 우려될 경우 작업 수행 여부를 판단하고 적절히 대응
- 새로운 ASIMOV 데이터셋 출시 → 로봇 행동의 안전성 평가 및 개선 목적
- 내부 책임 및 안전 위원회와 외부 전문가와 협력해 윤리적 문제 해결
주요 파트너 및 향후 계획
-
Apptronik과 협력해 인간형 로봇 개발
-
Agile Robots, Agility Robots, Boston Dynamics, Enchanted Tools 등에서 Gemini Robotics-ER 테스트 중
- 향후 AI와 로봇 기술의 발전을 지속 추진할 계획
관련 링크