RT-2: Vision-Language-Action Models
(robotics-transformer2.github.io)- "Robotics-Trasformer 2" : 웹의 지식을 로봇 제어에 전달하기
- 인터넷 규모의 데이터로 학습된 비젼-언어 모델을 E2E 로봇 제어에 직접 통합
- 로봇의 동작을 텍스트 토큰으로 변환하여 비전-언어 데이터모델과 함께 사용가능한 별도의 언어처럼 정리, 작업 명령을 액션으로 변환
- (기존에 학습하지 않았던) 완전히 새로운 개체를 로봇에게 제시해도 잘 이해하고 작업을 수행함
- "put strawberry into the correct bowl"
- "place orange in matching bowl"
Google’s RT-2 AI model brings us one step closer to WALL-E
Arstechnica 의 기사 제목이 더 설명이 쉽긴 하네요. LLM의 발전이 로봇제어에 있어서는 새로운 혁신이 될듯