RT-2: Vision-Language-Action Models

(robotics-transformer2.github.io)

7P by xguru 2023-08-02 | ★ favorite | 댓글 2개

"Robotics-Trasformer 2" : 웹의 지식을 로봇 제어에 전달하기
인터넷 규모의 데이터로 학습된 비젼-언어 모델을 E2E 로봇 제어에 직접 통합
로봇의 동작을 텍스트 토큰으로 변환하여 비전-언어 데이터모델과 함께 사용가능한 별도의 언어처럼 정리, 작업 명령을 액션으로 변환
(기존에 학습하지 않았던) 완전히 새로운 개체를 로봇에게 제시해도 잘 이해하고 작업을 수행함
- "put strawberry into the correct bowl"
- "place orange in matching bowl"

xguru 2023-08-02 [-]

Google’s RT-2 AI model brings us one step closer to WALL-E

Arstechnica 의 기사 제목이 더 설명이 쉽긴 하네요. LLM의 발전이 로봇제어에 있어서는 새로운 혁신이 될듯

xguru 2023-08-02 [-]

Google, 자신을 프로그램할 수 있는 로봇을 테스트 중
ChatGPT for Robotics : 설계 원칙과 모델 능력