RoboCat - 자가 개선 로봇 에이전트

(deepmind.com)

10P by kuroneko 2023-06-21 | ★ favorite | 댓글 3개

Google DeepMind가 로봇팔을 통해 여러 작업을 수행하며 스스로 학습하는 RoboCat을 소개함.
실제 환경과 시뮬레이션 환경 모두에서 동작할 수 있는 멀티 모달 모델인 Gato(스페인어로 '고양이')를 기반으로 함.
- 자체 개선을 위해 먼저 새로운 작업에 대해 실제 데이터를 수집함.
- 실제 데이터를 기반으로 기본 모델을 미세 조정하여 스핀오프 에이전트를 생성.
- 새로운 에이전트가 약 1만 회 연습하여 교육 데이터셋을 제작.
- 실제 데이터와 자체 생성 데이터를 RoboCat의 교육 데이터 세트에 통합.
- 새 버전의 RoboCat 훈련.
이를 통해 관절이 더 많거나 집게가 더 많은 새로운 로봇팔에 몇 시간 내에 적응이 가능함.
또한 교육의 선순환이 이루어지며 특정 작업에서 36%의 성공률을 보인 초기 모델이 두 배 넘게 올라 74%까지 상승.

▲

nicewook 2023-06-21 [-]

드디어 인공지능이 리얼월드를 만나고 체험하는 장이 열리는 군요

답변달기

▲

kuroneko 2023-06-21 [-]

HN 스레드 댓글이 너무 웃기네요.
저도 딱 비슷한 생각을 했는데 로봇 고양이를 기대한 건 저뿐이었나요? 조금 실망스럽네요... 라고...

로봇팔에 고양이 스티커라도 붙여주면 좋겠어요.

답변달기

▲

kuroneko 2023-06-21 [-]

논문을 요약해보니 이렇게 나옵니다.

RoboCat는 로봇 조작을 위한 자가 개선 기반 에이전트입니다. 이는 다중 시뮬레이션 및 실제 로봇 팔을 사용한 로봇 작업의 대규모이고 다양한 데이터셋으로 훈련됩니다.

RoboCat의 주요 목표는 다음과 같습니다.

최소한의 데이터로 새로운 작업 및 로봇에 대해 일반화합니다. RoboCat은 100에서 1000개의 데모 예제만 사용하여 새로운 작업 및 로봇에 적응할 수 있습니다.
반복적인 과정을 통해 자가 개선합니다. 세밀하게 조정된 RoboCat 모델은 더 많은 훈련 데이터를 생성하기 위해 사용되며, 이 데이터는 훈련 세트에 추가되어 일반적인 에이전트를 개선합니다.
다른 작업 및 관찰 공간을 가진 여러 구현을 처리합니다. RoboCat은 최대 14개의 자유도와 다른 그리퍼를 가진 팔에서 테스트됩니다.
다양한 모양, 크기 및 질감의 물체를 사용한 다양한 민첩한 조작 작업을 해결합니다. 작업에는 쌓기, 삽입, 들기 등이 포함됩니다.

주요 결과는 다음과 같습니다.

RoboCat의 훈련 데이터가 증가하고 다양해짐에 따라, 교차 작업 전송이 더 잘되며 새로운 작업에 대한 적응이 더욱 효율적으로 이루어집니다.
RoboCat은 적은 양의 데모 데이터만 사용하여 새로운 작업 및 로봇에 성공적으로 적응할 수 있으며, 기준선과 비교하여 학습 노력이 적게 필요합니다.
자가 개선을 통해 훈련 데이터를 확장함으로써 RoboCat은 원래 훈련 작업에서 더 잘 수행되며, 세밀하게 조정됩니다.

요약하면, 대규모이고 다양한 데이터셋으로 훈련된 로봇 조작을 위한 자가 개선 기반 에이전트인 RoboCat은 세밀하게 조정하고 자가 개선을 통해 새로운 작업 및 로봇에 대해 최소한의 데이터로 일반화할 수 있음을 보여줍니다. 대규모로 이질적인 로봇 경험을 활용하는 능력은 로봇 학습을 변혁시킬 수 있는 잠재력을 가지고 있습니다.

답변달기