Google은 어떻게 Gemini Robotics 모델을 개발했나
(blog.google)- Google DeepMind는 물리적 작업이 가능한 차세대 로봇용 멀티모달 AI 모델인 Gemini Robotics를 개발
- 해당 모델은 텍스트, 비디오, 오디오뿐만 아니라 실제 행동까지 수행할 수 있도록 Gemini 2.0을 로봇 특화 데이터로 파인튜닝한 버전
- 로봇이 샐러드 만들기, 틱택토 게임, 종이접기, 점심 도시락 포장 등 다양한 작업을 수행
실제 테스트 사례 및 가능성 확인
- 연구용 ALOHA 이중 팔 로봇에 다양한 작업 요청
- 예: 신발 안에 펜 넣기, 농구공 덩크슛 요청 등
- 로봇이 이전에 본 적 없는 물체와 작업임에도 요청을 이해하고 첫 시도에 성공적으로 수행함
- 기존 모델들과는 달리 복잡한 물리적 명령을 자연어로 이해하고 실행 가능
Gemini Robotics의 핵심 특징
-
높은 유연성, 상호작용 능력, 일반화 능력 보유
- 추가 훈련 없이도 새로운 물체, 환경, 지시에 적응 가능
- AI와 로봇을 하나의 통합된 에이전트로 구현할 수 있는 기반 마련
- 인간과 비슷한 인식 및 판단, 행동 능력 제공
구성 모델 소개
-
Gemini Robotics-ER (Embodied Reasoning):
- Gemini 2.0 Flash 기반
- 물체 인식, 위치 파악, 이동 궤적 예측, 그립 설정 등을 통해 코드를 생성하고 실행함
- 신뢰받는 테스터 및 파트너에게 공개 중
-
Gemini Robotics:
- 비전-언어-행동 통합 모델
- 장면 이해, 사용자와의 상호작용, 다단계 작업 수행 가능
- 복잡한 조작과 공간 추론이 필요한 작업에서도 최신 최고 수준의 손재주 성능 기록
구체적 기술 능력
- 2D 및 3D 객체 탐지
- 포인팅(지시) 기능
- 여러 뷰에서의 대응점 찾기
- 다양한 시각 정보를 활용한 조작 능력 확보
훈련 접근 방식과 장점
- 기존 산업 방식인 단일 작업 반복 훈련이 아닌, 다양한 작업을 통한 광범위한 학습 선택
- 그 결과, 일반화 능력이 자연스럽게 나타남
- 다양한 형태의 로봇에 적용 가능
- 예: ALOHA(연구용), Apptronik의 Apollo(휴머노이드 로봇)
다양한 형태의 로봇 지원
- 도시락 포장, 화이트보드 지우기, 작은 물체 집기 등 다양한 형태의 로봇이 다양한 작업을 수행함
- 하나의 모델이 여러 로봇에 적응 가능하다는 점이 핵심
향후 비전
- 정밀한 작업이 요구되거나 인간에게 적합하지 않은 환경의 산업 분야에서 유용성 기대
- 가정 등 인간 중심 환경에서도 도움이 되는 로봇으로 발전할 가능성 있음
- 실제 일상에서 로봇이 AI와의 또 다른 인터페이스가 될 수 있음
Hacker News 의견
- 그들은 그것을 할 수 있지만, 여전히 Pixel 폰의 Gemini Assistant는 타이머 설정이나 쇼핑 목록 추가에 실패함. (Google Assistant에서는 잘 작동했음)
- "어떻게"에 대한 설명이 전혀 없지만, 이 기능이 반쯤이라도 신뢰성 있게 작동한다면 ChatGPT의 100배 정도의 영향을 미칠 것임
- AI와 로봇 공학의 발전은 매우 흥미로움. Gemini 같은 복잡한 시스템으로 인해 기업들은 이러한 혁신을 실현하기 위해 전문 팀에 의존해야 할 것임
- AI 연구나 로봇 공학 엔지니어 같은 특정 역할을 아웃소싱하면, 기업은 정규직 채용의 부담 없이 최고 수준의 인재를 영입할 수 있음
- 아웃소싱이 로봇 공학 같은 첨단 산업의 연구개발을 어떻게 보완할 수 있는지 보는 것이 흥미로움
- 특히 확장성과 시장 진입 속도 측면에서 산업이 어떻게 변화할지 궁금함
-
결국 누군가가 집안일을 도와줄 것 같음
- 아, 좋음. 다만, 그 이면에는 모두 군사적 목적이 있지만, 그들이 우리의 빨래를 접어줄 것이라고 생각하게 하려는 시도가 좋음
- "농구공을 집어 덩크슛을 하라". 우리가 오랫동안 기다려온 킬러 사용 사례임 :)
- Google의 로봇 기술(소프트웨어와 하드웨어)이 최첨단이라 하더라도, 실제로 이를 제품화할 수 있을지 의문임
- 그들이 트랜스포머에서 선두주자였지만 ChatGPT에게 모든 이점을 잃어버린 것과 유사해 보임
- Google이 연구에서 제품으로 효과적으로 전환하지 못하는 무언가가 있는 것 같음
- Waymo가 오늘날 제품/시장 적합성에 도달했다고 생각한다면 좋은 반례일 수 있지만, Google이 대개 시장에 내놓지 못하거나, 내놓더라도 자리 잡기 전에 포기하는 것 같다는 느낌을 지울 수 없음
- 그들의 로봇 공학 노력에 대해 강한 느낌이나 통찰력이 있는 사람이 있는지 궁금함
- 이러한 로봇이 언젠가 방위 산업에 사용될 가능성을 생각하면 무서움
- 로봇이 "지우개를 치워라" 같은 일반적인 명령을 이해한다면, "모든 적을 제거하라"는 명령을 상상해보라
- 그냥 궁금한데, 누군가를 죽이라고 명령하면 어떻게 할까? 로봇 공학의 법칙을 따를까?
- 만우절!