4P by neo 11일전 | ★ favorite | 댓글 1개
  • Gemini 2.0을 로봇공학에 도입하여 비전-언어-행동(VLA) 모델과 공간을 이해하는 ER 모델을 발표함
  • Google DeepMind는 복잡한 문제를 해결하기 위해 텍스트, 이미지, 오디오, 비디오를 활용한 멀티모달 추론 능력을 발전시켜 왔음
  • 그러나 이러한 능력은 지금까지 디지털 환경에만 국한됨
  • 물리적 세계에서 AI가 유용해지려면 인간처럼 환경을 이해하고 반응하며, 안전하게 작업을 수행하는 "구체적 추론(embodied reasoning)" 능력이 필요함
  • 이에 따라 두 가지 새로운 모델 발표
    • Gemini Robotics: Gemini 2.0 기반으로 로봇을 직접 제어할 수 있는 비전-언어-행동(VLA) 모델
    • Gemini Robotics-ER: 향상된 공간 이해력과 로봇 제어 능력을 제공하는 모델
  • Apptronik과 협력해 다음 세대의 인간형 로봇을 개발 중
  • 소수의 신뢰할 수 있는 테스트 사용자와 협력해 모델 성능 개선 중

Gemini Robotics: 가장 발전된 비전-언어-행동 모델

1. 일반화 능력(Generality)

  • 새로운 상황에서도 적응하고 다양한 작업을 수행 가능
  • 새로운 사물, 명령 및 환경에서 우수한 성능 발휘
  • 기술 보고서에 따르면, 기존 VLA 모델 대비 일반화 성능이 2배 이상 향상됨

2. 상호작용 능력(Interactivity)

  • 자연어 명령을 이해하고 반응 가능
  • 다양한 언어 및 일상 언어 명령에 대응
  • 환경 변화에 실시간으로 반응하며 행동 수정 가능
  • 사물이 손에서 미끄러지거나 위치가 바뀌어도 즉시 재계획 후 작업 지속 가능

3. 손재주(Dexterity)

  • 세밀한 작업 수행 능력 강화
  • 복잡한 다단계 작업 수행 가능 (예: 종이접기, 지퍼백에 간식 담기 등)

4. 다양한 형태의 로봇 적용 가능(Multiple embodiments)

  • 다양한 로봇 형태에 쉽게 적용 가능
  • ALOHA 2, Franka 기반 로봇 및 인간형 Apollo 로봇에서 작동 확인

Gemini Robotics-ER: 강화된 공간 이해 능력

  • Gemini 2.0의 공간 인식 및 3D 탐지 성능 대폭 강화
  • 로봇이 사물의 위치를 인식하고 적절한 방식으로 조작 가능
  • 코드 생성 능력 결합 → 로봇이 새로운 작업 방식을 즉석에서 생성 가능
  • 성공률이 Gemini 2.0 대비 2~3배 향상됨
  • 시연 예시: 커피잔의 손잡이를 인식하고 안전한 경로로 접근해 집어 올림

AI 및 로봇의 안전 강화 전략

  • 로봇의 물리적 안전 문제 해결에 초점
  • 로봇이 충돌 방지, 접촉력 제한, 동적 안정성 유지 등 전통적인 안전 조치 수행
  • Gemini Robotics-ER은 안전이 우려될 경우 작업 수행 여부를 판단하고 적절히 대응
  • 새로운 ASIMOV 데이터셋 출시 → 로봇 행동의 안전성 평가 및 개선 목적
  • 내부 책임 및 안전 위원회와 외부 전문가와 협력해 윤리적 문제 해결

주요 파트너 및 향후 계획

  • Apptronik과 협력해 인간형 로봇 개발
  • Agile Robots, Agility Robots, Boston Dynamics, Enchanted Tools 등에서 Gemini Robotics-ER 테스트 중
  • 향후 AI와 로봇 기술의 발전을 지속 추진할 계획

관련 링크

Hacker News 의견
  • YouTube에서 20개의 비디오 데모를 볼 수 있는 전체 재생 목록 링크가 있음
  • 이전에 Google Gemini의 인상적인 데모가 조작된 적이 있었음을 기억하는 사람이 없는지 궁금함
  • 아시모프의 로봇 법칙이 흥미로운 SF 소품이지만 실제 컴퓨팅과는 거리가 멀다고 생각했음
    • 알고 보니 아시모프는 시대를 앞서 LLM 프롬프트를 작성하고 있었음
  • 쓰레기 분류가 더 쉽고 빨라진다면 재활용 효율성을 100배 향상시킬 수 있을 것임
    • 이미 그렇게 하는 곳도 있지만, 로봇이 세상을 개선할 수 있는 단순 작업이 많음
  • 메인 비디오 끝부분에서 로봇이 풀리에 원형 벨트를 끼우는 장면이 인상적이었음
    • 훈련 데이터에 이와 같은 행동이 많겠지만, 셔츠 접기나 물건 분류보다 직관적으로 느껴졌음
    • 페이지에서 비디오 자동 재생/일시정지/스크롤 기능이 고장난 것 같음
  • 실시간 양방향 번역기로 작동하는 장치를 원함
    • 독일어나 다른 언어를 배우는 데 시간을 낭비하지 않고 그곳에서 생활할 수 있으면 좋겠음
    • 영어만으로 음식 주문과 행정 처리를 할 수 있다면 놀라운 일일 것임
  • 누구나 중국에서 로봇 팔을 주문해 차고에 설치하고 LLM처럼 텍스트로 프로그래밍할 수 있게 될 것임
    • 더 큰 생각을 할 때임
  • 비디오가 실제 성능을 나타내는지 마케팅 전략인지 확신할 수 없지만 인상적임
    • Iron Man 1의 로봇 팔을 연상시킴
  • 로봇이 식사를 준비할 수 있을 정도로 능숙해지면, 일자리 시장의 전환점이 될 것임
    • 현재 모델은 그 수준에 도달하지 않았지만, 향후 몇 년간 합성 데이터 생성에 대한 큰 투자가 그 수준에 가까워질지 지켜볼 것임
  • Google의 문제는 광고 사업이 너무 많은 수익을 가져와 다른 제품이 의미가 없다는 것임
    • 로봇을 통해 배운 것을 광고 수익을 높이는 데 사용할 것임