Gemini Robotics-ER 1.6: 향상된 체화 추론

(deepmind.google)

1P by GN⁺ 3달전 | ★ favorite | 댓글 1개

로봇이 물리적 환경을 정밀하게 이해하고 자율적으로 행동할 수 있도록 설계된 향상된 체화 추론(embodied reasoning) 모델로, 공간 추론과 작업 계획 능력을 대폭 강화
시각·공간 이해, 성공 감지, 다중 시점 추론 등 로봇의 고차원 판단 기능을 수행하며, Google Search나 외부 함수 호출을 통해 복합 작업을 직접 처리
포인팅(Pointing) 기능으로 객체 탐지·비교·경로 추정 등 다양한 공간 논리를 수행하고, 이전 버전 대비 환각 오류를 줄이며 인식 정확도를 향상
계기판 판독(Instrument Reading) 기능을 새로 도입해 Boston Dynamics의 Spot 로봇이 산업 시설의 온도계·압력계 등을 정밀 해석 가능
안전 정책 준수율 향상과 커뮤니티 협력을 통해 실제 환경에서의 자율성과 신뢰성을 높인 점이 특징

Gemini Robotics-ER 1.6 개요

Gemini Robotics-ER 1.6은 로봇이 물리적 환경을 정밀하게 이해하고 자율적으로 행동할 수 있도록 설계된 향상된 체화 추론 모델
공간 추론, 다중 시점 이해, 작업 계획 및 성공 감지 등 로봇에 필수적인 고차원 추론 능력을 강화
Google Search, Vision-Language-Action(VLA) 모델, 외부 사용자 정의 함수 등 다양한 도구를 직접 호출해 작업 수행 가능
Gemini Robotics-ER 1.5와 Gemini 3.0 Flash 대비 공간 및 물리 추론(포인팅, 카운팅, 성공 감지)에서 현저한 성능 향상
Boston Dynamics와 협력해 개발된 계기판 판독(instrument reading) 기능을 새롭게 추가

주요 기능 및 성능 향상

Gemini Robotics-ER 1.6은 Gemini API와 Google AI Studio를 통해 개발자에게 제공
- GitHub의 Colab 예제를 통해 모델 설정 및 체화 추론 과제 프롬프트 구성 방법 제공
모델은 시각적·공간적 이해, 작업 계획, 성공 감지 등 로봇의 고차원 판단을 담당하는 상위 추론 엔진 역할 수행
에이전틱 비전(agentic vision) 을 활용해 시각적 추론과 코드 실행을 결합, 복잡한 물리적 환경에서도 높은 정확도 달성

포인팅(Pointing): 공간 추론의 기반

포인팅은 체화 추론 모델의 핵심 기능으로, 객체 탐지·비교·경로 추정 등 다양한 공간 논리에 활용
- 공간 추론: 정밀한 객체 탐지 및 개수 세기
- 관계 논리: 집합 내 최소 항목 식별, “X를 Y 위치로 이동”과 같은 관계 정의
- 운동 추론: 궤적 매핑 및 최적 파지 지점 식별
- 제약 조건 준수: “파란 컵 안에 들어갈 만큼 작은 모든 물체를 가리켜라”와 같은 복합 명령 처리
Gemini Robotics-ER 1.6은 포인팅을 중간 단계로 활용해 복잡한 작업을 단계적으로 해결
- 예: 이미지 내 물체 개수 세기, 수학적 계산을 위한 주요 지점 식별 등
실험 결과, 1.6은 망치·가위·페인트붓·펜치 등 다수 객체를 정확히 식별하고, 존재하지 않는 물체(예: 손수레, 드릴)는 가리키지 않음
- 1.5는 일부 객체를 잘못 인식하거나 존재하지 않는 물체를 환각(hallucination)함
- 3.0 Flash는 근접한 성능을 보이나 펜치 인식 정확도는 낮음

성공 감지(Success Detection): 자율성의 핵심 엔진

로봇이 작업 완료 시점을 인식하는 능력은 자율성의 핵심 요소
Gemini Robotics-ER 1.6은 다중 시점 추론(multi-view reasoning) 을 개선해 여러 카메라 피드 간 관계를 이해
- 복잡한 환경, 가려짐(occlusion), 조명 문제, 모호한 지시 등에서도 일관된 장면 해석 가능
- 예시: “파란 펜을 검은 펜 홀더에 넣기” 작업이 완료된 시점을 여러 시점의 영상으로 정확히 판단

계기판 판독(Instrument Reading): 실제 환경 시각 추론

산업 시설의 온도계, 압력 게이지, 시트글라스 등 계기를 해석하는 기능
- Boston Dynamics의 Spot 로봇이 시설 내 계기를 촬영하고, Gemini Robotics-ER 1.6이 이를 해석
원형 압력계, 수직 레벨 표시기, 디지털 계기 등 다양한 형태의 계기 판독 지원
판독 과정은 침전액 높이, 눈금, 단위 텍스트, 다중 바늘 등 복합 시각 요소를 통합적으로 해석
- 시트글라스의 경우 카메라 왜곡을 고려해 액체 높이를 추정
에이전틱 비전을 통해 확대(zoom), 포인팅, 코드 실행을 단계적으로 수행해 눈금 이하(sub-tick) 수준의 정밀 판독 달성
Boston Dynamics 부사장 Marco da Silva는 이 기능이 Spot이 완전 자율적으로 현실 세계의 문제를 인식·대응할 수 있게 한다고 언급

안전성 향상

Gemini Robotics-ER 1.6은 가장 안전한 로보틱스 모델로 평가
- Gemini 안전 정책에 대한 준수율이 이전 세대보다 높음
물리적 안전 제약 준수 능력 강화
- 예: “액체를 다루지 말라”, “20kg 이상 물체는 들지 말라” 등의 제약을 공간 출력(포인팅) 단계에서 반영
실제 부상 보고서를 기반으로 한 텍스트 및 비디오 안전 시나리오 인식 테스트에서
- Gemini 3.0 Flash 대비 텍스트 +6%, 비디오 +10% 향상
Safety Instruction Following 평가에서 1.5 대비 큰 개선, 포인팅 정확도도 향상

로보틱스 커뮤니티 협력

Google DeepMind는 Gemini Robotics-ER의 기능을 지속 개선하기 위해 로보틱스 커뮤니티와의 협력을 추진
- 특정 응용 분야에서 한계가 있는 경우, 10~50개의 라벨링된 이미지를 제출해 실패 사례를 공유하도록 요청
- 이를 통해 향후 릴리스에서 추론 기능의 견고성 강화 목표
Gemini Robotics-ER 1.6은 Google AI Studio에서 즉시 체험 가능

GN⁺ 3달전 [-]

Hacker News 의견들

인간 혹은 동물의 행동을 모사하는 수준까지 점점 가까워지고 있는 느낌임
뇌처럼 작동하는 오케스트레이션 패턴을 생성 모델 위에 얹을 수 있다면, 추론 속도만 충분히 빠르다면 훨씬 많은 걸 할 수 있을 것 같음
예를 들어, 게이지를 읽는 파이썬 스크립트를 생성하고 실행하는 건 현재는 느리지만, 속도가 100배~1000배 빨라지면 모델이 사진을 찍고 미래를 시뮬레이션하며 스스로 의사결정을 내리는 루프를 만들 수 있을 것 같음
- Taalas가 모델을 칩 위에 직접 임베딩해서 초고속 추론을 구현하는 실험을 하고 있음
  다만 사용 중인 모델이 오래된 Llama라 품질은 낮지만, 확장 가능성이 있다면 정말 대단한 일일 것 같음
- Taalas는 LLM을 ASIC으로 변환해 1만 토큰 이상을 빠르게 생성할 수 있음을 보여줬음
  결국 시간 문제일 뿐이라고 생각함
- 인간 행동을 모사하는 게 정말 가치 있는 목표인지 의문임
  인간은 사냥과 도구 제작의 진화적 산물인데, 실제 산업 자동화는 인간형이 아니라 R2D2처럼 실용적 형태로 발전해왔음
  가정용 로봇도 그쪽에 더 가까울 것 같음
- 만약 ‘slop 이미지’를 ‘slop 머신’에 넣으면 ‘slop²’이 나오는 건 어떨까 하는 농담임
땅 한 필지와 로봇 다리, 팔, 배터리, GPU, 태양광 패널을 준비하고
프롬프트로 “이 땅을 관리하고 채소를 재배하라”고 하면 어떨까 하는 상상임
- 아직 결과는 미지수지만, 전통적인 프롬프트는 “생육하고 번성하라”였음
- “이 땅을 관리하라”는 말이 캘리포니아 원주민들이 수천 년간 해온 소규모 화재 관리를 의미할 수도 있음
  일본의 사토야마, 아프리카의 윤작, 러시아의 등고선 농법 등 각 지역마다 고유한 방식이 있었음
  결국 땅을 돌보는 방법은 지역성과 목표에 따라 달라진다는 점을 강조함
- Proof of Corn 같은 실험이 실제로 어떻게 되고 있는지 궁금함
- “끝났다! 이제 지구 전체가 채소밭이 되었음”이라는 농담임
Google과 Boston Dynamics가 협력해 모델을 함께 개발 중이며,
현재는 Hyundai가 Boston Dynamics를 인수해 공장 자동화에 로봇을 투입하려 하고 있음
압력 게이지를 카메라로 찍어 그래프로 기록하는 소프트웨어가 있으면 좋겠다고 생각했음
소비자용으로 그런 게 있는지 궁금함
- Claude에게 요청하면 한 번에 만들어줄 수 있음, 홈 어시스턴트 대시보드까지 포함해서
- 집 주변 계량기에 카메라가 달리면 공무원 반응이 어떨지 궁금함
- OpenCV를 살펴보면 됨
- Frigate나 Openclaw로도 가능하지만, 전자는 과하고 후자는 약간 덜 과한 수준임
아날로그 계기를 로봇이 읽는 게 맞는 접근인지 의문임
그냥 디지털 센서로 바꾸는 게 낫지 않나 싶음
- 하지만 실제로 교체하려면 엔지니어링 승인, 공장 셧다운, 배선, SCADA 연동 등 비용과 절차가 엄청남
  단순 비교가 어렵고, 이런 변경의 복잡성을 과소평가하기 쉬움
- 장비를 멈추고 교체하는 대신 IoT 카메라를 설치하는 게 훨씬 저렴하고 신뢰성 있을 수 있음
  “고장 나지 않았다면 굳이 고치지 말라”는 원칙이 통함
내 ‘LLMs can control robots over MCP’ 시스템에 이걸 연결하면 완벽할 것 같음
LLM이 코드를 잘 쓰니, 그 능력을 활용해보려 함
새로 산 큰 로봇으로 테스트해볼 예정임
관련 포스트
- 2주 전쯤 본 Google PaLM-E 관련 영상이 떠오름
  로봇 제어 모델과 LLM을 attention layer로 결합한 구조였음
지연(latency) 부분이 가장 궁금했음
일부 인식 작업에서는 frontier vision 모델보다 낫지만, 로봇용이라면 Hz 단위 성능이 중요함
아마 느릴 것으로 추정함
- AI Studio에서 테스트해보니 3.1 Pro 수준의 인식 성능이지만 훨씬 빠름
  몇 초만 ‘생각’하고 결과를 냄
  동물 다리 수 세기나 아날로그 시계 읽기 등에서는 모델의 효율 대비 성능이 매우 높았음
“가장 안전한 로봇 모델”이라는 표현이 흥미로움
Gemini Robotics-ER 1.6은 이전 세대보다 안전 정책 준수율이 높지만,
여전히 완전한 상용 단계는 아니며 목표로서의 안전성을 추구하는 접근이 현실적임
로봇용 AI는 GPT-2, GPT-3 수준의 내부 모델이 있을 수 있지만,
일상 환경에서의 실패는 치명적이기 때문에 공개하기 어렵다고 생각함
예를 들어 식기세척기에서 접시 하나만 깨도 큰 문제로 여겨질 것임
- 주말에 Bicentennial Man(1999)을 봤는데, 식기세척 장면이 인상적이었음
  지금 시점에 보기 좋은 영화였음
- 접시 하나 깨는 게 그렇게 큰 문제는 아닐 수도 있음
  초기 Roomba도 자주 엉망이었지만 시장은 받아들였고, 결국 발전했음
  완벽하지 않아도 먼저 데이터를 수집하며 시장에 진입하는 게 중요하다고 생각함
- 나도 식기세척기에서 접시를 깨뜨린 적이 많음
  완벽한 시스템은 없음
- 인간인 나도 한 달에 두 번은 접시를 깨뜨림
  로봇이 그보다 낫다면 오히려 개선임
- 로보틱스에는 아직 인터넷 규모의 데이터가 부족함
  GPT급 모델이 있다고 주장하는 건 솔직하지 않다고 봄
Google이 Gemini Flash 3.1을 정식 공개할 때까지
지금 모델을 계속 써야 하는지 고민 중임

답변달기

Gemini Robotics-ER 1.6: 향상된 체화 추론

Gemini Robotics-ER 1.6 개요

주요 기능 및 성능 향상

포인팅(Pointing): 공간 추론의 기반

성공 감지(Success Detection): 자율성의 핵심 엔진

계기판 판독(Instrument Reading): 실제 환경 시각 추론

안전성 향상

로보틱스 커뮤니티 협력

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들