# Gemini Robotics-ER 1.6: 향상된 체화 추론

> Clean Markdown view of GeekNews topic #28585. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=28585](https://news.hada.io/topic?id=28585)
- GeekNews Markdown: [https://news.hada.io/topic/28585.md](https://news.hada.io/topic/28585.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2026-04-16T11:33:12+09:00
- Updated: 2026-04-16T11:33:12+09:00
- Original source: [deepmind.google](https://deepmind.google/blog/gemini-robotics-er-1-6/)
- Points: 1
- Comments: 1

## Topic Body

- 로봇이 물리적 환경을 정밀하게 이해하고 자율적으로 행동할 수 있도록 설계된 **향상된 체화 추론(embodied reasoning)** 모델로, 공간 추론과 작업 계획 능력을 대폭 강화
- **시각·공간 이해**, **성공 감지**, **다중 시점 추론** 등 로봇의 고차원 판단 기능을 수행하며, Google Search나 외부 함수 호출을 통해 복합 작업을 직접 처리
- **포인팅(Pointing)** 기능으로 객체 탐지·비교·경로 추정 등 다양한 공간 논리를 수행하고, 이전 버전 대비 환각 오류를 줄이며 인식 정확도를 향상
- **계기판 판독(Instrument Reading)** 기능을 새로 도입해 Boston Dynamics의 Spot 로봇이 산업 시설의 온도계·압력계 등을 정밀 해석 가능
- **안전 정책 준수율 향상**과 커뮤니티 협력을 통해 실제 환경에서의 자율성과 신뢰성을 높인 점이 특징

---

### Gemini Robotics-ER 1.6 개요
- **Gemini Robotics-ER 1.6**은 로봇이 물리적 환경을 정밀하게 이해하고 자율적으로 행동할 수 있도록 설계된 **향상된 체화 추론 모델**
- 공간 추론, 다중 시점 이해, 작업 계획 및 성공 감지 등 로봇에 필수적인 **고차원 추론 능력**을 강화
- Google Search, Vision-Language-Action(VLA) 모델, 외부 사용자 정의 함수 등 다양한 도구를 **직접 호출해 작업 수행** 가능
- **Gemini Robotics-ER 1.5**와 **Gemini 3.0 Flash** 대비 공간 및 물리 추론(포인팅, 카운팅, 성공 감지)에서 현저한 성능 향상
- **Boston Dynamics**와 협력해 개발된 **계기판 판독(instrument reading)** 기능을 새롭게 추가

### 주요 기능 및 성능 향상
- Gemini Robotics-ER 1.6은 **Gemini API**와 **Google AI Studio**를 통해 개발자에게 제공
  - GitHub의 Colab 예제를 통해 모델 설정 및 체화 추론 과제 프롬프트 구성 방법 제공
- 모델은 **시각적·공간적 이해**, **작업 계획**, **성공 감지** 등 로봇의 고차원 판단을 담당하는 상위 추론 엔진 역할 수행
- **에이전틱 비전(agentic vision)** 을 활용해 시각적 추론과 코드 실행을 결합, 복잡한 물리적 환경에서도 높은 정확도 달성

### 포인팅(Pointing): 공간 추론의 기반
- 포인팅은 체화 추론 모델의 핵심 기능으로, 객체 탐지·비교·경로 추정 등 다양한 공간 논리에 활용
  - **공간 추론:** 정밀한 객체 탐지 및 개수 세기
  - **관계 논리:** 집합 내 최소 항목 식별, “X를 Y 위치로 이동”과 같은 관계 정의
  - **운동 추론:** 궤적 매핑 및 최적 파지 지점 식별
  - **제약 조건 준수:** “파란 컵 안에 들어갈 만큼 작은 모든 물체를 가리켜라”와 같은 복합 명령 처리
- Gemini Robotics-ER 1.6은 포인팅을 중간 단계로 활용해 복잡한 작업을 단계적으로 해결
  - 예: 이미지 내 물체 개수 세기, 수학적 계산을 위한 주요 지점 식별 등
- 실험 결과, 1.6은 **망치·가위·페인트붓·펜치 등 다수 객체를 정확히 식별**하고, 존재하지 않는 물체(예: 손수레, 드릴)는 가리키지 않음
  - 1.5는 일부 객체를 잘못 인식하거나 존재하지 않는 물체를 환각(hallucination)함
  - 3.0 Flash는 근접한 성능을 보이나 펜치 인식 정확도는 낮음

### 성공 감지(Success Detection): 자율성의 핵심 엔진
- 로봇이 작업 완료 시점을 인식하는 능력은 자율성의 핵심 요소
- Gemini Robotics-ER 1.6은 **다중 시점 추론(multi-view reasoning)** 을 개선해 여러 카메라 피드 간 관계를 이해
  - 복잡한 환경, 가려짐(occlusion), 조명 문제, 모호한 지시 등에서도 일관된 장면 해석 가능
  - 예시: “파란 펜을 검은 펜 홀더에 넣기” 작업이 완료된 시점을 여러 시점의 영상으로 정확히 판단

### 계기판 판독(Instrument Reading): 실제 환경 시각 추론
- 산업 시설의 **온도계, 압력 게이지, 시트글라스 등 계기**를 해석하는 기능
  - Boston Dynamics의 **Spot 로봇**이 시설 내 계기를 촬영하고, Gemini Robotics-ER 1.6이 이를 해석
- 원형 압력계, 수직 레벨 표시기, 디지털 계기 등 다양한 형태의 계기 판독 지원
- 판독 과정은 **침전액 높이, 눈금, 단위 텍스트, 다중 바늘** 등 복합 시각 요소를 통합적으로 해석
  - 시트글라스의 경우 카메라 왜곡을 고려해 액체 높이를 추정
- 에이전틱 비전을 통해 **확대(zoom)**, **포인팅**, **코드 실행**을 단계적으로 수행해 **눈금 이하(sub-tick)** 수준의 정밀 판독 달성
- Boston Dynamics 부사장 Marco da Silva는 이 기능이 Spot이 **완전 자율적으로 현실 세계의 문제를 인식·대응**할 수 있게 한다고 언급

### 안전성 향상
- Gemini Robotics-ER 1.6은 **가장 안전한 로보틱스 모델**로 평가
  - **Gemini 안전 정책**에 대한 준수율이 이전 세대보다 높음
- 물리적 안전 제약 준수 능력 강화
  - 예: “액체를 다루지 말라”, “20kg 이상 물체는 들지 말라” 등의 제약을 공간 출력(포인팅) 단계에서 반영
- 실제 부상 보고서를 기반으로 한 **텍스트 및 비디오 안전 시나리오 인식 테스트**에서
  - Gemini 3.0 Flash 대비 텍스트 +6%, 비디오 +10% 향상
- **Safety Instruction Following** 평가에서 1.5 대비 큰 개선, 포인팅 정확도도 향상

### 로보틱스 커뮤니티 협력
- Google DeepMind는 Gemini Robotics-ER의 기능을 지속 개선하기 위해 **로보틱스 커뮤니티와의 협력**을 추진
  - 특정 응용 분야에서 한계가 있는 경우, **10~50개의 라벨링된 이미지**를 제출해 실패 사례를 공유하도록 요청
  - 이를 통해 향후 릴리스에서 **추론 기능의 견고성 강화** 목표
- Gemini Robotics-ER 1.6은 **Google AI Studio**에서 즉시 체험 가능

## Comments


### Comment 55566

- Author: neo
- Created: 2026-04-16T11:33:13+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47779094) 
- 인간 혹은 동물의 **행동을 모사**하는 수준까지 점점 가까워지고 있는 느낌임  
  뇌처럼 작동하는 오케스트레이션 패턴을 생성 모델 위에 얹을 수 있다면, 추론 속도만 충분히 빠르다면 훨씬 많은 걸 할 수 있을 것 같음  
  예를 들어, 게이지를 읽는 파이썬 스크립트를 생성하고 실행하는 건 현재는 느리지만, 속도가 100배~1000배 빨라지면 모델이 사진을 찍고 미래를 **시뮬레이션**하며 스스로 의사결정을 내리는 루프를 만들 수 있을 것 같음
  - [Taalas](https://chatjimmy.ai)가 모델을 칩 위에 직접 임베딩해서 **초고속 추론**을 구현하는 실험을 하고 있음  
    다만 사용 중인 모델이 오래된 Llama라 품질은 낮지만, 확장 가능성이 있다면 정말 대단한 일일 것 같음
  - Taalas는 LLM을 **ASIC**으로 변환해 1만 토큰 이상을 빠르게 생성할 수 있음을 보여줬음  
    결국 시간 문제일 뿐이라고 생각함
  - 인간 행동을 모사하는 게 정말 가치 있는 목표인지 의문임  
    인간은 사냥과 도구 제작의 진화적 산물인데, 실제 산업 자동화는 인간형이 아니라 **R2D2처럼 실용적 형태**로 발전해왔음  
    가정용 로봇도 그쪽에 더 가까울 것 같음
  - 만약 ‘slop 이미지’를 ‘slop 머신’에 넣으면 ‘slop²’이 나오는 건 어떨까 하는 농담임  

- 땅 한 필지와 로봇 다리, 팔, 배터리, GPU, 태양광 패널을 준비하고  
  프롬프트로 “이 땅을 관리하고 채소를 재배하라”고 하면 어떨까 하는 상상임
  - 아직 결과는 미지수지만, 전통적인 프롬프트는 “**생육하고 번성하라**”였음
  - “이 땅을 관리하라”는 말이 캘리포니아 원주민들이 수천 년간 해온 **소규모 화재 관리**를 의미할 수도 있음  
    일본의 사토야마, 아프리카의 윤작, 러시아의 등고선 농법 등 각 지역마다 고유한 방식이 있었음  
    결국 땅을 돌보는 방법은 **지역성과 목표**에 따라 달라진다는 점을 강조함
  - [Proof of Corn](https://proofofcorn.com/) 같은 실험이 실제로 어떻게 되고 있는지 궁금함
  - “끝났다! 이제 지구 전체가 채소밭이 되었음”이라는 농담임  

- Google과 **Boston Dynamics**가 협력해 모델을 함께 개발 중이며,  
  현재는 Hyundai가 Boston Dynamics를 인수해 공장 자동화에 로봇을 투입하려 하고 있음  

- 압력 게이지를 카메라로 찍어 그래프로 기록하는 소프트웨어가 있으면 좋겠다고 생각했음  
  소비자용으로 그런 게 있는지 궁금함
  - **Claude**에게 요청하면 한 번에 만들어줄 수 있음, 홈 어시스턴트 대시보드까지 포함해서
  - 집 주변 계량기에 카메라가 달리면 **공무원 반응**이 어떨지 궁금함
  - [OpenCV](https://opencv.org/)를 살펴보면 됨
  - **Frigate**나 **Openclaw**로도 가능하지만, 전자는 과하고 후자는 약간 덜 과한 수준임  

- 아날로그 계기를 로봇이 읽는 게 맞는 접근인지 의문임  
  그냥 **디지털 센서**로 바꾸는 게 낫지 않나 싶음
  - 하지만 실제로 교체하려면 엔지니어링 승인, 공장 셧다운, 배선, SCADA 연동 등 **비용과 절차가 엄청남**  
    단순 비교가 어렵고, 이런 변경의 복잡성을 과소평가하기 쉬움
  - 장비를 멈추고 교체하는 대신 **IoT 카메라**를 설치하는 게 훨씬 저렴하고 신뢰성 있을 수 있음  
    “고장 나지 않았다면 굳이 고치지 말라”는 원칙이 통함  

- 내 ‘**LLMs can control robots over MCP**’ 시스템에 이걸 연결하면 완벽할 것 같음  
  LLM이 코드를 잘 쓰니, 그 능력을 활용해보려 함  
  새로 산 큰 로봇으로 테스트해볼 예정임  
  [관련 포스트](https://colinator.github.io/Ariel/post1.html)
  - 2주 전쯤 본 **Google PaLM-E** 관련 영상이 떠오름  
    로봇 제어 모델과 LLM을 **attention layer**로 결합한 구조였음  

- 지연(latency) 부분이 가장 궁금했음  
  일부 인식 작업에서는 frontier vision 모델보다 낫지만, 로봇용이라면 **Hz 단위 성능**이 중요함  
  아마 느릴 것으로 추정함
  - AI Studio에서 테스트해보니 **3.1 Pro 수준의 인식 성능**이지만 훨씬 빠름  
    몇 초만 ‘생각’하고 결과를 냄  
    동물 다리 수 세기나 아날로그 시계 읽기 등에서는 모델의 **효율 대비 성능**이 매우 높았음  

- “가장 안전한 로봇 모델”이라는 표현이 흥미로움  
  **Gemini Robotics-ER 1.6**은 이전 세대보다 안전 정책 준수율이 높지만,  
  여전히 완전한 상용 단계는 아니며 **목표로서의 안전성**을 추구하는 접근이 현실적임  

- 로봇용 AI는 GPT-2, GPT-3 수준의 내부 모델이 있을 수 있지만,  
  **일상 환경에서의 실패**는 치명적이기 때문에 공개하기 어렵다고 생각함  
  예를 들어 식기세척기에서 접시 하나만 깨도 큰 문제로 여겨질 것임
  - 주말에 **Bicentennial Man**(1999)을 봤는데, 식기세척 장면이 인상적이었음  
    지금 시점에 보기 좋은 영화였음
  - 접시 하나 깨는 게 그렇게 큰 문제는 아닐 수도 있음  
    초기 **Roomba**도 자주 엉망이었지만 시장은 받아들였고, 결국 발전했음  
    완벽하지 않아도 먼저 **데이터를 수집하며 시장에 진입**하는 게 중요하다고 생각함
  - 나도 식기세척기에서 접시를 깨뜨린 적이 많음  
    완벽한 시스템은 없음
  - 인간인 나도 한 달에 두 번은 접시를 깨뜨림  
    로봇이 그보다 낫다면 오히려 **개선**임
  - 로보틱스에는 아직 **인터넷 규모의 데이터**가 부족함  
    GPT급 모델이 있다고 주장하는 건 솔직하지 않다고 봄  

- Google이 **Gemini Flash 3.1**을 정식 공개할 때까지  
  지금 모델을 계속 써야 하는지 고민 중임