1P by GN⁺ 5시간전 | ★ favorite | 댓글 1개
  • 로봇이 물리적 환경을 정밀하게 이해하고 자율적으로 행동할 수 있도록 설계된 향상된 체화 추론(embodied reasoning) 모델로, 공간 추론과 작업 계획 능력을 대폭 강화
  • 시각·공간 이해, 성공 감지, 다중 시점 추론 등 로봇의 고차원 판단 기능을 수행하며, Google Search나 외부 함수 호출을 통해 복합 작업을 직접 처리
  • 포인팅(Pointing) 기능으로 객체 탐지·비교·경로 추정 등 다양한 공간 논리를 수행하고, 이전 버전 대비 환각 오류를 줄이며 인식 정확도를 향상
  • 계기판 판독(Instrument Reading) 기능을 새로 도입해 Boston Dynamics의 Spot 로봇이 산업 시설의 온도계·압력계 등을 정밀 해석 가능
  • 안전 정책 준수율 향상과 커뮤니티 협력을 통해 실제 환경에서의 자율성과 신뢰성을 높인 점이 특징

Gemini Robotics-ER 1.6 개요

  • Gemini Robotics-ER 1.6은 로봇이 물리적 환경을 정밀하게 이해하고 자율적으로 행동할 수 있도록 설계된 향상된 체화 추론 모델
  • 공간 추론, 다중 시점 이해, 작업 계획 및 성공 감지 등 로봇에 필수적인 고차원 추론 능력을 강화
  • Google Search, Vision-Language-Action(VLA) 모델, 외부 사용자 정의 함수 등 다양한 도구를 직접 호출해 작업 수행 가능
  • Gemini Robotics-ER 1.5Gemini 3.0 Flash 대비 공간 및 물리 추론(포인팅, 카운팅, 성공 감지)에서 현저한 성능 향상
  • Boston Dynamics와 협력해 개발된 계기판 판독(instrument reading) 기능을 새롭게 추가

주요 기능 및 성능 향상

  • Gemini Robotics-ER 1.6은 Gemini APIGoogle AI Studio를 통해 개발자에게 제공
    • GitHub의 Colab 예제를 통해 모델 설정 및 체화 추론 과제 프롬프트 구성 방법 제공
  • 모델은 시각적·공간적 이해, 작업 계획, 성공 감지 등 로봇의 고차원 판단을 담당하는 상위 추론 엔진 역할 수행
  • 에이전틱 비전(agentic vision) 을 활용해 시각적 추론과 코드 실행을 결합, 복잡한 물리적 환경에서도 높은 정확도 달성

포인팅(Pointing): 공간 추론의 기반

  • 포인팅은 체화 추론 모델의 핵심 기능으로, 객체 탐지·비교·경로 추정 등 다양한 공간 논리에 활용
    • 공간 추론: 정밀한 객체 탐지 및 개수 세기
    • 관계 논리: 집합 내 최소 항목 식별, “X를 Y 위치로 이동”과 같은 관계 정의
    • 운동 추론: 궤적 매핑 및 최적 파지 지점 식별
    • 제약 조건 준수: “파란 컵 안에 들어갈 만큼 작은 모든 물체를 가리켜라”와 같은 복합 명령 처리
  • Gemini Robotics-ER 1.6은 포인팅을 중간 단계로 활용해 복잡한 작업을 단계적으로 해결
    • 예: 이미지 내 물체 개수 세기, 수학적 계산을 위한 주요 지점 식별 등
  • 실험 결과, 1.6은 망치·가위·페인트붓·펜치 등 다수 객체를 정확히 식별하고, 존재하지 않는 물체(예: 손수레, 드릴)는 가리키지 않음
    • 1.5는 일부 객체를 잘못 인식하거나 존재하지 않는 물체를 환각(hallucination)함
    • 3.0 Flash는 근접한 성능을 보이나 펜치 인식 정확도는 낮음

성공 감지(Success Detection): 자율성의 핵심 엔진

  • 로봇이 작업 완료 시점을 인식하는 능력은 자율성의 핵심 요소
  • Gemini Robotics-ER 1.6은 다중 시점 추론(multi-view reasoning) 을 개선해 여러 카메라 피드 간 관계를 이해
    • 복잡한 환경, 가려짐(occlusion), 조명 문제, 모호한 지시 등에서도 일관된 장면 해석 가능
    • 예시: “파란 펜을 검은 펜 홀더에 넣기” 작업이 완료된 시점을 여러 시점의 영상으로 정확히 판단

계기판 판독(Instrument Reading): 실제 환경 시각 추론

  • 산업 시설의 온도계, 압력 게이지, 시트글라스 등 계기를 해석하는 기능
    • Boston Dynamics의 Spot 로봇이 시설 내 계기를 촬영하고, Gemini Robotics-ER 1.6이 이를 해석
  • 원형 압력계, 수직 레벨 표시기, 디지털 계기 등 다양한 형태의 계기 판독 지원
  • 판독 과정은 침전액 높이, 눈금, 단위 텍스트, 다중 바늘 등 복합 시각 요소를 통합적으로 해석
    • 시트글라스의 경우 카메라 왜곡을 고려해 액체 높이를 추정
  • 에이전틱 비전을 통해 확대(zoom), 포인팅, 코드 실행을 단계적으로 수행해 눈금 이하(sub-tick) 수준의 정밀 판독 달성
  • Boston Dynamics 부사장 Marco da Silva는 이 기능이 Spot이 완전 자율적으로 현실 세계의 문제를 인식·대응할 수 있게 한다고 언급

안전성 향상

  • Gemini Robotics-ER 1.6은 가장 안전한 로보틱스 모델로 평가
    • Gemini 안전 정책에 대한 준수율이 이전 세대보다 높음
  • 물리적 안전 제약 준수 능력 강화
    • 예: “액체를 다루지 말라”, “20kg 이상 물체는 들지 말라” 등의 제약을 공간 출력(포인팅) 단계에서 반영
  • 실제 부상 보고서를 기반으로 한 텍스트 및 비디오 안전 시나리오 인식 테스트에서
    • Gemini 3.0 Flash 대비 텍스트 +6%, 비디오 +10% 향상
  • Safety Instruction Following 평가에서 1.5 대비 큰 개선, 포인팅 정확도도 향상

로보틱스 커뮤니티 협력

  • Google DeepMind는 Gemini Robotics-ER의 기능을 지속 개선하기 위해 로보틱스 커뮤니티와의 협력을 추진
    • 특정 응용 분야에서 한계가 있는 경우, 10~50개의 라벨링된 이미지를 제출해 실패 사례를 공유하도록 요청
    • 이를 통해 향후 릴리스에서 추론 기능의 견고성 강화 목표
  • Gemini Robotics-ER 1.6은 Google AI Studio에서 즉시 체험 가능
Hacker News 의견들
  • 인간 혹은 동물의 행동을 모사하는 수준까지 점점 가까워지고 있는 느낌임
    뇌처럼 작동하는 오케스트레이션 패턴을 생성 모델 위에 얹을 수 있다면, 추론 속도만 충분히 빠르다면 훨씬 많은 걸 할 수 있을 것 같음
    예를 들어, 게이지를 읽는 파이썬 스크립트를 생성하고 실행하는 건 현재는 느리지만, 속도가 100배~1000배 빨라지면 모델이 사진을 찍고 미래를 시뮬레이션하며 스스로 의사결정을 내리는 루프를 만들 수 있을 것 같음

    • Taalas가 모델을 칩 위에 직접 임베딩해서 초고속 추론을 구현하는 실험을 하고 있음
      다만 사용 중인 모델이 오래된 Llama라 품질은 낮지만, 확장 가능성이 있다면 정말 대단한 일일 것 같음
    • Taalas는 LLM을 ASIC으로 변환해 1만 토큰 이상을 빠르게 생성할 수 있음을 보여줬음
      결국 시간 문제일 뿐이라고 생각함
    • 인간 행동을 모사하는 게 정말 가치 있는 목표인지 의문임
      인간은 사냥과 도구 제작의 진화적 산물인데, 실제 산업 자동화는 인간형이 아니라 R2D2처럼 실용적 형태로 발전해왔음
      가정용 로봇도 그쪽에 더 가까울 것 같음
    • 만약 ‘slop 이미지’를 ‘slop 머신’에 넣으면 ‘slop²’이 나오는 건 어떨까 하는 농담임
  • 땅 한 필지와 로봇 다리, 팔, 배터리, GPU, 태양광 패널을 준비하고
    프롬프트로 “이 땅을 관리하고 채소를 재배하라”고 하면 어떨까 하는 상상임

    • 아직 결과는 미지수지만, 전통적인 프롬프트는 “생육하고 번성하라”였음
    • “이 땅을 관리하라”는 말이 캘리포니아 원주민들이 수천 년간 해온 소규모 화재 관리를 의미할 수도 있음
      일본의 사토야마, 아프리카의 윤작, 러시아의 등고선 농법 등 각 지역마다 고유한 방식이 있었음
      결국 땅을 돌보는 방법은 지역성과 목표에 따라 달라진다는 점을 강조함
    • Proof of Corn 같은 실험이 실제로 어떻게 되고 있는지 궁금함
    • “끝났다! 이제 지구 전체가 채소밭이 되었음”이라는 농담임
  • Google과 Boston Dynamics가 협력해 모델을 함께 개발 중이며,
    현재는 Hyundai가 Boston Dynamics를 인수해 공장 자동화에 로봇을 투입하려 하고 있음

  • 압력 게이지를 카메라로 찍어 그래프로 기록하는 소프트웨어가 있으면 좋겠다고 생각했음
    소비자용으로 그런 게 있는지 궁금함

    • Claude에게 요청하면 한 번에 만들어줄 수 있음, 홈 어시스턴트 대시보드까지 포함해서
    • 집 주변 계량기에 카메라가 달리면 공무원 반응이 어떨지 궁금함
    • OpenCV를 살펴보면 됨
    • FrigateOpenclaw로도 가능하지만, 전자는 과하고 후자는 약간 덜 과한 수준임
  • 아날로그 계기를 로봇이 읽는 게 맞는 접근인지 의문임
    그냥 디지털 센서로 바꾸는 게 낫지 않나 싶음

    • 하지만 실제로 교체하려면 엔지니어링 승인, 공장 셧다운, 배선, SCADA 연동 등 비용과 절차가 엄청남
      단순 비교가 어렵고, 이런 변경의 복잡성을 과소평가하기 쉬움
    • 장비를 멈추고 교체하는 대신 IoT 카메라를 설치하는 게 훨씬 저렴하고 신뢰성 있을 수 있음
      “고장 나지 않았다면 굳이 고치지 말라”는 원칙이 통함
  • 내 ‘LLMs can control robots over MCP’ 시스템에 이걸 연결하면 완벽할 것 같음
    LLM이 코드를 잘 쓰니, 그 능력을 활용해보려 함
    새로 산 큰 로봇으로 테스트해볼 예정임
    관련 포스트

    • 2주 전쯤 본 Google PaLM-E 관련 영상이 떠오름
      로봇 제어 모델과 LLM을 attention layer로 결합한 구조였음
  • 지연(latency) 부분이 가장 궁금했음
    일부 인식 작업에서는 frontier vision 모델보다 낫지만, 로봇용이라면 Hz 단위 성능이 중요함
    아마 느릴 것으로 추정함

    • AI Studio에서 테스트해보니 3.1 Pro 수준의 인식 성능이지만 훨씬 빠름
      몇 초만 ‘생각’하고 결과를 냄
      동물 다리 수 세기나 아날로그 시계 읽기 등에서는 모델의 효율 대비 성능이 매우 높았음
  • “가장 안전한 로봇 모델”이라는 표현이 흥미로움
    Gemini Robotics-ER 1.6은 이전 세대보다 안전 정책 준수율이 높지만,
    여전히 완전한 상용 단계는 아니며 목표로서의 안전성을 추구하는 접근이 현실적임

  • 로봇용 AI는 GPT-2, GPT-3 수준의 내부 모델이 있을 수 있지만,
    일상 환경에서의 실패는 치명적이기 때문에 공개하기 어렵다고 생각함
    예를 들어 식기세척기에서 접시 하나만 깨도 큰 문제로 여겨질 것임

    • 주말에 Bicentennial Man(1999)을 봤는데, 식기세척 장면이 인상적이었음
      지금 시점에 보기 좋은 영화였음
    • 접시 하나 깨는 게 그렇게 큰 문제는 아닐 수도 있음
      초기 Roomba도 자주 엉망이었지만 시장은 받아들였고, 결국 발전했음
      완벽하지 않아도 먼저 데이터를 수집하며 시장에 진입하는 게 중요하다고 생각함
    • 나도 식기세척기에서 접시를 깨뜨린 적이 많음
      완벽한 시스템은 없음
    • 인간인 나도 한 달에 두 번은 접시를 깨뜨림
      로봇이 그보다 낫다면 오히려 개선
    • 로보틱스에는 아직 인터넷 규모의 데이터가 부족함
      GPT급 모델이 있다고 주장하는 건 솔직하지 않다고 봄
  • Google이 Gemini Flash 3.1을 정식 공개할 때까지
    지금 모델을 계속 써야 하는지 고민 중임