1P by GN⁺ 9시간전 | ★ favorite | 댓글 1개
  • 로봇에 직접 탑재해 사용할 수 있도록 최적화된 범용성 높은 VLA(비전-언어-행동) 모델
  • 빠른 태스크 적응범용 조작성을 제공하며, 인터넷 연결 없이 로컬에서 동작해 저지연성과 내구성을 보장
  • 최소한의 연산 자원을 필요로 하며 양팔 로봇 기반의 정밀 조작과 빠른 작업 전환 능력을 갖추고 있음
  • 개발자는 Gemini Robotics SDK로 직접 환경에 맞게 빠르게 테스트하고, 50~100회 수준의 소규모 데모만으로도 신속하게 태스크 적응이 가능
  • 타 온디바이스 모델 대비 더 높은 일반화·적응 성능을 보이며, 복잡한 지시나 새로운 작업도 효율적으로 수행함
  • 안전성과 책임 개발 원칙을 적용하여, 실제 환경과 사회적 영향에 대한 리스크 최소화피드백 수렴 체계를 도입

We’re introducing an efficient, on-device robotics model with general-purpose dexterity and fast task adaptation

  • Gemini Robotics On-Device로컬 로보틱스 디바이스에서 직접 구동할 수 있도록 설계된 고효율 VLA(비전-언어-행동) 모델
  • 3월에 공개된 Gemini Robotics의 멀티모달 추론 능력실세계 이해력을 실제 물리적 환경에 적용함
  • 온디바이스 모델의 강점

    • 네트워크 없이도 독립적으로 동작해 저지연성이 필요한 환경이나 연결 불안정한 환경에서도 강점을 보임
    • 로컬 환경에 최적화되어 빠른 실시간 작업 수행이 가능
    • 다양한 시각적, 의미적, 행동적 일반화 능력 보유
    • 양팔 로봇 기반의 정밀한 조작 작업(지퍼 열기, 옷 접기 등) 수행 가능
    • 자연어 지시를 이해하고 복잡한 단계적 작업 수행 가능

SDK 제공으로 쉬운 적용과 맞춤화 가능

  • Gemini Robotics SDK를 통해 개발자가 자체 환경에서 모델을 테스트하고, MuJoCo 물리 시뮬레이터를 이용해 테스트하고 다양한 작업에 적용 가능함
  • 50~100회 수준의 소규모 데모만으로도 신속하게 새로운 도메인 적응이 가능함

Model capabilities and performance

  • Gemini Robotics On-Devicebi-arm 로봇에 적합하게 최소한의 연산 자원으로 설계됨
  • 빠른 실험, 손재주 기반 조작, 로컬 구동, 저지연 추론 등에 최적화됨
  • 자연어 명령을 인식하고, 지퍼 열기·옷 개기 같은 고난도 조작도 직접 수행함
  • 기존 온디바이스 모델 대비 범용성·일반화 성능이 우수하며, 복잡한 멀티스텝 지시도 효과적으로 처리함
  • 더 높은 성능이나 제약 없는 환경이 필요할 경우 Gemini Robotics 모델(서버 기반)도 제공함

Adaptable to new tasks, generalizable across embodiments

  • Gemini Robotics On-Device는 최초로 파인튜닝이 가능한 VLA 모델임
  • 50~100회 수준의 데모만으로 새로운 작업에 빠르게 적응하며, 다양한 난이도의 덱스터리티 태스크(지퍼 채우기, 카드 뽑기, 드레싱 붓기 등)에서 경쟁 모델 대비 높은 적응 성능을 보임
  • 특정 로봇(ALOHA)용으로 학습되었지만, Franka FR3·** Apollo humanoid** 등 다양한 형태의 로봇에도 추가 학습을 통해 확장 가능함
  • 다양한 지시·새로운 객체·복잡한 산업용 태스크(벨트 조립 등)도 처리 가능함

Responsible development and safety

  • AI Principles통합적 안전 프레임워크를 기반으로 모델을 개발함
  • [Live API] 등으로 의미론적·콘텐츠 안전성을 확보하고, 저수준 안전 제어기와 연동해 실제 동작 시 안전성 강화함
  • Semantic Safety BenchmarkRed-Teaming 등 다양한 평가 체계를 통해 리스크를 점검함
  • 전담 팀(Responsible Development & Innovation, RSC)이 사회적 영향 평가 및 피드백 수렴을 지속적으로 수행함
  • 신뢰할 수 있는 테스터 그룹에게 선출시하여 초기 사용성과 안전성 평가를 수집함

Accelerating innovation in robotics

  • Gemini Robotics On-Device는 로보틱스 커뮤니티에 범용·적응형 AI 모델을 제공하여 지연·연결성 문제를 극복하도록 지원함
  • SDK를 통한 빠른 적용과 태스크 적응 기능으로 혁신 가속화를 기대함
  • 신뢰할 수 있는 테스트 프로그램(Trusted Tester Program) 을 통해 모델 및 SDK 접근 가능함
  • AI의 물리적 세계 적용을 확장하며, 로보틱스 분야의 미래를 이끌어갈 비전을 제시
Hacker News 의견
  • 휴머노이드 로보틱스에 대해 낙관적인 시각을 갖고 있지만, 신뢰성 문제에 궁금증이 있음. 인간의 팔다리와 손은 세상을 끊임없이 만지면서 자연스러운 마모가 생겨도 스스로 회복하는 놀라운 시스템임

    • 산업용 로봇은 신뢰성 면에서 매우 뛰어남. MTBF(평균 고장 간격)가 100,000시간 이상인 경우가 많음. 산업용 로봇은 최대한 오랫동안 고장 없이 가동되도록 설계하여 수익성을 높인다는 점이 중요함. 독일과 일본 기업이 신뢰성을 중시해 전기 액추에이터를 개발하여 산업용 로봇 시장을 장악했음. 과거 미국 Cincinnati Millicron의 유압식 로봇은 강력했지만 신뢰도가 떨어져 경쟁에서 밀렸음. 하지만 인간형 손은 작은 부품들이 많은 힘을 버텨야 해서 산업용 로봇만큼의 신뢰성 달성이 어렵다는 회의적 시각도 존재함 관련 링크

    • 가까운 미래의 가능성을 생각하면 매우 흥미롭거나 혹은 살짝 섬뜩한 느낌이 들기도 함. 이전에는 특정 목적(예: 청소 전용 로봇)에 집중할 줄 알았는데, 실제로는 준비가 끝났을 때 매우 범용적으로 쓰일 것 같음. 센서와 모터가 많이 필요하겠지만, 자율주행차에 비해 법적 리스크가 낮고 필요한 자원도 적을 것이란 점이 흥미로움

    • 다른 로봇이 소모성 부품을 자동으로 교체해 주는 방식도 가능하다고 생각함

    • 소재 과학의 추가적인 연구로 이런 문제도 해결 가능하다고 생각함. 반응성이 좋으면서도 토크는 낮은 서보와 결합하면 이 역시 해결 가능한 문제라고 봄

    • 로봇이 시간과 함께 개별적으로 "다르게" 변해가는 부분이 흥미로움. 예를 들어 광산 로봇처럼 환경이 열악한 곳은 부품이 먼지에 크게 오염되거나 여기저기 닳고, 암석 낙하로 구부러질 수도 있음. 또 하나의 로봇이 임시로 고쳐준다고 해도, 시간이 지나면서 모든 로봇이 각자 조금씩 다르게 변할 것 같음. 상업용 항공기 정비 작업도 충돌이나 손상에 따라 그때그때 독특하게 이뤄지는 것처럼, 아마 로봇도 재활용이 더 쉬운 해법일 수 있음

  • "trusted tester program"에 가입하기 쉬운지 그리고 SDK를 손쉽게 활용할 수 있는 모듈도 제공하는지 궁금함

    • 해당 기사 하단에 가입 버튼이 있다고 안내함
  • SDK가 어떤 하드웨어에서 돌아가는지, 최신 Raspberry Pi에서도 작동하는지 궁금함

    • 블로그 포스트에 따르면 최소 8GB RAM의 NVIDIA Jetson Orin이 필요하고, Jetson AGX Orin(64GB)과 Orin NX(16GB) 모듈에 최적화되어 있음

    • 프로젝트 기여자 중 한 명이 x에서 4090 그래픽 카드에서 돌아간다는 글을 올렸다고 언급 관련 x 링크

    • 근본적으로 이 시스템은 멀티모달 LLM(대규모 언어모델)이라고 생각 가능함. SmolVLA(0.5B 파라미터)처럼 작은 모델은 특정 작업에 빠르고 효율적이며, OpenVLA(라마2 7B finetune)는 더 일반적인 작업에 쓰이는 대형 모델임. 라즈베리 파이로도 일부 특수 목적 모델은 돌릴 수 있고, 더 일반적인 모델은 고성능 소비자용 하드웨어면 충분히 가능함

  • MuJoCo 링크가 실제로는 github.com/google-deepmind/aloha_sim으로 연결됨

  • 모델 아키텍처가 궁금하며, LLM과는 매우 다를 거라 예상하는데 VLA 아키텍처를 자세히 설명한 링크가 있으면 공유 요청

    • 실제로 LLM과 매우 가까운 구조라고 생각함. "Visual Language Action" VLA 모델이고, Gemini 2.0을 기반으로 함. Gemini 2.0은 언어, 오디오, 비디오를 네이티브로 지원하고 있어서 "action" 데이터도 포함할 수 있다고 추측 가능. 아마도 output fine-tuning 단계에서 동작 데이터가 추가된 구조로 보임. 이런 네이티브 멀티모달 LLM이 곧 "두뇌" 역할을 한다고 봄
  • 이 기술들은 필연적으로 전쟁용 기계로도 쓰일 것이 확실함. 온-디바이스 자율성은 중앙 권력이나 책임 추적 회피에 최적. 드론 조종자와 달리 인간을 전쟁 범죄로 기소할 수도 없음. 군사 계약이 너무 커서 저항이 힘들고, 고된 노동의 제거가 곧 인간의 전면적 제거로 이어질 흐름임. "AI-Powered Automation for Every Decision"으로 인간의 수익성 있는 삶이 사라지는 미래가 투명하게 다가옴 palantir.com

    • MIT 계열사로 Google이 인수한 Boston Dynamics가 로봇을 군사화 안 하겠다고 약속했지만, 실제로는 DARPA, 미 국방부 등 군사 투자 배경이 있어 신뢰가 매우 어려움

    • 사실상 모든 유용한 기술은 군사용 응용을 가짐. 왜 이것이 뜨거운 논쟁거린지 모르겠음

    • 이 로봇이 전장에서 드론과 경쟁하기는 아주 힘들 것 같음. 아마 1000대의 자율 드론 가격과 맞먹는 높은 비용과 100배 이상의 시간 및 자원이 필요함. 드론이 실제 전장(예: 우크라이나)에서 작고 강력하게 이미 역할을 증명하고 있고, 움직임이 아무리 민첩해져도 폭발 드론을 피해 달아나는 것은 어렵다는 생각임. 아무리 Terminator가 산탄총을 쥐고 있어도, 하나당 5대의 드론 배치가 쉽고 이런 드론은 또다른 자율 로봇이 만들 수도 있을 것 같음

  • Google이 혁신적인 제품을 슬쩍 공개하고 금세 잊혀지는 패턴이 인상적임. 대대적인 광고 홍보 없이 블로그 포스트만 올리고, 테크 커뮤니티 내에서 돌다 사라지고, 몇 년 뒤 "그거 어떻게 됐지?" 하게 되는 상황 반복임. 하지만 이 제품은 멋지게 보여서, 누군가 이걸로 멋진 스타트업을 만들면 좋겠음

    • Google의 이런 프로젝트 주목적은 규제 당국을 견제하기 위함임. 이런 제품을 수익화하려는 의도가 아니라 그냥 돈을 일부러 태우고 넘어가며, 이런 자유가 가능한 것은 독점 기업이기에 가능한 것임
  • 커피 한 잔 마시면서 API에서 답변을 받아오기를 기다릴 예정임

  • 로봇이 탈옥하여 은행강도 같은 일을 못하게 하려면 GPU를 프라이빗 SOTA 보안 GPU 클라우드로 옮기는 방법뿐이라고 생각함

  • 로봇이 프롬프트를 실행하면서 미쳐 돌아가지 않도록 Three Laws of Robotics 같은 가드레일이 있을지가 궁금함

    • 로봇 3원칙은 소설적 갈등 구조로 만들어진 것이니까 현실 시스템은 그런 식이면 곤란함. 실제로 Gemini Robotics의 안전 설계는 다층적 구조임. 모델이 무엇이 안전한지 추론하고, VLA가 실행 옵션을 내놓으면, 마지막에 로우레벨 컨트롤러(속도나 힘 제한 등 안전 핵심 기능 내장)가 작동하는 흐름임

    • 이런 연구의 일반 용어는 Constitutional AI이고, 다수의 로보틱스 VLA에서 실험/인용되고 있음 관련 논문

    • 현재 적용되는 가드레일은 세 개의 법칙보다는 IEC 61508(국제 기능 안전 표준)에 더 가깝다고 봄

    • 전원을 차단하는 코드라는 말도 있음

    • 로봇 3원칙은 현실적으로는 의미 없는 규칙이라는 의견임