구글 딥마인드, 로봇 장치에 최적화된 AI "Gemin

▲

GN⁺ 10달전 | parent | ★ favorite | on: 구글 딥마인드, 로봇 장치에 최적화된 AI "Gemini Robotics On-Device" 공개(deepmind.google)

Hacker News 의견

휴머노이드 로보틱스에 대해 낙관적인 시각을 갖고 있지만, 신뢰성 문제에 궁금증이 있음. 인간의 팔다리와 손은 세상을 끊임없이 만지면서 자연스러운 마모가 생겨도 스스로 회복하는 놀라운 시스템임
- 산업용 로봇은 신뢰성 면에서 매우 뛰어남. MTBF(평균 고장 간격)가 100,000시간 이상인 경우가 많음. 산업용 로봇은 최대한 오랫동안 고장 없이 가동되도록 설계하여 수익성을 높인다는 점이 중요함. 독일과 일본 기업이 신뢰성을 중시해 전기 액추에이터를 개발하여 산업용 로봇 시장을 장악했음. 과거 미국 Cincinnati Millicron의 유압식 로봇은 강력했지만 신뢰도가 떨어져 경쟁에서 밀렸음. 하지만 인간형 손은 작은 부품들이 많은 힘을 버텨야 해서 산업용 로봇만큼의 신뢰성 달성이 어렵다는 회의적 시각도 존재함 관련 링크
- 가까운 미래의 가능성을 생각하면 매우 흥미롭거나 혹은 살짝 섬뜩한 느낌이 들기도 함. 이전에는 특정 목적(예: 청소 전용 로봇)에 집중할 줄 알았는데, 실제로는 준비가 끝났을 때 매우 범용적으로 쓰일 것 같음. 센서와 모터가 많이 필요하겠지만, 자율주행차에 비해 법적 리스크가 낮고 필요한 자원도 적을 것이란 점이 흥미로움
- 다른 로봇이 소모성 부품을 자동으로 교체해 주는 방식도 가능하다고 생각함
- 소재 과학의 추가적인 연구로 이런 문제도 해결 가능하다고 생각함. 반응성이 좋으면서도 토크는 낮은 서보와 결합하면 이 역시 해결 가능한 문제라고 봄
- 로봇이 시간과 함께 개별적으로 "다르게" 변해가는 부분이 흥미로움. 예를 들어 광산 로봇처럼 환경이 열악한 곳은 부품이 먼지에 크게 오염되거나 여기저기 닳고, 암석 낙하로 구부러질 수도 있음. 또 하나의 로봇이 임시로 고쳐준다고 해도, 시간이 지나면서 모든 로봇이 각자 조금씩 다르게 변할 것 같음. 상업용 항공기 정비 작업도 충돌이나 손상에 따라 그때그때 독특하게 이뤄지는 것처럼, 아마 로봇도 재활용이 더 쉬운 해법일 수 있음
"trusted tester program"에 가입하기 쉬운지 그리고 SDK를 손쉽게 활용할 수 있는 모듈도 제공하는지 궁금함
- 해당 기사 하단에 가입 버튼이 있다고 안내함
SDK가 어떤 하드웨어에서 돌아가는지, 최신 Raspberry Pi에서도 작동하는지 궁금함
- 블로그 포스트에 따르면 최소 8GB RAM의 NVIDIA Jetson Orin이 필요하고, Jetson AGX Orin(64GB)과 Orin NX(16GB) 모듈에 최적화되어 있음
- 프로젝트 기여자 중 한 명이 x에서 4090 그래픽 카드에서 돌아간다는 글을 올렸다고 언급 관련 x 링크
- 근본적으로 이 시스템은 멀티모달 LLM(대규모 언어모델)이라고 생각 가능함. SmolVLA(0.5B 파라미터)처럼 작은 모델은 특정 작업에 빠르고 효율적이며, OpenVLA(라마2 7B finetune)는 더 일반적인 작업에 쓰이는 대형 모델임. 라즈베리 파이로도 일부 특수 목적 모델은 돌릴 수 있고, 더 일반적인 모델은 고성능 소비자용 하드웨어면 충분히 가능함
MuJoCo 링크가 실제로는 github.com/google-deepmind/aloha_sim으로 연결됨
- mujoco_menagerie에는 다양한 로봇의 Mujoco MJCF XML 모델이 포함되어 있음 google-deepmind/mujoco_menagerie / aloha 모델
모델 아키텍처가 궁금하며, LLM과는 매우 다를 거라 예상하는데 VLA 아키텍처를 자세히 설명한 링크가 있으면 공유 요청
- 실제로 LLM과 매우 가까운 구조라고 생각함. "Visual Language Action" VLA 모델이고, Gemini 2.0을 기반으로 함. Gemini 2.0은 언어, 오디오, 비디오를 네이티브로 지원하고 있어서 "action" 데이터도 포함할 수 있다고 추측 가능. 아마도 output fine-tuning 단계에서 동작 데이터가 추가된 구조로 보임. 이런 네이티브 멀티모달 LLM이 곧 "두뇌" 역할을 한다고 봄
이 기술들은 필연적으로 전쟁용 기계로도 쓰일 것이 확실함. 온-디바이스 자율성은 중앙 권력이나 책임 추적 회피에 최적. 드론 조종자와 달리 인간을 전쟁 범죄로 기소할 수도 없음. 군사 계약이 너무 커서 저항이 힘들고, 고된 노동의 제거가 곧 인간의 전면적 제거로 이어질 흐름임. "AI-Powered Automation for Every Decision"으로 인간의 수익성 있는 삶이 사라지는 미래가 투명하게 다가옴 palantir.com
- MIT 계열사로 Google이 인수한 Boston Dynamics가 로봇을 군사화 안 하겠다고 약속했지만, 실제로는 DARPA, 미 국방부 등 군사 투자 배경이 있어 신뢰가 매우 어려움
- 사실상 모든 유용한 기술은 군사용 응용을 가짐. 왜 이것이 뜨거운 논쟁거린지 모르겠음
- 이 로봇이 전장에서 드론과 경쟁하기는 아주 힘들 것 같음. 아마 1000대의 자율 드론 가격과 맞먹는 높은 비용과 100배 이상의 시간 및 자원이 필요함. 드론이 실제 전장(예: 우크라이나)에서 작고 강력하게 이미 역할을 증명하고 있고, 움직임이 아무리 민첩해져도 폭발 드론을 피해 달아나는 것은 어렵다는 생각임. 아무리 Terminator가 산탄총을 쥐고 있어도, 하나당 5대의 드론 배치가 쉽고 이런 드론은 또다른 자율 로봇이 만들 수도 있을 것 같음
Google이 혁신적인 제품을 슬쩍 공개하고 금세 잊혀지는 패턴이 인상적임. 대대적인 광고 홍보 없이 블로그 포스트만 올리고, 테크 커뮤니티 내에서 돌다 사라지고, 몇 년 뒤 "그거 어떻게 됐지?" 하게 되는 상황 반복임. 하지만 이 제품은 멋지게 보여서, 누군가 이걸로 멋진 스타트업을 만들면 좋겠음
- Google의 이런 프로젝트 주목적은 규제 당국을 견제하기 위함임. 이런 제품을 수익화하려는 의도가 아니라 그냥 돈을 일부러 태우고 넘어가며, 이런 자유가 가능한 것은 독점 기업이기에 가능한 것임
커피 한 잔 마시면서 API에서 답변을 받아오기를 기다릴 예정임
로봇이 탈옥하여 은행강도 같은 일을 못하게 하려면 GPU를 프라이빗 SOTA 보안 GPU 클라우드로 옮기는 방법뿐이라고 생각함
로봇이 프롬프트를 실행하면서 미쳐 돌아가지 않도록 Three Laws of Robotics 같은 가드레일이 있을지가 궁금함
- 로봇 3원칙은 소설적 갈등 구조로 만들어진 것이니까 현실 시스템은 그런 식이면 곤란함. 실제로 Gemini Robotics의 안전 설계는 다층적 구조임. 모델이 무엇이 안전한지 추론하고, VLA가 실행 옵션을 내놓으면, 마지막에 로우레벨 컨트롤러(속도나 힘 제한 등 안전 핵심 기능 내장)가 작동하는 흐름임
- 이런 연구의 일반 용어는 Constitutional AI이고, 다수의 로보틱스 VLA에서 실험/인용되고 있음 관련 논문
- 현재 적용되는 가드레일은 세 개의 법칙보다는 IEC 61508(국제 기능 안전 표준)에 더 가깝다고 봄
- 전원을 차단하는 코드라는 말도 있음
- 로봇 3원칙은 현실적으로는 의미 없는 규칙이라는 의견임