# 구글 딥마인드, Gemini Robotics 공개

> Clean Markdown view of GeekNews topic #19716. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=19716](https://news.hada.io/topic?id=19716)
- GeekNews Markdown: [https://news.hada.io/topic/19716.md](https://news.hada.io/topic/19716.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-03-13T09:41:43+09:00
- Updated: 2025-03-13T09:41:43+09:00
- Original source: [deepmind.google](https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/)
- Points: 4
- Comments: 1

## Topic Body

- Gemini 2.0을 로봇공학에 도입하여 비전-언어-행동(VLA) 모델과 공간을 이해하는 ER 모델을 발표함   
- Google DeepMind는 복잡한 문제를 해결하기 위해 텍스트, 이미지, 오디오, 비디오를 활용한 멀티모달 추론 능력을 발전시켜 왔음  
- 그러나 이러한 능력은 지금까지 디지털 환경에만 국한됨  
- 물리적 세계에서 AI가 유용해지려면 **인간처럼 환경을 이해하고 반응**하며, 안전하게 작업을 수행하는 **"구체적 추론(embodied reasoning)"** 능력이 필요함  
- 이에 따라 두 가지 새로운 모델 발표  
  - **Gemini Robotics**: Gemini 2.0 기반으로 로봇을 직접 제어할 수 있는 비전-언어-행동(VLA) 모델  
  - **Gemini Robotics-ER**: 향상된 공간 이해력과 로봇 제어 능력을 제공하는 모델  
- Apptronik과 협력해 다음 세대의 인간형 로봇을 개발 중  
- 소수의 신뢰할 수 있는 테스트 사용자와 협력해 모델 성능 개선 중  
  
#### Gemini Robotics: 가장 발전된 비전-언어-행동 모델  
##### **1. 일반화 능력(Generality)**  
- 새로운 상황에서도 적응하고 다양한 작업을 수행 가능  
- 새로운 사물, 명령 및 환경에서 우수한 성능 발휘  
- 기술 보고서에 따르면, 기존 VLA 모델 대비 일반화 성능이 **2배 이상** 향상됨  
  
##### **2. 상호작용 능력(Interactivity)**  
- 자연어 명령을 이해하고 반응 가능  
- 다양한 언어 및 일상 언어 명령에 대응  
- 환경 변화에 실시간으로 반응하며 행동 수정 가능  
- 사물이 손에서 미끄러지거나 위치가 바뀌어도 즉시 재계획 후 작업 지속 가능  
  
##### **3. 손재주(Dexterity)**  
- 세밀한 작업 수행 능력 강화  
- 복잡한 다단계 작업 수행 가능 (예: 종이접기, 지퍼백에 간식 담기 등)  
  
##### **4. 다양한 형태의 로봇 적용 가능(Multiple embodiments)**  
- 다양한 로봇 형태에 쉽게 적용 가능  
- ALOHA 2, Franka 기반 로봇 및 인간형 Apollo 로봇에서 작동 확인  
  
#### Gemini Robotics-ER: 강화된 공간 이해 능력  
- Gemini 2.0의 공간 인식 및 3D 탐지 성능 대폭 강화  
- 로봇이 사물의 위치를 인식하고 적절한 방식으로 조작 가능  
- **코드 생성 능력** 결합 → 로봇이 새로운 작업 방식을 즉석에서 생성 가능  
- 성공률이 Gemini 2.0 대비 **2~3배** 향상됨  
- 시연 예시: 커피잔의 손잡이를 인식하고 안전한 경로로 접근해 집어 올림  
  
#### AI 및 로봇의 안전 강화 전략  
- 로봇의 물리적 안전 문제 해결에 초점  
- 로봇이 충돌 방지, 접촉력 제한, 동적 안정성 유지 등 전통적인 안전 조치 수행  
- Gemini Robotics-ER은 안전이 우려될 경우 작업 수행 여부를 판단하고 적절히 대응  
- 새로운 **ASIMOV 데이터셋** 출시 → 로봇 행동의 안전성 평가 및 개선 목적  
- 내부 책임 및 안전 위원회와 외부 전문가와 협력해 윤리적 문제 해결  
  
#### 주요 파트너 및 향후 계획  
- **Apptronik**과 협력해 인간형 로봇 개발  
- **Agile Robots**, **Agility Robots**, **Boston Dynamics**, **Enchanted Tools** 등에서 Gemini Robotics-ER 테스트 중  
- 향후 AI와 로봇 기술의 발전을 지속 추진할 계획  
  
#### 관련 링크  
- [기술 보고서 읽기](https://storage.googleapis.com/deepmind-media/gemini-robotics/gemini_robotics_report.pdf)  
- [Gemini Robotics 소개 페이지](https://deepmind.google/technologies/gemini-robotics/)

## Comments


### Comment 35804

- Author: neo
- Created: 2025-03-13T09:41:43+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=43344082) 
* YouTube에서 20개의 비디오 데모를 볼 수 있는 전체 재생 목록 링크가 있음
* 이전에 Google Gemini의 인상적인 데모가 조작된 적이 있었음을 기억하는 사람이 없는지 궁금함
* 아시모프의 로봇 법칙이 흥미로운 SF 소품이지만 실제 컴퓨팅과는 거리가 멀다고 생각했음
  - 알고 보니 아시모프는 시대를 앞서 LLM 프롬프트를 작성하고 있었음
* 쓰레기 분류가 더 쉽고 빨라진다면 재활용 효율성을 100배 향상시킬 수 있을 것임
  - 이미 그렇게 하는 곳도 있지만, 로봇이 세상을 개선할 수 있는 단순 작업이 많음
* 메인 비디오 끝부분에서 로봇이 풀리에 원형 벨트를 끼우는 장면이 인상적이었음
  - 훈련 데이터에 이와 같은 행동이 많겠지만, 셔츠 접기나 물건 분류보다 직관적으로 느껴졌음
  - 페이지에서 비디오 자동 재생/일시정지/스크롤 기능이 고장난 것 같음
* 실시간 양방향 번역기로 작동하는 장치를 원함
  - 독일어나 다른 언어를 배우는 데 시간을 낭비하지 않고 그곳에서 생활할 수 있으면 좋겠음
  - 영어만으로 음식 주문과 행정 처리를 할 수 있다면 놀라운 일일 것임
* 누구나 중국에서 로봇 팔을 주문해 차고에 설치하고 LLM처럼 텍스트로 프로그래밍할 수 있게 될 것임
  - 더 큰 생각을 할 때임
* 비디오가 실제 성능을 나타내는지 마케팅 전략인지 확신할 수 없지만 인상적임
  - Iron Man 1의 로봇 팔을 연상시킴
* 로봇이 식사를 준비할 수 있을 정도로 능숙해지면, 일자리 시장의 전환점이 될 것임
  - 현재 모델은 그 수준에 도달하지 않았지만, 향후 몇 년간 합성 데이터 생성에 대한 큰 투자가 그 수준에 가까워질지 지켜볼 것임
* Google의 문제는 광고 사업이 너무 많은 수익을 가져와 다른 제품이 의미가 없다는 것임
  - 로봇을 통해 배운 것을 광고 수익을 높이는 데 사용할 것임