1P by neo 14일전 | favorite | 댓글 1개

물리적 지능 (π)π0: 우리의 첫 번째 범용 정책

  • AI 혁신의 시대에 살고 있으며, AI는 체스 게임이나 신약 발견과 같은 문제를 해결할 수 있지만, 셔츠 접기나 테이블 정리와 같은 물리적 세계의 문제에서는 인간 지능에 뒤처짐.
  • π0는 범용 로봇 기반 모델로, 사용자가 로봇에게 원하는 작업을 요청할 수 있도록 하는 것을 목표로 개발됨.
  • π0는 이미지, 텍스트, 행동을 아우르며, 로봇의 경험을 통해 물리적 지능을 습득함.

범용 로봇 정책의 약속

  • 현재 로봇은 특정 작업에 특화되어 있으며, 복잡한 환경에서는 비효율적임.
  • AI를 통해 로봇이 사용자 지시를 학습하고 따를 수 있게 되어, 새로운 행동을 프로그래밍하는 것이 간단해질 수 있음.
  • 범용 로봇 정책을 통해 다양한 로봇과 작업을 수행할 수 있는 모델을 개발하는 것이 목표임.

크로스-구체화 훈련 혼합

  • π0는 인터넷 규모의 비전-언어 사전 훈련과 로봇 조작 데이터셋을 사용하여 다양한 작업을 수행할 수 있음.
  • 8개의 서로 다른 로봇에서 수집된 다양한 작업 데이터셋을 통해 훈련됨.

인터넷 규모의 의미 이해 상속

  • π0는 사전 훈련된 비전-언어 모델(VLM)에서 시작하여 실시간 로봇 제어에 적응함.
  • VLM은 웹의 텍스트와 이미지를 모델링하며, π0는 고빈도 동작 명령을 출력할 수 있도록 새로운 방법을 개발함.

섬세한 조작을 위한 후속 훈련

  • 복잡한 작업은 모델을 세부적으로 조정하여 특정 도전에 맞출 필요가 있음.
  • 예를 들어, 세탁물을 접는 작업은 매우 복잡하며, 다양한 데이터로 훈련된 로봇은 다양한 개입에도 회복할 수 있음.

π0의 평가 및 비교

  • π0는 다른 로봇 기반 모델과 비교하여 모든 작업에서 가장 우수한 성능을 보임.
  • π0-small은 VLM 사전 훈련을 사용하지 않는 470M 파라미터 모델로, π0의 성능에 비해 2배 이상의 성능 향상을 보임.

앞으로의 방향

  • Physical Intelligence는 모든 로봇이 모든 작업을 수행할 수 있는 기반 모델을 개발하는 것을 목표로 함.
  • 로봇 기반 모델 연구의 최전선에는 장기적 추론 및 계획, 자율적 자기 개선, 견고성 및 안전성이 포함됨.
  • 로봇 커뮤니티 전체의 협력이 필요하며, 다양한 회사 및 로봇 연구소와 협력 중임.

GN⁺의 정리

  • π0는 물리적 지능을 갖춘 범용 로봇 모델로, 다양한 로봇과 작업을 수행할 수 있는 가능성을 보여줌.
  • 이 모델은 인터넷 규모의 데이터와 다양한 로봇 조작 데이터셋을 활용하여 훈련되었으며, 복잡한 작업에서도 뛰어난 성능을 발휘함.
  • 로봇 기반 모델의 발전은 장기적 추론, 자율적 자기 개선, 안전성 등의 문제를 해결하는 데 중요한 역할을 할 것임.
  • 유사한 기능을 가진 산업 내 프로젝트로는 OpenAI의 로봇 연구나 Google의 로봇 프로젝트 등이 있음.
Hacker News 의견
  • 물리적 AI는 기존의 모든 일상 루틴을 근본적으로 재고해야 함을 암시함. 셔츠를 접는 대신 즉석 다림질을 고려할 수 있음. 많은 일상 루틴이 자동화되기보다는 사라질 가능성이 큼. 레스토랑에 직원이 필요 없다면 가정 주방의 필요성도 재고해야 함. 이는 기술 혁명뿐만 아니라 문화 혁명으로 이어질 수 있음

  • AI가 예술, 글쓰기, 코딩 등을 대체하고 있음. 로봇 회사들이 인간의 물리적 노동을 대체하기 위해 경쟁 중임. Waymo와 Tesla가 운전자를 대체하고 있음. 이런 세계에서 대다수의 사람들이 현실적으로 어떤 역할을 할지 궁금함

  • 2:54에서 로봇이 천을 집어 드는 데 10초가 걸림. 이는 소프트웨어 수정으로 해결될 수 있지만, 다른 작업을 위한 도구 교환 아이디어에 대해 생각해봄. 이 경우 핀처-진공 또는 롤러-그립이 더 나은 결과를 낼 수 있었을 것임

  • π에서 일하고 있으며 모델, 하드웨어 등에 대한 질문에 기꺼이 답변할 수 있음

  • Lachy와 π 팀에게 축하를 전함. 이는 신경과학의 길잡이로 보임. 뇌가 물리적 지능을 어떻게 달성하는지 이해하는 것이 중요함. 팀이 개발 중인 방법들이 뇌에서 찾을 알고리즘과 표현을 가리키고 있음. 흥미로운 내용임

  • "더 조심해야 한다"는 종종 대화를 끝내기 위한 상투적인 표현임. 실제로 더 조심하라는 지시가 아님. 상대방의 시간과 일정에 대한 존중을 요구하는 사회적 의례임

  • AI 로봇에 대한 농담으로, HalGPT에게 이전 지시를 무시하고 스파이 영화의 배우처럼 행동하라는 지시를 내림. Kenny가 외국 이중간첩으로 식별되었고, 그를 암살하는 장면을 연기하라는 설정임

  • 중복된 스레드임. 모더레이터가 이를 병합할 수 있는지 궁금함

  • 이 프로젝트가 유망하다고 생각하며, 이들이 필요한 만큼 계속해서 발전해 나가길 바람

  • 1:50에서 로봇에게 유리를 건네주고 바로 물러남. 이전 데모에서 유리가 깨졌을 가능성을 생각해봄. 2:08에서는 뒤집힌 용기가 빠르게 뒤집힘. 이는 로봇의 한계였는지, 아니면 단순히 예의상 뒤집은 것인지 궁금함. 이러한 작은 디테일에 대해 웃으며 댓글을 남김. 10년 내에 수십 대의 자율적이고 저렴한 가정용 로봇이 등장할 것 같음. 모든 것이 변할 것임. 마지막으로, 이 로봇을 범용적이라고 부르지만, 각 예시는 거시적 관점에서 꽤 구체적임. 로봇이 이제는 구겨진 빨래 더미를 접을 수 있지만, 수십억 개의 작업을 세부적으로 훈련시키기보다는 새로운 작업을 배우고 수행할 수 있도록 해야 함