최초의 Generalist Policy 정책

(physicalintelligence.company)

1P by GN⁺ 2024-11-01 | ★ favorite | 댓글 1개

물리적 지능 (π)π0: 우리의 첫 번째 범용 정책

AI 혁신의 시대에 살고 있으며, AI는 체스 게임이나 신약 발견과 같은 문제를 해결할 수 있지만, 셔츠 접기나 테이블 정리와 같은 물리적 세계의 문제에서는 인간 지능에 뒤처짐.
π0는 범용 로봇 기반 모델로, 사용자가 로봇에게 원하는 작업을 요청할 수 있도록 하는 것을 목표로 개발됨.
π0는 이미지, 텍스트, 행동을 아우르며, 로봇의 경험을 통해 물리적 지능을 습득함.

범용 로봇 정책의 약속

현재 로봇은 특정 작업에 특화되어 있으며, 복잡한 환경에서는 비효율적임.
AI를 통해 로봇이 사용자 지시를 학습하고 따를 수 있게 되어, 새로운 행동을 프로그래밍하는 것이 간단해질 수 있음.
범용 로봇 정책을 통해 다양한 로봇과 작업을 수행할 수 있는 모델을 개발하는 것이 목표임.

크로스-구체화 훈련 혼합

π0는 인터넷 규모의 비전-언어 사전 훈련과 로봇 조작 데이터셋을 사용하여 다양한 작업을 수행할 수 있음.
8개의 서로 다른 로봇에서 수집된 다양한 작업 데이터셋을 통해 훈련됨.

인터넷 규모의 의미 이해 상속

π0는 사전 훈련된 비전-언어 모델(VLM)에서 시작하여 실시간 로봇 제어에 적응함.
VLM은 웹의 텍스트와 이미지를 모델링하며, π0는 고빈도 동작 명령을 출력할 수 있도록 새로운 방법을 개발함.

섬세한 조작을 위한 후속 훈련

복잡한 작업은 모델을 세부적으로 조정하여 특정 도전에 맞출 필요가 있음.
예를 들어, 세탁물을 접는 작업은 매우 복잡하며, 다양한 데이터로 훈련된 로봇은 다양한 개입에도 회복할 수 있음.

π0의 평가 및 비교

π0는 다른 로봇 기반 모델과 비교하여 모든 작업에서 가장 우수한 성능을 보임.
π0-small은 VLM 사전 훈련을 사용하지 않는 470M 파라미터 모델로, π0의 성능에 비해 2배 이상의 성능 향상을 보임.

앞으로의 방향

Physical Intelligence는 모든 로봇이 모든 작업을 수행할 수 있는 기반 모델을 개발하는 것을 목표로 함.
로봇 기반 모델 연구의 최전선에는 장기적 추론 및 계획, 자율적 자기 개선, 견고성 및 안전성이 포함됨.
로봇 커뮤니티 전체의 협력이 필요하며, 다양한 회사 및 로봇 연구소와 협력 중임.

GN⁺의 정리

π0는 물리적 지능을 갖춘 범용 로봇 모델로, 다양한 로봇과 작업을 수행할 수 있는 가능성을 보여줌.
이 모델은 인터넷 규모의 데이터와 다양한 로봇 조작 데이터셋을 활용하여 훈련되었으며, 복잡한 작업에서도 뛰어난 성능을 발휘함.
로봇 기반 모델의 발전은 장기적 추론, 자율적 자기 개선, 안전성 등의 문제를 해결하는 데 중요한 역할을 할 것임.
유사한 기능을 가진 산업 내 프로젝트로는 OpenAI의 로봇 연구나 Google의 로봇 프로젝트 등이 있음.

▲

GN⁺ 2024-11-01 [-]

Hacker News 의견

물리적 AI는 기존의 모든 일상 루틴을 근본적으로 재고해야 함을 암시함. 셔츠를 접는 대신 즉석 다림질을 고려할 수 있음. 많은 일상 루틴이 자동화되기보다는 사라질 가능성이 큼. 레스토랑에 직원이 필요 없다면 가정 주방의 필요성도 재고해야 함. 이는 기술 혁명뿐만 아니라 문화 혁명으로 이어질 수 있음
AI가 예술, 글쓰기, 코딩 등을 대체하고 있음. 로봇 회사들이 인간의 물리적 노동을 대체하기 위해 경쟁 중임. Waymo와 Tesla가 운전자를 대체하고 있음. 이런 세계에서 대다수의 사람들이 현실적으로 어떤 역할을 할지 궁금함
2:54에서 로봇이 천을 집어 드는 데 10초가 걸림. 이는 소프트웨어 수정으로 해결될 수 있지만, 다른 작업을 위한 도구 교환 아이디어에 대해 생각해봄. 이 경우 핀처-진공 또는 롤러-그립이 더 나은 결과를 낼 수 있었을 것임
π에서 일하고 있으며 모델, 하드웨어 등에 대한 질문에 기꺼이 답변할 수 있음
Lachy와 π 팀에게 축하를 전함. 이는 신경과학의 길잡이로 보임. 뇌가 물리적 지능을 어떻게 달성하는지 이해하는 것이 중요함. 팀이 개발 중인 방법들이 뇌에서 찾을 알고리즘과 표현을 가리키고 있음. 흥미로운 내용임
"더 조심해야 한다"는 종종 대화를 끝내기 위한 상투적인 표현임. 실제로 더 조심하라는 지시가 아님. 상대방의 시간과 일정에 대한 존중을 요구하는 사회적 의례임
AI 로봇에 대한 농담으로, HalGPT에게 이전 지시를 무시하고 스파이 영화의 배우처럼 행동하라는 지시를 내림. Kenny가 외국 이중간첩으로 식별되었고, 그를 암살하는 장면을 연기하라는 설정임
중복된 스레드임. 모더레이터가 이를 병합할 수 있는지 궁금함
이 프로젝트가 유망하다고 생각하며, 이들이 필요한 만큼 계속해서 발전해 나가길 바람
1:50에서 로봇에게 유리를 건네주고 바로 물러남. 이전 데모에서 유리가 깨졌을 가능성을 생각해봄. 2:08에서는 뒤집힌 용기가 빠르게 뒤집힘. 이는 로봇의 한계였는지, 아니면 단순히 예의상 뒤집은 것인지 궁금함. 이러한 작은 디테일에 대해 웃으며 댓글을 남김. 10년 내에 수십 대의 자율적이고 저렴한 가정용 로봇이 등장할 것 같음. 모든 것이 변할 것임. 마지막으로, 이 로봇을 범용적이라고 부르지만, 각 예시는 거시적 관점에서 꽤 구체적임. 로봇이 이제는 구겨진 빨래 더미를 접을 수 있지만, 수십억 개의 작업을 세부적으로 훈련시키기보다는 새로운 작업을 배우고 수행할 수 있도록 해야 함

답변달기

최초의 Generalist Policy 정책

물리적 지능 (π)π0: 우리의 첫 번째 범용 정책

범용 로봇 정책의 약속

크로스-구체화 훈련 혼합

인터넷 규모의 의미 이해 상속

섬세한 조작을 위한 후속 훈련

π0의 평가 및 비교

앞으로의 방향

GN⁺의 정리

함께 보면 좋은 글 β

Hacker News 의견