Magma - 멀티모달 AI 에이전트를 위한 기초 모델

▲

GN⁺ 2025-02-21 | parent | ★ favorite | on: Magma - 멀티모달 AI 에이전트를 위한 기초 모델(microsoft.github.io)

Hacker News 의견

Magma 프로젝트에 대한 관심에 감사드림. 우리는 추론, 훈련, 평가, 데이터 전처리 코드를 점진적으로 공개할 예정이며, 다음 주 화요일까지 완료될 것임
멀티모달 에이전트의 발전 속도가 인상적임. OpenVLA는 2024년 6월에 출시되어 당시 최첨단이었음. 8개월 후, "Pick Place Hotdog Sausage"와 같은 작업에서 성공률이 2/10에서 6/10으로 증가함
산업용 로봇은 인간의 행동을 모방하지 않기 때문에 효율적임. 따라서 로봇에게 인간의 행동을 가르치는 제안이 어떤 의미가 있는지 이해하기 어려움. 가정용 로봇은 효율적인 도구가 필요할 것임. 현재 사용하는 세탁기, 오븐, 식기세척기와는 다른 새로운 기계가 필요할 것임
멀티모달 기능, 특히 다음 행동 예측이 인상적임. GitHub에서 이 기능이 오픈소스로 공개될지 지켜보고 있음. Magma라는 이름의 이유가 궁금함
정말 흥미로운 모델임. 사용해보기를 기대하고 있음. 하지만 내가 원하는 것은 Meta motivo와 같은 휴머노이드 제어 모델을 위한 임베딩을 생성할 수 있는 멀티모달 에이전트 모델임. Meta motivo는 SMPL 스켈레톤으로 훈련된 장난감 모델로, 손가락이 없어 기능이 제한적임. SMPL-X와 같은 더 발전된 모델을 사용할 수 있었지만, 정밀한 손가락 움직임을 포함한 개방형 모션 데이터가 부족하여 강력한 조작 모델을 훈련하기 어려움
대부분의 기존 모션 데이터셋은 학문적 모션 캡처 설정에서 비롯되며, 조작 작업에 중점을 두지 않음. 2D 비디오에서 3D HPE의 발전이 이 격차를 메울 것이라고 믿음. 수천 시간의 비디오에 접근할 수 있다면, 다양한 실제 상호작용을 포괄하는 대규모 모션 데이터셋을 구축할 수 있음
이는 손과 손가락 관절 움직임을 정확하게 모델링하는 제어 모델을 읽을 수 있는 임베딩을 생성하는 에이전트 모델을 훈련하는 데 필요한 두 가지 구성 요소를 가능하게 할 것임. 2D 비디오에서 SoTA 3D HPE의 빠른 발전과 온라인 비디오의 방대한 양을 고려할 때, 가까운 미래에 좋은 조작 능력을 가진 휴머노이드 로봇을 볼 수 있을 것이라고 기대함
머그컵을 닦는 비디오에서 사람은 컵을 씻는 척하지만 손을 젖히고 싶지 않은 것처럼 보임. 모델이 이러한 미묘한 것을 언제 파악할 수 있을지 궁금함
왜 멀티모달 모델이 유연하게 이미지를 생성하지 않는지 궁금함. 다른 모델에 이미지를 생성하도록 넘기는 것 같음. 그들이 만든 이미지에 무엇이 있는지 잘 알지 못하며 이미지를 편집할 수 있음
멀티모달 에이전트는 장기적인 작업에서 실패하는 것으로 악명 높음. Magma는 어떻게 수행하는지 궁금함
멀티모달 모델 중에서 추론 훈련된 것이 있는지 궁금함
점진적 훈련에 대한 연구가 있는지 궁금함. 이는 RAG의 대안으로 로봇에 사용할 수 있을 것임