GN⁺: Magma - 멀티모달 AI 에이전트를 위한 기초 모델
(microsoft.github.io)- Magma는 다중모달 입력을 해석하고 이를 환경 내에서 연결할 수 있는 최초의 기초 모델로, 가상 및 현실 세계에서의 복잡한 상호작용을 처리할 수 있음
- 단순한 이미지·영상 이해뿐만 아니라, 목표 중심의 시각적 계획 및 실행을 생성하여 다양한 AI 에이전트 작업을 수행
- UI 내비게이션, 로봇 조작, 이미지·영상 이해(특히 공간적 이해 및 추론) 등 여러 멀티모달 작업에서 최첨단 성능을 달성
- 확장 가능한 사전학습 방식: 비라벨링된 영상 데이터를 기존의 에이전트 데이터와 함께 학습하여 강력한 일반화 성능을 가지며, 실제 응용에 적합
- 코드, 모델, UI 내비게이션 데모를 MSR Forum (2025.02.25)에서 공개할 예정.
Magma의 목표
-
언어 및 공간-시간적 지능:
- 이미지와 영상을 정확하게 이해하고, 이를 기반으로 목표를 행동 계획 및 실행으로 변환하는 능력
-
디지털 및 물리적 환경에서의 작동:
- 웹 내비게이션(UI 조작)과 로봇 조작 모두 수행 가능
- 인간처럼 디지털·물리적 환경을 자유롭게 오갈 수 있는 AI
- 이를 위해, 비라벨링된 영상 데이터와 기존의 에이전트 데이터를 활용하는 새로운 학습 데이터셋과 텍스트·이미지·행동을 통합적으로 학습하는 사전학습 프레임워크를 개발하여 Magma를 학습시킴
Magma의 사전학습 방식
- Magma는 두 가지 핵심 접근법을 통해 학습됨.
-
1️⃣ 대규모 이질적 학습 데이터 활용
- 기존의 멀티모달 데이터, UI 내비게이션 데이터, 로봇 조작 데이터뿐만 아니라, 비라벨링된 영상 데이터를 대량으로 수집하여 학습함.
- 카메라 움직임을 제거하고, 실제 행동 데이터를 추출하여 모델이 장기적 행동 예측 및 계획을 학습할 수 있도록 함.
-
2️⃣ 통합 사전학습 목표 설정
- 텍스트와 행동은 본질적으로 다르며, 이를 효과적으로 연결하는 것이 과제
-
Set-of-Mark, Trace-of-Mark 등의 새로운 학습 기법을 도입하여 텍스트·이미지·행동 간의 강력한 정렬(Alignment) 구조를 구축
- Set-of-Mark (SoM): 이미지에서의 효과적인 행동 기반을 가능하게 하며, UI 스크린샷, 로봇 조작 및 인간 비디오에서 클릭 가능한 버튼이나 로봇 팔에 대한 숫자 마크를 예측함.
- Trace-of-Mark (ToM): 로봇 조작 및 인간 행동에 대한 감독을 제공하여, 모델이 시간적 비디오 역학을 이해하고 행동하기 전에 미래 상태를 예측하도록 함.
모델 사용법
직접 사용 (Fine-tuning 없이 사용 가능)
Magma는 연구 용도로 설계되었으며, 다음과 같은 방식으로 사용할 수 있음.
- 이미지/영상 기반 텍스트 생성: 입력된 이미지·텍스트를 기반으로 설명 및 답변 생성 가능.
- 시각적 계획(Visual Planning): 물체 이동 등 목표 달성을 위한 미래 행동 경로를 예측할 수 있음.
-
에이전트 기능:
- UI 내비게이션: 예를 들어, "검색 버튼 클릭"과 같은 UI 조작 예측
- 로봇 조작: 로봇의 7자유도(7 DoF) 조작 예측
다운스트림 작업 (Fine-tuning 활용)
Magma는 특정 작업에 맞춰 추가 학습이 가능함.
- 이미지 캡셔닝 및 QA: 기존 멀티모달 대형언어모델(LLM) 방식으로 학습하여 공간적 이해 및 추론 능력 강화.
- 영상 캡셔닝 및 QA: 영상 데이터에 대한 시간적 이해 및 추론 능력 강화 가능.
- UI 내비게이션: 웹 및 모바일 UI 내비게이션 작업에 최적화하여 높은 성능을 달성할 수 있음.
- 로봇 조작: 로봇 제어를 위한 추가 학습을 통해, OpenVLA 등의 기존 로봇 조작 모델을 능가하는 성능을 보임.
편향(Bias), 위험(Risks), 제한사항(Limitations)
- 본 모델은 모든 다운스트림 작업을 위해 설계된 것은 아님.
- 특정 사용 사례에 적용하기 전, 정확성, 안전성, 공정성을 평가하고 조정해야 함.
- 특히 고위험 시나리오에서는 적용 가능 법률 및 규제를 준수해야 함.
Hacker News 의견
- Magma 프로젝트에 대한 관심에 감사드림. 우리는 추론, 훈련, 평가, 데이터 전처리 코드를 점진적으로 공개할 예정이며, 다음 주 화요일까지 완료될 것임
- 멀티모달 에이전트의 발전 속도가 인상적임. OpenVLA는 2024년 6월에 출시되어 당시 최첨단이었음. 8개월 후, "Pick Place Hotdog Sausage"와 같은 작업에서 성공률이 2/10에서 6/10으로 증가함
- 산업용 로봇은 인간의 행동을 모방하지 않기 때문에 효율적임. 따라서 로봇에게 인간의 행동을 가르치는 제안이 어떤 의미가 있는지 이해하기 어려움. 가정용 로봇은 효율적인 도구가 필요할 것임. 현재 사용하는 세탁기, 오븐, 식기세척기와는 다른 새로운 기계가 필요할 것임
- 멀티모달 기능, 특히 다음 행동 예측이 인상적임. GitHub에서 이 기능이 오픈소스로 공개될지 지켜보고 있음. Magma라는 이름의 이유가 궁금함
- 정말 흥미로운 모델임. 사용해보기를 기대하고 있음. 하지만 내가 원하는 것은 Meta motivo와 같은 휴머노이드 제어 모델을 위한 임베딩을 생성할 수 있는 멀티모달 에이전트 모델임. Meta motivo는 SMPL 스켈레톤으로 훈련된 장난감 모델로, 손가락이 없어 기능이 제한적임. SMPL-X와 같은 더 발전된 모델을 사용할 수 있었지만, 정밀한 손가락 움직임을 포함한 개방형 모션 데이터가 부족하여 강력한 조작 모델을 훈련하기 어려움
- 대부분의 기존 모션 데이터셋은 학문적 모션 캡처 설정에서 비롯되며, 조작 작업에 중점을 두지 않음. 2D 비디오에서 3D HPE의 발전이 이 격차를 메울 것이라고 믿음. 수천 시간의 비디오에 접근할 수 있다면, 다양한 실제 상호작용을 포괄하는 대규모 모션 데이터셋을 구축할 수 있음
- 이는 손과 손가락 관절 움직임을 정확하게 모델링하는 제어 모델을 읽을 수 있는 임베딩을 생성하는 에이전트 모델을 훈련하는 데 필요한 두 가지 구성 요소를 가능하게 할 것임. 2D 비디오에서 SoTA 3D HPE의 빠른 발전과 온라인 비디오의 방대한 양을 고려할 때, 가까운 미래에 좋은 조작 능력을 가진 휴머노이드 로봇을 볼 수 있을 것이라고 기대함
- 머그컵을 닦는 비디오에서 사람은 컵을 씻는 척하지만 손을 젖히고 싶지 않은 것처럼 보임. 모델이 이러한 미묘한 것을 언제 파악할 수 있을지 궁금함
- 왜 멀티모달 모델이 유연하게 이미지를 생성하지 않는지 궁금함. 다른 모델에 이미지를 생성하도록 넘기는 것 같음. 그들이 만든 이미지에 무엇이 있는지 잘 알지 못하며 이미지를 편집할 수 있음
- 멀티모달 에이전트는 장기적인 작업에서 실패하는 것으로 악명 높음. Magma는 어떻게 수행하는지 궁금함
- 멀티모달 모델 중에서 추론 훈련된 것이 있는지 궁금함
- 점진적 훈련에 대한 연구가 있는지 궁금함. 이는 RAG의 대안으로 로봇에 사용할 수 있을 것임