MiMo-V2.5 — Xiaomi의 오픈소스 옴니모델 AI 모델
(huggingface.co)- 텍스트, 이미지, 비디오, 오디오를 단일 아키텍처에서 통합 처리하는 네이티브 옴니모달 모델로, 에이전트 작업에 특화
- MIT 라이센스로 상용 배포 및 파인튜닝까지 모두 가능 - 별도 허가 필요없음
- Sparse MoE 구조로 전체 310B 파라미터 중 15B만 활성화하여 효율적 추론 가능 (Pro 버전은 1.02T/42B)
- Hybrid Attention(SWA + GA 5:1 비율, 윈도우 128)으로 KV-cache 저장량 약 6배 절감하면서 최대 1M 토큰 컨텍스트 지원
- 전용 비전 인코더(729M 파라미터 ViT, 하이브리드 윈도우 어텐션)와 오디오 인코더(261M 파라미터, MiMo-Audio-Tokenizer 기반) 탑재
- Multi-Token Prediction(MTP) 모듈 3개 레이어로 speculative decoding 기반 추론 가속 및 RL 훈련 효율 향상
- 총 약 48T 토큰으로 FP8 mixed precision 학습했으며, 후처리 단계에서 SFT, 대규모 에이전트 RL, Multi-Teacher On-Policy Distillation(MOPD) 적용하여 에이전트·멀티모달 벤치마크 성능 강화
- 5단계 파이프라인(텍스트 사전학습 → 프로젝터 워밍업 → 멀티모달 사전학습 → SFT/에이전트 후처리 → RL/MOPD)
- SGLang(FP8 양자화, dp/tp 병렬) 및 vLLM 공식 배포 지원
- Base(256K) 와 Full(1M) 두 가지 버전 제공
이거 VentureBeat에서 테스트 했는데 OpenClaw에 꽤 적합하다는 군요
https://venturebeat.com/ai/…
- ClawEval 벤치마크에서 Pro 모델은 오픈소스 분야 선두로 63.8% 성공률 기록
- Anthropic Claude Opus 4.6, Google Gemini 3.1 Pro, OpenAI GPT-5.4 대비 40~60% 적은 토큰으로 동등한 결과 달성
- MiMo-V2.5("Omni")는 네이티브 멀티모달 전문 모델로, 시각·청각·텍스트를 통합 처리
- MiMo-V2.5-Pro("Agent")는 "장기 일관성(long-horizon coherence)"과 복잡한 소프트웨어 엔지니어링에 특화
- Pro 모델은 GDPVal-AA(Elo) 벤치마크에서 1581점을 기록, Kimi K2.6과 GLM 5.1을 상회
- 많은 "오픈" 모델이 제한적 "Acceptable Use" 정책을 포함하는 것과 달리, MiMo-V2.5는 MIT 라이선스로 공개
- 승인 불필요: Xiaomi의 명시적 허가 없이 상업적 배포 가능
- 지속 훈련 자유: 자체 데이터로 파인튜닝 후 파생 가중치 공개 가능
- 무제한 상업 사용: 커뮤니티 라이선스에 흔한 수익 상한이나 사용자 수 제한 없음
- 프로젝트 리더 Fuli Luo(前 DeepSeek 핵심 멤버)
"모델의 가치는 순위가 아니라 해결하는 문제로 측정된다"