# MiMo-V2.5 — Xiaomi의 오픈소스 옴니모델 AI 모델

> Clean Markdown view of GeekNews topic #29006. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=29006](https://news.hada.io/topic?id=29006)
- GeekNews Markdown: [https://news.hada.io/topic/29006.md](https://news.hada.io/topic/29006.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2026-04-29T11:22:02+09:00
- Updated: 2026-04-29T11:22:02+09:00
- Original source: [huggingface.co](https://huggingface.co/XiaomiMiMo/MiMo-V2.5)
- Points: 5
- Comments: 1

## Topic Body

- 텍스트, 이미지, 비디오, 오디오를 **단일 아키텍처**에서 통합 처리하는 **네이티브 옴니모달 모델**로, **에이전트 작업에 특화**  
- MIT 라이센스로 상용 배포 및 파인튜닝까지 모두 가능 - 별도 허가 필요없음  
- **Sparse MoE** 구조로 전체 310B 파라미터 중 15B만 활성화하여 효율적 추론 가능 ([Pro 버전은 1.02T/42B](https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro))  
- **Hybrid Attention**(SWA + GA 5:1 비율, 윈도우 128)으로 KV-cache 저장량 약 6배 절감하면서 최대 **1M 토큰** 컨텍스트 지원  
- 전용 **비전 인코더**(729M 파라미터 ViT, 하이브리드 윈도우 어텐션)와 **오디오 인코더**(261M 파라미터, MiMo-Audio-Tokenizer 기반) 탑재  
- **Multi-Token Prediction(MTP)** 모듈 3개 레이어로 speculative decoding 기반 추론 가속 및 RL 훈련 효율 향상  
- 총 약 **48T 토큰**으로 FP8 mixed precision 학습했으며, 후처리 단계에서 **SFT, 대규모 에이전트 RL, Multi-Teacher On-Policy Distillation(MOPD)** 적용하여 에이전트·멀티모달 벤치마크 성능 강화  
  - 5단계 파이프라인(텍스트 사전학습 → 프로젝터 워밍업 → 멀티모달 사전학습 → SFT/에이전트 후처리 → RL/MOPD)  
- [SGLang(FP8 양자화, dp/tp 병렬)](https://docs.sglang.io/cookbook/autoregressive/Xiaomi/MiMo-V2.5) 및 [vLLM 공식 배포](https://recipes.vllm.ai/XiaomiMiMo/MiMo-V2-Flash) 지원  
- [Base(256K)](https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Base) 와 [Full(1M)](https://huggingface.co/XiaomiMiMo/MiMo-V2.5) 두 가지 버전 제공

## Comments



### Comment 56535

- Author: xguru
- Created: 2026-04-29T11:23:02+09:00
- Points: 1

이거 VentureBeat에서 테스트 했는데 OpenClaw에 꽤 적합하다는 군요  
https://venturebeat.com/ai/open-source-xiaomi-mimo-v2-5-and-v2-5-pro-are-among-the-most-efficient-and-affordable-at-agentic-claw-tasks  
- ClawEval 벤치마크에서 Pro 모델은 오픈소스 분야 선두로 **63.8% 성공률** 기록  
- Anthropic Claude Opus 4.6, Google Gemini 3.1 Pro, OpenAI GPT-5.4 대비 **40~60% 적은 토큰**으로 동등한 결과 달성  
- **MiMo-V2.5**("Omni")는 네이티브 멀티모달 전문 모델로, 시각·청각·텍스트를 통합 처리  
- **MiMo-V2.5-Pro**("Agent")는 "장기 일관성(long-horizon coherence)"과 복잡한 소프트웨어 엔지니어링에 특화  
- Pro 모델은 GDPVal-AA(Elo) 벤치마크에서 **1581점**을 기록, Kimi K2.6과 GLM 5.1을 상회  
- 많은 "오픈" 모델이 제한적 "Acceptable Use" 정책을 포함하는 것과 달리, MiMo-V2.5는 **MIT 라이선스**로 공개  
  - **승인 불필요**: Xiaomi의 명시적 허가 없이 상업적 배포 가능  
  - **지속 훈련 자유**: 자체 데이터로 파인튜닝 후 파생 가중치 공개 가능  
  - **무제한 상업 사용**: 커뮤니티 라이선스에 흔한 수익 상한이나 사용자 수 제한 없음  
- 프로젝트 리더 Fuli Luo(前 DeepSeek 핵심 멤버)  
  > "모델의 가치는 순위가 아니라 해결하는 문제로 측정된다"
