4P by xguru 2시간전 | ★ favorite | 댓글 1개
  • 텍스트, 이미지, 비디오, 오디오를 단일 아키텍처에서 통합 처리하는 네이티브 옴니모달 모델로, 에이전트 작업에 특화
  • MIT 라이센스로 상용 배포 및 파인튜닝까지 모두 가능 - 별도 허가 필요없음
  • Sparse MoE 구조로 전체 310B 파라미터 중 15B만 활성화하여 효율적 추론 가능 (Pro 버전은 1.02T/42B)
  • Hybrid Attention(SWA + GA 5:1 비율, 윈도우 128)으로 KV-cache 저장량 약 6배 절감하면서 최대 1M 토큰 컨텍스트 지원
  • 전용 비전 인코더(729M 파라미터 ViT, 하이브리드 윈도우 어텐션)와 오디오 인코더(261M 파라미터, MiMo-Audio-Tokenizer 기반) 탑재
  • Multi-Token Prediction(MTP) 모듈 3개 레이어로 speculative decoding 기반 추론 가속 및 RL 훈련 효율 향상
  • 총 약 48T 토큰으로 FP8 mixed precision 학습했으며, 후처리 단계에서 SFT, 대규모 에이전트 RL, Multi-Teacher On-Policy Distillation(MOPD) 적용하여 에이전트·멀티모달 벤치마크 성능 강화
    • 5단계 파이프라인(텍스트 사전학습 → 프로젝터 워밍업 → 멀티모달 사전학습 → SFT/에이전트 후처리 → RL/MOPD)
  • SGLang(FP8 양자화, dp/tp 병렬)vLLM 공식 배포 지원
  • Base(256K)Full(1M) 두 가지 버전 제공

이거 VentureBeat에서 테스트 했는데 OpenClaw에 꽤 적합하다는 군요
https://venturebeat.com/ai/…

  • ClawEval 벤치마크에서 Pro 모델은 오픈소스 분야 선두로 63.8% 성공률 기록
  • Anthropic Claude Opus 4.6, Google Gemini 3.1 Pro, OpenAI GPT-5.4 대비 40~60% 적은 토큰으로 동등한 결과 달성
  • MiMo-V2.5("Omni")는 네이티브 멀티모달 전문 모델로, 시각·청각·텍스트를 통합 처리
  • MiMo-V2.5-Pro("Agent")는 "장기 일관성(long-horizon coherence)"과 복잡한 소프트웨어 엔지니어링에 특화
  • Pro 모델은 GDPVal-AA(Elo) 벤치마크에서 1581점을 기록, Kimi K2.6과 GLM 5.1을 상회
  • 많은 "오픈" 모델이 제한적 "Acceptable Use" 정책을 포함하는 것과 달리, MiMo-V2.5는 MIT 라이선스로 공개
    • 승인 불필요: Xiaomi의 명시적 허가 없이 상업적 배포 가능
    • 지속 훈련 자유: 자체 데이터로 파인튜닝 후 파생 가중치 공개 가능
    • 무제한 상업 사용: 커뮤니티 라이선스에 흔한 수익 상한이나 사용자 수 제한 없음
  • 프로젝트 리더 Fuli Luo(前 DeepSeek 핵심 멤버)

    "모델의 가치는 순위가 아니라 해결하는 문제로 측정된다"