# Kimi K2.5 기술 보고서 [PDF] - 시각적 에이전트 지능을 향한 오픈 멀티모달 모델

> Clean Markdown view of GeekNews topic #26283. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=26283](https://news.hada.io/topic?id=26283)
- GeekNews Markdown: [https://news.hada.io/topic/26283.md](https://news.hada.io/topic/26283.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-02-01T02:32:18+09:00
- Updated: 2026-02-01T02:32:18+09:00
- Original source: [github.com/MoonshotAI](https://github.com/MoonshotAI/Kimi-K2.5/blob/master/tech_report.pdf)
- Points: 5
- Comments: 0

## Summary

**Kimi K2.5**는 Moonshot AI가 공개한 오픈소스 **텍스트–비전 통합 멀티모달 에이전트 모델**로, 추론·코딩·비전·에이전트 작업을 단일 구조에서 처리합니다. 핵심은 병렬 오케스트레이션 구조인 **Agent Swarm**으로, 복잡한 작업을 여러 서브에이전트가 동시에 분해·실행해 지연과 컨텍스트 병목을 줄입니다. 시각 강화 학습이 텍스트 추론 성능까지 향상시키는 교차 모달 전이 효과도 확인되었으며, 공개된 체크포인트는 범용 에이전트 시스템 연구의 기반으로 활용될 전망입니다.

## Topic Body

- Moonshot AI가 공개한 Kimi K2.5는 **텍스트와 비전을 함께 최적화한 오픈소스 멀티모달 에이전트 모델**로, 단일 모델에서 추론·코딩·비전·에이전트 작업 전반을 포괄적으로 처리  
- 기존 순차적 에이전트의 한계를 넘기 위해 **Agent Swarm 병렬 에이전트 오케스트레이션**을 도입해 복잡한 작업을 동시에 분해·실행함  
- 이미지·비디오·문서·웹·OS 환경까지 포함한 **광범위한 벤치마크 평가**에서 상용·오픈소스 모델들과 비교 성능을 제시함  
- 시각 강화 학습이 텍스트 추론 성능까지 개선되는 **교차 모달 전이 효과**를 실험적으로 확인함  
- 학습된 체크포인트를 공개해 **범용 에이전트 시스템 연구와 실사용 확장**을 목표로 함  
  
---  
### 개요 및 문제의식  
- 대규모 언어 모델이 단순 질의응답을 넘어 **도구 사용과 장기 계획을 수행하는 에이전트 지능**으로 진화 중임  
- 기존 멀티모달 모델은 텍스트 중심 설계에 비전을 덧붙이는 방식으로, 모달 간 충돌과 일반화 한계가 존재함  
- 복잡한 실제 작업에서는 **순차적 에이전트 실행으로 인한 지연과 컨텍스트 한계**가 주요 병목으로 작용함  
  
### Kimi K2.5 핵심 설계  
- **텍스트–비전 공동 사전학습**을 통해 학습 초기부터 두 모달을 일정 비율로 혼합해 정렬을 강화함  
- MoonViT-3D 비전 인코더를 사용해 **원본 해상도 이미지와 장시간 비디오**를 동일 구조로 처리함  
- 비전 전용 SFT 없이도 성능이 활성화되는 **zero-vision SFT 전략**을 채택함  
- 능력 단위로 구성된 **공동 멀티모달 강화학습**을 통해 지식·추론·코딩·에이전트 능력을 함께 개선함  
  
### Agent Swarm 아키텍처  
- 중앙 오케스트레이터가 작업을 **병렬화 가능한 하위 문제로 분해**하고, 전문 서브에이전트를 동적으로 생성함  
- 각 서브에이전트는 **독립된 로컬 컨텍스트**에서 작업해 전역 컨텍스트 오염을 방지함  
- 전체 기록이 아닌 **요약된 결과만 선택적으로 병합**해 컨텍스트 샤딩을 구현함  
- 병렬 실행을 유도하는 학습 프롬프트와 **Critical Steps 지표**로 지연 최소화를 학습함  
  
### 학습 구성 및 규모  
- 기반 모델 Kimi K2는 **1조 파라미터 MoE 구조**로 15조 토큰의 텍스트로 사전학습됨  
- Joint long-context 학습을 통해 **최대 256k 컨텍스트 길이**를 지원함  
- 이미지·비디오·OCR·문서·OS 스크린샷 등 **다양한 멀티모달 데이터**를 포함함  
  
### 평가 및 성능: 주요 모델 비교 중심 정리  
- Kimi K2.5는 **상용 모델(Claude Opus 4.5, GPT-5.2, Gemini 3 Pro)** 과 **오픈소스 모델(DeepSeek-V3.2, Qwen3-VL-235B)** 을 포함한 동일 조건 비교 평가를 수행함  
- 모든 평가는 temperature 1.0, top-p 0.95, **최대 256k 컨텍스트 길이** 설정으로 진행됨  
- ## 추론·일반 지식 벤치마크  
  - **AIME 2025**에서 Kimi K2.5는 96.1로 Claude Opus 4.5(92.8)와 Gemini 3 Pro(95.0)를 상회하며, GPT-5.2(100)에 근접한 성능 기록  
  - **HMMT 2025**와 **IMO-AnswerBench**에서도 Claude Opus 4.5 및 Qwen3-VL 대비 높은 점수 유지  
  - **GPQA-Diamond**에서는 87.6으로 Claude Opus 4.5(87.0)와 유사하며, 오픈소스 모델 대비 우수한 성능 확인  
  - **LongBench v2**에서는 Gemini 3 Pro가 가장 높은 점수를 기록했으나, Kimi K2.5는 DeepSeek-V3.2와 Qwen3-VL 대비 경쟁력 있는 결과 제시  
- ## 코딩 및 소프트웨어 엔지니어링  
  - **SWE-Bench Verified**에서 Kimi K2.5는 76.8로 DeepSeek-V3.2(76.2)와 유사하며, Qwen3-VL(73.1)을 상회함  
  - **SWE-Bench Pro**와 **Multilingual**에서도 상용 모델보다는 낮지만, 오픈소스 기준에서는 상위권 성능 유지  
  - **LiveCodeBench v6**에서 85.0으로 Claude Opus 4.5(82.2) 및 Qwen3-VL(83.3) 대비 높은 점수 기록  
  - **PaperBench(CodeDev)** 와 **CyberGym**에서는 상용 모델이 여전히 우세하나, Kimi K2.5는 실사용 가능한 수준의 안정적 성능을 보임  
- ## 에이전트 및 검색 기반 작업  
  - **BrowseComp**에서 단일 에이전트 기준 60.6으로 Claude Opus 4.5(37.0)를 크게 상회함  
  - **Agent Swarm 적용 시** BrowseComp 78.4, WideSearch 79.0으로 단일 에이전트 대비 명확한 성능 향상 확인  
  - WideSearch에서는 Claude Opus 4.5가 단일 에이전트 기준 더 높은 점수를 보였으나, **병렬 에이전트 구성에서는 Kimi K2.5가 우세**함  
  - DeepSearchQA, FinSearchComp 계열에서도 상용 모델과 근접한 수준의 결과 기록  
- ## 시각·문서·비디오 이해  
  - **MMMU-Pro, OCRBench, OmniDocBench 1.5** 등에서 Qwen3-VL과 직접 비교되며, 전반적으로 **비전 추론과 문서 이해에서 경쟁력 유지**  
  - GPT-5.2는 일부 비전 평가에서 **출력 실패율 약 10%** 가 발생해 보수적으로 채점됨  
  - 장·단편 비디오 벤치마크에서 Kimi K2.5는 일관된 성능을 보이며, 단일 이미지 중심 모델 대비 안정적인 결과 확인  
- ## 종합 평가  
  - Kimi K2.5는 **상용 최고 성능 모델에는 일부 지표에서 미치지 못하지만**, 오픈소스 멀티모달·에이전트 모델 중에서는 **가장 폭넓고 균형 잡힌 성능**을 보임  
  - 특히 **Agent Swarm 적용 시 에이전트·검색형 작업에서 명확한 우위**가 드러남  
  - 추론·코딩·비전·에이전트를 단일 오픈 모델로 포괄한다는 점에서, **실험용이 아닌 실제 사용 가능한 범용 에이전트 모델**  
  
### 한계와 관찰  
- 일부 상용 모델은 비전 벤치마크에서 **출력 실패율**이 발생해 보수적 점수로 처리됨  
- 긴 에이전트 작업에서는 **컨텍스트 관리 전략에 따라 성능 차이**가 크게 나타남  
- 특정 고비용 벤치마크는 API 안정성 문제로 평가에서 제외됨  
  
### 공개 및 활용  
- Kimi K2.5의 **포스트 트레이닝 체크포인트를 오픈소스로 공개**함  
- 범용 에이전트 시스템, 멀티모달 연구, 실제 자동화 워크로드에 **재사용 가능한 기반 모델**  
- 텍스트와 비전을 분리하지 않는 접근과 병렬 에이전트 구조가 **General Agentic Intelligence로의 실질적 경로**가 될 수 있을 것

## Comments


_No public comments on this page._