- Moonshot AI가 공개한 Kimi K2.5는 텍스트와 비전을 함께 최적화한 오픈소스 멀티모달 에이전트 모델로, 단일 모델에서 추론·코딩·비전·에이전트 작업 전반을 포괄적으로 처리
- 기존 순차적 에이전트의 한계를 넘기 위해 Agent Swarm 병렬 에이전트 오케스트레이션을 도입해 복잡한 작업을 동시에 분해·실행함
- 이미지·비디오·문서·웹·OS 환경까지 포함한 광범위한 벤치마크 평가에서 상용·오픈소스 모델들과 비교 성능을 제시함
- 시각 강화 학습이 텍스트 추론 성능까지 개선되는 교차 모달 전이 효과를 실험적으로 확인함
- 학습된 체크포인트를 공개해 범용 에이전트 시스템 연구와 실사용 확장을 목표로 함
개요 및 문제의식
- 대규모 언어 모델이 단순 질의응답을 넘어 도구 사용과 장기 계획을 수행하는 에이전트 지능으로 진화 중임
- 기존 멀티모달 모델은 텍스트 중심 설계에 비전을 덧붙이는 방식으로, 모달 간 충돌과 일반화 한계가 존재함
- 복잡한 실제 작업에서는 순차적 에이전트 실행으로 인한 지연과 컨텍스트 한계가 주요 병목으로 작용함
Kimi K2.5 핵심 설계
-
텍스트–비전 공동 사전학습을 통해 학습 초기부터 두 모달을 일정 비율로 혼합해 정렬을 강화함
- MoonViT-3D 비전 인코더를 사용해 원본 해상도 이미지와 장시간 비디오를 동일 구조로 처리함
- 비전 전용 SFT 없이도 성능이 활성화되는 zero-vision SFT 전략을 채택함
- 능력 단위로 구성된 공동 멀티모달 강화학습을 통해 지식·추론·코딩·에이전트 능력을 함께 개선함
Agent Swarm 아키텍처
- 중앙 오케스트레이터가 작업을 병렬화 가능한 하위 문제로 분해하고, 전문 서브에이전트를 동적으로 생성함
- 각 서브에이전트는 독립된 로컬 컨텍스트에서 작업해 전역 컨텍스트 오염을 방지함
- 전체 기록이 아닌 요약된 결과만 선택적으로 병합해 컨텍스트 샤딩을 구현함
- 병렬 실행을 유도하는 학습 프롬프트와 Critical Steps 지표로 지연 최소화를 학습함
학습 구성 및 규모
- 기반 모델 Kimi K2는 1조 파라미터 MoE 구조로 15조 토큰의 텍스트로 사전학습됨
- Joint long-context 학습을 통해 최대 256k 컨텍스트 길이를 지원함
- 이미지·비디오·OCR·문서·OS 스크린샷 등 다양한 멀티모달 데이터를 포함함
평가 및 성능: 주요 모델 비교 중심 정리
- Kimi K2.5는 상용 모델(Claude Opus 4.5, GPT-5.2, Gemini 3 Pro) 과 오픈소스 모델(DeepSeek-V3.2, Qwen3-VL-235B) 을 포함한 동일 조건 비교 평가를 수행함
- 모든 평가는 temperature 1.0, top-p 0.95, 최대 256k 컨텍스트 길이 설정으로 진행됨
-
추론·일반 지식 벤치마크
-
AIME 2025에서 Kimi K2.5는 96.1로 Claude Opus 4.5(92.8)와 Gemini 3 Pro(95.0)를 상회하며, GPT-5.2(100)에 근접한 성능 기록
-
HMMT 2025와 IMO-AnswerBench에서도 Claude Opus 4.5 및 Qwen3-VL 대비 높은 점수 유지
-
GPQA-Diamond에서는 87.6으로 Claude Opus 4.5(87.0)와 유사하며, 오픈소스 모델 대비 우수한 성능 확인
-
LongBench v2에서는 Gemini 3 Pro가 가장 높은 점수를 기록했으나, Kimi K2.5는 DeepSeek-V3.2와 Qwen3-VL 대비 경쟁력 있는 결과 제시
-
코딩 및 소프트웨어 엔지니어링
-
SWE-Bench Verified에서 Kimi K2.5는 76.8로 DeepSeek-V3.2(76.2)와 유사하며, Qwen3-VL(73.1)을 상회함
-
SWE-Bench Pro와 Multilingual에서도 상용 모델보다는 낮지만, 오픈소스 기준에서는 상위권 성능 유지
-
LiveCodeBench v6에서 85.0으로 Claude Opus 4.5(82.2) 및 Qwen3-VL(83.3) 대비 높은 점수 기록
-
PaperBench(CodeDev) 와 CyberGym에서는 상용 모델이 여전히 우세하나, Kimi K2.5는 실사용 가능한 수준의 안정적 성능을 보임
-
에이전트 및 검색 기반 작업
-
BrowseComp에서 단일 에이전트 기준 60.6으로 Claude Opus 4.5(37.0)를 크게 상회함
-
Agent Swarm 적용 시 BrowseComp 78.4, WideSearch 79.0으로 단일 에이전트 대비 명확한 성능 향상 확인
- WideSearch에서는 Claude Opus 4.5가 단일 에이전트 기준 더 높은 점수를 보였으나, 병렬 에이전트 구성에서는 Kimi K2.5가 우세함
- DeepSearchQA, FinSearchComp 계열에서도 상용 모델과 근접한 수준의 결과 기록
-
시각·문서·비디오 이해
-
MMMU-Pro, OCRBench, OmniDocBench 1.5 등에서 Qwen3-VL과 직접 비교되며, 전반적으로 비전 추론과 문서 이해에서 경쟁력 유지
- GPT-5.2는 일부 비전 평가에서 출력 실패율 약 10% 가 발생해 보수적으로 채점됨
- 장·단편 비디오 벤치마크에서 Kimi K2.5는 일관된 성능을 보이며, 단일 이미지 중심 모델 대비 안정적인 결과 확인
-
종합 평가
- Kimi K2.5는 상용 최고 성능 모델에는 일부 지표에서 미치지 못하지만, 오픈소스 멀티모달·에이전트 모델 중에서는 가장 폭넓고 균형 잡힌 성능을 보임
- 특히 Agent Swarm 적용 시 에이전트·검색형 작업에서 명확한 우위가 드러남
- 추론·코딩·비전·에이전트를 단일 오픈 모델로 포괄한다는 점에서, 실험용이 아닌 실제 사용 가능한 범용 에이전트 모델
한계와 관찰
- 일부 상용 모델은 비전 벤치마크에서 출력 실패율이 발생해 보수적 점수로 처리됨
- 긴 에이전트 작업에서는 컨텍스트 관리 전략에 따라 성능 차이가 크게 나타남
- 특정 고비용 벤치마크는 API 안정성 문제로 평가에서 제외됨
공개 및 활용
- Kimi K2.5의 포스트 트레이닝 체크포인트를 오픈소스로 공개함
- 범용 에이전트 시스템, 멀티모달 연구, 실제 자동화 워크로드에 재사용 가능한 기반 모델
- 텍스트와 비전을 분리하지 않는 접근과 병렬 에이전트 구조가 General Agentic Intelligence로의 실질적 경로가 될 수 있을 것