# Kimi, 오픈소스 비주얼 SOTA-에이전틱 모델 Kimi K2.5 공개

> Clean Markdown view of GeekNews topic #26182. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=26182](https://news.hada.io/topic?id=26182)
- GeekNews Markdown: [https://news.hada.io/topic/26182.md](https://news.hada.io/topic/26182.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-01-28T09:48:53+09:00
- Updated: 2026-01-28T09:48:53+09:00
- Original source: [kimi.com](https://www.kimi.com/blog/kimi-k2-5.html)
- Points: 3
- Comments: 1

## Topic Body

- **Kimi K2.5**는 약 15조 개의 시각·텍스트 토큰으로 추가 학습된 **멀티모달 오픈소스 모델**로, 코드 작성과 비전 처리 능력을 통합  
- 최대 **100개의 하위 에이전트**를 병렬로 제어하는 **Agent Swarm** 구조를 통해 복잡한 작업을 4.5배 빠르게 수행  
- **Kimi Code** 및 **Kimi App**과 연동되어 이미지·영상 기반 코딩, 시각적 디버깅, 오피스 자동화 등 다양한 **실무형 기능** 지원  
- 내부 벤치마크에서 **코딩·비전·오피스 생산성** 전 영역에서 K2 대비 유의미한 성능 향상 기록  
- 오픈소스 커뮤니티에서 **AGI(범용 인공지능)** 로 향하는 실질적 진전을 보여주는 모델로 평가됨  

---

### Kimi K2.5 개요
- Kimi K2.5는 K2 모델을 기반으로 약 **15조 개의 혼합 시각·텍스트 토큰**으로 추가 사전학습된 **네이티브 멀티모달 모델**  
  - **코딩**과 **비전** 기능을 통합하며, **자율적 에이전트 스웜(agent swarm)** 패러다임을 구현  
- 최대 **100개의 하위 에이전트**가 병렬로 최대 **1,500회 도구 호출**을 수행하며, 단일 에이전트 대비 **최대 4.5배 빠른 실행 시간** 달성  
- Kimi.com, Kimi App, API, Kimi Code를 통해 제공되며, Instant·Thinking·Agent·Agent Swarm(베타) 모드 지원  

### 코딩과 비전 통합
- K2.5는 **프론트엔드 개발**에 강점을 가진 오픈소스 코딩 모델로, 대화형 인터페이스와 **스크롤 트리거 애니메이션** 등 복잡한 UI를 자동 생성  
- 이미지·영상 기반의 **비주얼 코딩**을 지원하여, 사용자가 시각적으로 의도를 표현하면 코드로 변환  
  - 예시로, 영상에서 웹사이트를 재구성하거나 미로 이미지에서 **BFS 알고리듬**으로 최단 경로(113,557단계)를 탐색  
- 대규모 비전-텍스트 공동 학습을 통해 시각과 언어 능력이 함께 향상  
- 내부 **Kimi Code Bench**에서 빌드·디버깅·리팩토링·테스트 등 다언어 코딩 작업 전반에서 K2 대비 일관된 성능 향상  
- **Kimi Code**는 터미널 및 VSCode, Cursor, Zed 등 IDE와 통합되며, 이미지·영상 입력과 **자동 스킬 마이그레이션** 지원  

### Agent Swarm
- **K2.5 Agent Swarm**은 단일 에이전트 확장이 아닌 **병렬 협업형 구조**로, **Parallel-Agent Reinforcement Learning (PARL)** 로 학습  
  - **오케스트레이터 에이전트**가 작업을 병렬 가능한 하위 작업으로 분해하고, **고정된 서브에이전트**들이 동시에 실행  
- **보상 함수**는 초기 병렬성 탐색을 유도하고 점차 **작업 품질 Q(τ)** 중심으로 전환  
- **Critical Steps**라는 지연 중심 지표를 도입해 병렬 실행의 효율성을 평가  
- 내부 평가에서 **엔드투엔드 실행 시간 80% 단축**, 복잡한 장기 작업 처리 능력 향상  
  - 예시: 100개 세부 분야의 YouTube 크리에이터를 찾는 작업에서 100개의 서브에이전트를 병렬 생성해 결과를 통합  

### 오피스 생산성
- K2.5 Agent는 **대규모 오피스 업무 자동화**를 지원하며, 문서·스프레드시트·PDF·슬라이드 생성까지 대화형으로 처리  
- 내부 **AI Office Benchmark**와 **General Agent Benchmark**에서 각각 **59.3%** , **24.3%** 향상  
- Word 주석 추가, Pivot Table 기반 재무 모델링, PDF 내 LaTeX 수식 작성 등 고급 작업 수행  
- **10,000단어 논문**이나 **100페이지 문서** 생성 등 장문 작업을 수분 내 완료  

### 결론
- Kimi K2.5는 **비전 기반 코딩**, **에이전트 스웜**, **오피스 자동화**의 세 영역에서 진전을 보여, **실세계 제약 하의 AGI 접근**을 실증  
- 향후 **에이전틱 인텔리전스(agentic intelligence)** 의 확장을 통해 지식 노동의 경계를 재정의할 계획  

### 부록: 주요 벤치마크 결과
- Reasoning, Vision, Coding, Agentic Search 등 7개 영역에서 GPT-5.2, Claude 4.5, Gemini 3 Pro 등과 비교  
  - **HLE-Full w/ tools**: 50.2 (GPT-5.2: 45.5)  
  - **MMMU-Pro**: 78.5 (Gemini 3 Pro: 81.0)  
  - **SWE-Bench Verified**: 76.8 (Claude 4.5: 80.9)  
  - **BrowseComp (Swarm Mode)** : 78.4  
- 대부분의 비전·코딩·에이전틱 검색 벤치마크에서 **상위권 성능** 기록  
- 모든 실험은 **256k 토큰 컨텍스트**, temperature=1.0, top-p=0.95 설정에서 수행  
- **Kimi Vendor Verifier (KVV)** 를 통해 제3자 서비스의 정확도 검증 가능

## Comments


### Comment 50063

- Author: neo
- Created: 2026-01-28T09:48:54+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=46775961) 
- [Hugging Face의 Kimi-K2.5 페이지](https://huggingface.co/moonshotai/Kimi-K2.5)를 보면 **1조 파라미터** 모델임  
  MIT 라이선스 기반이지만, 월간 활성 사용자 1억 명 이상이거나 매출 2천만 달러 이상인 상업 서비스에선 UI에 “Kimi K2.5”를 표시해야 한다는 조건이 추가되어 있음
  - 1조라니, int4 기준으로도 **VRAM 반 테라바이트**쯤 필요할 듯함  
    기술적으로 경이롭지만, 어차피 집에서는 돌릴 수 없는 걸 무료로 푼 셈이라 위험도 절반쯤 줄어든 느낌임
  - Cursor 개발자들이 Composer 모델이 GLM 기반임을 숨기려 했는데, 이건 꽤 불편할 소식일 듯함
  - Kimi K2.5의 thinking, instruct, agent, agent swarm(beta) 전부 **오픈소스**인지 궁금함  
    API에서 agent swarm을 언급하던데, 그게 가중치까지 공개된 건지 알고 싶음
  - “매출 2천만 달러 이상이면 UI에 Kimi K2.5를 표시하라”는 조항을 보니, 차라리 “**100만 달러 내라**”고 하는 게 낫지 않나 싶음

- “**Deepseek moment**”가 딱 1년 전이었음  
  그때와 비교하면 지금은 정말 많은 기술이 무료로 공개되고 있고, OpenAI처럼 폐쇄적인 접근과는 완전히 다른 자유로움이 느껴짐
  - DeepSeekR1 이후에도 v3-0324, v3.1, v3.1-terminus, v3.2-speciale 등 **중국계 모델들의 발전 속도**가 놀라움  
    GLM 4.7 flash, Minimax-M2, Qwen 시리즈까지 포함하면 정말 다양함  
    나는 OpenAI와 Anthropic 구독을 끊은 지 2년 됐는데 전혀 아쉽지 않음
  - 우연이 아님. 중국 기업들은 **춘절 전 대규모 릴리스**를 자주 하므로, 2월 17일 전에도 더 나올 가능성이 큼
  - 이렇게 거대한 모델을 무료로 공개하는 이유가 궁금함. **비즈니스 모델**이 뭘까 하는 의문이 듦
  - Deepseek은 실제로는 **마케팅 중심 프로젝트**였다고 생각함  
    Reddit에서도 이상하게 ‘pro-deepseek’ 댓글이 계속 달리더라. 거의 Apple식 마케팅 같음
  - 하지만 이런 모델들이 **보안 공격**이나 생물학적 공격에도 악용될 수 있음  
    중국 기업들이 인류애적 이유로 이런 걸 푸는 건 아닐 것임

- 여러 모델을 비교할 수 있는 유용한 사이트들을 공유함  
  * [lmarena.ai/leaderboard](https://lmarena.ai/leaderboard) — 모델 간 ELO 대결  
  * [dashboard.safe.ai](https://dashboard.safe.ai/) — CAIS의 대시보드  
  * [clocks.brianmoore.com](https://clocks.brianmoore.com/) — 모델의 시계 그리기 비교  
  * [eqbench.com](https://eqbench.com/) — **감정지능 벤치마크**  
  * [ocrarena.ai/battle](https://www.ocrarena.ai/battle) — OCR 대결  
  * [mafia-arena.com](https://mafia-arena.com/) — 마피아 게임 대결  
  * [openrouter.ai/rankings](https://openrouter.ai/rankings) — OpenRouter 기반 점유율

- Kimi K2.5는 **최대 100개의 서브 에이전트**를 병렬로 실행하며, 최대 1,500개의 툴 호출을 병렬 처리함  
  단순한 툴 호출이 아니라 **에이전트 오케스트레이션 자체를 강화학습(RL)** 으로 학습시킨 점이 흥미로움
  - 하지만 1,500번의 툴 호출은 **비용 구조 악몽**임. 몇십 단계만 돼도 마진이 무너지는데, VC 자금 없이는 지속 불가능해 보임
  - “self-direct an agent swarm”이 모델 내부 기능인지, 아니면 IDE/서비스 레벨에서 구현된 건지 궁금함  
    보통은 모델이 “call tool X”를 출력하면 IDE가 실행하고 결과를 다시 전달하는 구조임
  - 병렬 에이전트는 단순하지만 강력한 트릭임  
    나는 Claude Code의 **TeammateTool**로 비슷한 효과를 보고 있음

- Moonshot AI가 K2.5 외에도 [**Kimi Code**](https://www.kimi.com/code)를 공개했음  
  기존 Kimi CLI에서 발전한 **터미널 코딩 에이전트**로, 지난달부터 써봤는데 꽤 안정적임  
  GitHub: [MoonshotAI/kimi-cli](https://github.com/MoonshotAI/kimi-cli)
  - 단순한 코딩 에이전트가 아니라 **셸(shell)** 역할도 함  
    zsh hook이 있어서 어디서든 에이전트 모드로 전환 가능함
  - swarm 기능을 지원하는지, 그리고 Opencode도 지원하는지 궁금함
  - CC와 비교했을 때 성능이 어떤지도 알고 싶음

- K2.5는 **자동으로 서브 에이전트를 생성**하고 swarm을 구성하도록 훈련된 점이 흥미로움  
  Claude Code의 동적 서브에이전트와 유사하지만, 훨씬 더 많은 에이전트를 자율적으로 다룰 수 있음  
  Claude도 비슷한 훈련을 하고 있을지, 다음 버전에서 공개될지 기대됨

- 최근 중국 모델들이 **Claude Opus**를 기준으로 벤치마크를 잡고 있음  
  Qwen3 max thinking, Kimi K2.5 모두 Sonnet이 아니라 Opus와 비교함. 거의 같은 속도로 따라잡는 중임
  - [clocks.brianmoore.com](https://clocks.brianmoore.com)에서 K2가 시계 테스트를 완벽히 통과한 몇 안 되는 모델 중 하나임
  - 중국 연구소들은 **서구 SOTA 모델을 증류(distill)** 해서 몇 달 내로 따라잡는 패턴임
  - 벤치마크상으로는 비슷하지만, 실제 사용성에서는 Anthropic 모델이 여전히 앞서 있음
  - 결국 **실제 사용 시나리오**가 더 중요함. 벤치 점수만으로는 판단하기 어려움

- Kimi K2는 **감정지능(emotional intelligence)** 이 높다는 평이 많았음  
  K2.5가 그 특성을 이어갈지 궁금함
  - 나도 같은 인상을 받았음. 어떻게 그런 감정적 반응을 구현했는지 정말 궁금함
  - [mafia-arena.com](https://mafia-arena.com)에서 테스트해볼 예정임
  - 주관적이긴 하지만 Gemini 3, GPT 5.2, Opus 4.5보다 더 인간적인 느낌이 있었음

- CCP-bench 점수가 K2.5에서 **크게 향상**됨  
  [관련 이미지](https://big-agi.com/static/kimi-k2.5-less-censored.jpg) 참고

- Kimi 팀의 성과를 축하함  
  그런데 왜 여전히 **Claude가 코딩 분야 1위**인지 궁금함. 코딩 특화 훈련 때문인지, 아니면 전반적 학습 품질 때문인지 알고 싶음  
  누가 Opus 4.5를 코딩에서 이겨줬으면 함
  - 벤치마크 차이는 의미가 거의 없음. 실제 코딩 환경의 **노이즈**가 훨씬 큼  
    오히려 모델들이 벤치마크에 **오버피팅**된 경우도 있음  
    GPT5.2와 Opus 4.5를 모두 써봤는데, 실제 코딩 성능은 거의 동일함  
    게다가 K2.5는 가격이 상위 모델의 1/5 수준이라 기대됨
  - 나는 Opus 대신 **Gemini Pro**를 쓰는데, 코드 구조를 재설계해 요구사항을 더 잘 반영함  
    Opus는 불필요한 추상화나 하드코딩을 자주 함
  - **Gemini 3 Pro**는 특히 대규모 코드베이스에서 훨씬 뛰어남
  - Opus 4.5는 두 달 전 출시된 모델이고, Anthropic이 코딩 성능에 특히 집중해온 결과임