Kimi, 오픈소스 비주얼 SOTA-에이전틱 모델 Kimi K2.5 공개
(kimi.com)- Kimi K2.5는 약 15조 개의 시각·텍스트 토큰으로 추가 학습된 멀티모달 오픈소스 모델로, 코드 작성과 비전 처리 능력을 통합
- 최대 100개의 하위 에이전트를 병렬로 제어하는 Agent Swarm 구조를 통해 복잡한 작업을 4.5배 빠르게 수행
- Kimi Code 및 Kimi App과 연동되어 이미지·영상 기반 코딩, 시각적 디버깅, 오피스 자동화 등 다양한 실무형 기능 지원
- 내부 벤치마크에서 코딩·비전·오피스 생산성 전 영역에서 K2 대비 유의미한 성능 향상 기록
- 오픈소스 커뮤니티에서 AGI(범용 인공지능) 로 향하는 실질적 진전을 보여주는 모델로 평가됨
Kimi K2.5 개요
- Kimi K2.5는 K2 모델을 기반으로 약 15조 개의 혼합 시각·텍스트 토큰으로 추가 사전학습된 네이티브 멀티모달 모델
- 코딩과 비전 기능을 통합하며, 자율적 에이전트 스웜(agent swarm) 패러다임을 구현
- 최대 100개의 하위 에이전트가 병렬로 최대 1,500회 도구 호출을 수행하며, 단일 에이전트 대비 최대 4.5배 빠른 실행 시간 달성
- Kimi.com, Kimi App, API, Kimi Code를 통해 제공되며, Instant·Thinking·Agent·Agent Swarm(베타) 모드 지원
코딩과 비전 통합
- K2.5는 프론트엔드 개발에 강점을 가진 오픈소스 코딩 모델로, 대화형 인터페이스와 스크롤 트리거 애니메이션 등 복잡한 UI를 자동 생성
- 이미지·영상 기반의 비주얼 코딩을 지원하여, 사용자가 시각적으로 의도를 표현하면 코드로 변환
- 예시로, 영상에서 웹사이트를 재구성하거나 미로 이미지에서 BFS 알고리듬으로 최단 경로(113,557단계)를 탐색
- 대규모 비전-텍스트 공동 학습을 통해 시각과 언어 능력이 함께 향상
- 내부 Kimi Code Bench에서 빌드·디버깅·리팩토링·테스트 등 다언어 코딩 작업 전반에서 K2 대비 일관된 성능 향상
- Kimi Code는 터미널 및 VSCode, Cursor, Zed 등 IDE와 통합되며, 이미지·영상 입력과 자동 스킬 마이그레이션 지원
Agent Swarm
-
K2.5 Agent Swarm은 단일 에이전트 확장이 아닌 병렬 협업형 구조로, Parallel-Agent Reinforcement Learning (PARL) 로 학습
- 오케스트레이터 에이전트가 작업을 병렬 가능한 하위 작업으로 분해하고, 고정된 서브에이전트들이 동시에 실행
- 보상 함수는 초기 병렬성 탐색을 유도하고 점차 작업 품질 Q(τ) 중심으로 전환
- Critical Steps라는 지연 중심 지표를 도입해 병렬 실행의 효율성을 평가
- 내부 평가에서 엔드투엔드 실행 시간 80% 단축, 복잡한 장기 작업 처리 능력 향상
- 예시: 100개 세부 분야의 YouTube 크리에이터를 찾는 작업에서 100개의 서브에이전트를 병렬 생성해 결과를 통합
오피스 생산성
- K2.5 Agent는 대규모 오피스 업무 자동화를 지원하며, 문서·스프레드시트·PDF·슬라이드 생성까지 대화형으로 처리
- 내부 AI Office Benchmark와 General Agent Benchmark에서 각각 59.3% , 24.3% 향상
- Word 주석 추가, Pivot Table 기반 재무 모델링, PDF 내 LaTeX 수식 작성 등 고급 작업 수행
- 10,000단어 논문이나 100페이지 문서 생성 등 장문 작업을 수분 내 완료
결론
- Kimi K2.5는 비전 기반 코딩, 에이전트 스웜, 오피스 자동화의 세 영역에서 진전을 보여, 실세계 제약 하의 AGI 접근을 실증
- 향후 에이전틱 인텔리전스(agentic intelligence) 의 확장을 통해 지식 노동의 경계를 재정의할 계획
부록: 주요 벤치마크 결과
- Reasoning, Vision, Coding, Agentic Search 등 7개 영역에서 GPT-5.2, Claude 4.5, Gemini 3 Pro 등과 비교
- HLE-Full w/ tools: 50.2 (GPT-5.2: 45.5)
- MMMU-Pro: 78.5 (Gemini 3 Pro: 81.0)
- SWE-Bench Verified: 76.8 (Claude 4.5: 80.9)
- BrowseComp (Swarm Mode) : 78.4
- 대부분의 비전·코딩·에이전틱 검색 벤치마크에서 상위권 성능 기록
- 모든 실험은 256k 토큰 컨텍스트, temperature=1.0, top-p=0.95 설정에서 수행
- Kimi Vendor Verifier (KVV) 를 통해 제3자 서비스의 정확도 검증 가능
Hacker News 의견들
-
Hugging Face의 Kimi-K2.5 페이지를 보면 1조 파라미터 모델임
MIT 라이선스 기반이지만, 월간 활성 사용자 1억 명 이상이거나 매출 2천만 달러 이상인 상업 서비스에선 UI에 “Kimi K2.5”를 표시해야 한다는 조건이 추가되어 있음- 1조라니, int4 기준으로도 VRAM 반 테라바이트쯤 필요할 듯함
기술적으로 경이롭지만, 어차피 집에서는 돌릴 수 없는 걸 무료로 푼 셈이라 위험도 절반쯤 줄어든 느낌임 - Cursor 개발자들이 Composer 모델이 GLM 기반임을 숨기려 했는데, 이건 꽤 불편할 소식일 듯함
- Kimi K2.5의 thinking, instruct, agent, agent swarm(beta) 전부 오픈소스인지 궁금함
API에서 agent swarm을 언급하던데, 그게 가중치까지 공개된 건지 알고 싶음 - “매출 2천만 달러 이상이면 UI에 Kimi K2.5를 표시하라”는 조항을 보니, 차라리 “100만 달러 내라”고 하는 게 낫지 않나 싶음
- 1조라니, int4 기준으로도 VRAM 반 테라바이트쯤 필요할 듯함
-
“Deepseek moment”가 딱 1년 전이었음
그때와 비교하면 지금은 정말 많은 기술이 무료로 공개되고 있고, OpenAI처럼 폐쇄적인 접근과는 완전히 다른 자유로움이 느껴짐- DeepSeekR1 이후에도 v3-0324, v3.1, v3.1-terminus, v3.2-speciale 등 중국계 모델들의 발전 속도가 놀라움
GLM 4.7 flash, Minimax-M2, Qwen 시리즈까지 포함하면 정말 다양함
나는 OpenAI와 Anthropic 구독을 끊은 지 2년 됐는데 전혀 아쉽지 않음 - 우연이 아님. 중국 기업들은 춘절 전 대규모 릴리스를 자주 하므로, 2월 17일 전에도 더 나올 가능성이 큼
- 이렇게 거대한 모델을 무료로 공개하는 이유가 궁금함. 비즈니스 모델이 뭘까 하는 의문이 듦
- Deepseek은 실제로는 마케팅 중심 프로젝트였다고 생각함
Reddit에서도 이상하게 ‘pro-deepseek’ 댓글이 계속 달리더라. 거의 Apple식 마케팅 같음 - 하지만 이런 모델들이 보안 공격이나 생물학적 공격에도 악용될 수 있음
중국 기업들이 인류애적 이유로 이런 걸 푸는 건 아닐 것임
- DeepSeekR1 이후에도 v3-0324, v3.1, v3.1-terminus, v3.2-speciale 등 중국계 모델들의 발전 속도가 놀라움
-
여러 모델을 비교할 수 있는 유용한 사이트들을 공유함
- lmarena.ai/leaderboard — 모델 간 ELO 대결
- dashboard.safe.ai — CAIS의 대시보드
- clocks.brianmoore.com — 모델의 시계 그리기 비교
- eqbench.com — 감정지능 벤치마크
- ocrarena.ai/battle — OCR 대결
- mafia-arena.com — 마피아 게임 대결
- openrouter.ai/rankings — OpenRouter 기반 점유율
-
Kimi K2.5는 최대 100개의 서브 에이전트를 병렬로 실행하며, 최대 1,500개의 툴 호출을 병렬 처리함
단순한 툴 호출이 아니라 에이전트 오케스트레이션 자체를 강화학습(RL) 으로 학습시킨 점이 흥미로움- 하지만 1,500번의 툴 호출은 비용 구조 악몽임. 몇십 단계만 돼도 마진이 무너지는데, VC 자금 없이는 지속 불가능해 보임
- “self-direct an agent swarm”이 모델 내부 기능인지, 아니면 IDE/서비스 레벨에서 구현된 건지 궁금함
보통은 모델이 “call tool X”를 출력하면 IDE가 실행하고 결과를 다시 전달하는 구조임 - 병렬 에이전트는 단순하지만 강력한 트릭임
나는 Claude Code의 TeammateTool로 비슷한 효과를 보고 있음
-
Moonshot AI가 K2.5 외에도 Kimi Code를 공개했음
기존 Kimi CLI에서 발전한 터미널 코딩 에이전트로, 지난달부터 써봤는데 꽤 안정적임
GitHub: MoonshotAI/kimi-cli- 단순한 코딩 에이전트가 아니라 셸(shell) 역할도 함
zsh hook이 있어서 어디서든 에이전트 모드로 전환 가능함 - swarm 기능을 지원하는지, 그리고 Opencode도 지원하는지 궁금함
- CC와 비교했을 때 성능이 어떤지도 알고 싶음
- 단순한 코딩 에이전트가 아니라 셸(shell) 역할도 함
-
K2.5는 자동으로 서브 에이전트를 생성하고 swarm을 구성하도록 훈련된 점이 흥미로움
Claude Code의 동적 서브에이전트와 유사하지만, 훨씬 더 많은 에이전트를 자율적으로 다룰 수 있음
Claude도 비슷한 훈련을 하고 있을지, 다음 버전에서 공개될지 기대됨 -
최근 중국 모델들이 Claude Opus를 기준으로 벤치마크를 잡고 있음
Qwen3 max thinking, Kimi K2.5 모두 Sonnet이 아니라 Opus와 비교함. 거의 같은 속도로 따라잡는 중임- clocks.brianmoore.com에서 K2가 시계 테스트를 완벽히 통과한 몇 안 되는 모델 중 하나임
- 중국 연구소들은 서구 SOTA 모델을 증류(distill) 해서 몇 달 내로 따라잡는 패턴임
- 벤치마크상으로는 비슷하지만, 실제 사용성에서는 Anthropic 모델이 여전히 앞서 있음
- 결국 실제 사용 시나리오가 더 중요함. 벤치 점수만으로는 판단하기 어려움
-
Kimi K2는 감정지능(emotional intelligence) 이 높다는 평이 많았음
K2.5가 그 특성을 이어갈지 궁금함- 나도 같은 인상을 받았음. 어떻게 그런 감정적 반응을 구현했는지 정말 궁금함
- mafia-arena.com에서 테스트해볼 예정임
- 주관적이긴 하지만 Gemini 3, GPT 5.2, Opus 4.5보다 더 인간적인 느낌이 있었음
-
CCP-bench 점수가 K2.5에서 크게 향상됨
관련 이미지 참고 -
Kimi 팀의 성과를 축하함
그런데 왜 여전히 Claude가 코딩 분야 1위인지 궁금함. 코딩 특화 훈련 때문인지, 아니면 전반적 학습 품질 때문인지 알고 싶음
누가 Opus 4.5를 코딩에서 이겨줬으면 함- 벤치마크 차이는 의미가 거의 없음. 실제 코딩 환경의 노이즈가 훨씬 큼
오히려 모델들이 벤치마크에 오버피팅된 경우도 있음
GPT5.2와 Opus 4.5를 모두 써봤는데, 실제 코딩 성능은 거의 동일함
게다가 K2.5는 가격이 상위 모델의 1/5 수준이라 기대됨 - 나는 Opus 대신 Gemini Pro를 쓰는데, 코드 구조를 재설계해 요구사항을 더 잘 반영함
Opus는 불필요한 추상화나 하드코딩을 자주 함 - Gemini 3 Pro는 특히 대규모 코드베이스에서 훨씬 뛰어남
- Opus 4.5는 두 달 전 출시된 모델이고, Anthropic이 코딩 성능에 특히 집중해온 결과임
- 벤치마크 차이는 의미가 거의 없음. 실제 코딩 환경의 노이즈가 훨씬 큼