Kimi, 오픈소스 비주얼 SOTA-에이전틱 모델 Kimi K2.5 공개

(kimi.com)

3P by GN⁺ 6일전 | ★ favorite | 댓글 1개

Kimi K2.5는 약 15조 개의 시각·텍스트 토큰으로 추가 학습된 멀티모달 오픈소스 모델로, 코드 작성과 비전 처리 능력을 통합
최대 100개의 하위 에이전트를 병렬로 제어하는 Agent Swarm 구조를 통해 복잡한 작업을 4.5배 빠르게 수행
Kimi Code 및 Kimi App과 연동되어 이미지·영상 기반 코딩, 시각적 디버깅, 오피스 자동화 등 다양한 실무형 기능 지원
내부 벤치마크에서 코딩·비전·오피스 생산성 전 영역에서 K2 대비 유의미한 성능 향상 기록
오픈소스 커뮤니티에서 AGI(범용 인공지능) 로 향하는 실질적 진전을 보여주는 모델로 평가됨

Kimi K2.5 개요

Kimi K2.5는 K2 모델을 기반으로 약 15조 개의 혼합 시각·텍스트 토큰으로 추가 사전학습된 네이티브 멀티모달 모델
- 코딩과 비전 기능을 통합하며, 자율적 에이전트 스웜(agent swarm) 패러다임을 구현
최대 100개의 하위 에이전트가 병렬로 최대 1,500회 도구 호출을 수행하며, 단일 에이전트 대비 최대 4.5배 빠른 실행 시간 달성
Kimi.com, Kimi App, API, Kimi Code를 통해 제공되며, Instant·Thinking·Agent·Agent Swarm(베타) 모드 지원

코딩과 비전 통합

K2.5는 프론트엔드 개발에 강점을 가진 오픈소스 코딩 모델로, 대화형 인터페이스와 스크롤 트리거 애니메이션 등 복잡한 UI를 자동 생성
이미지·영상 기반의 비주얼 코딩을 지원하여, 사용자가 시각적으로 의도를 표현하면 코드로 변환
- 예시로, 영상에서 웹사이트를 재구성하거나 미로 이미지에서 BFS 알고리듬으로 최단 경로(113,557단계)를 탐색
대규모 비전-텍스트 공동 학습을 통해 시각과 언어 능력이 함께 향상
내부 Kimi Code Bench에서 빌드·디버깅·리팩토링·테스트 등 다언어 코딩 작업 전반에서 K2 대비 일관된 성능 향상
Kimi Code는 터미널 및 VSCode, Cursor, Zed 등 IDE와 통합되며, 이미지·영상 입력과 자동 스킬 마이그레이션 지원

Agent Swarm

K2.5 Agent Swarm은 단일 에이전트 확장이 아닌 병렬 협업형 구조로, Parallel-Agent Reinforcement Learning (PARL) 로 학습
- 오케스트레이터 에이전트가 작업을 병렬 가능한 하위 작업으로 분해하고, 고정된 서브에이전트들이 동시에 실행
보상 함수는 초기 병렬성 탐색을 유도하고 점차 작업 품질 Q(τ) 중심으로 전환
Critical Steps라는 지연 중심 지표를 도입해 병렬 실행의 효율성을 평가
내부 평가에서 엔드투엔드 실행 시간 80% 단축, 복잡한 장기 작업 처리 능력 향상
- 예시: 100개 세부 분야의 YouTube 크리에이터를 찾는 작업에서 100개의 서브에이전트를 병렬 생성해 결과를 통합

오피스 생산성

K2.5 Agent는 대규모 오피스 업무 자동화를 지원하며, 문서·스프레드시트·PDF·슬라이드 생성까지 대화형으로 처리
내부 AI Office Benchmark와 General Agent Benchmark에서 각각 59.3% , 24.3% 향상
Word 주석 추가, Pivot Table 기반 재무 모델링, PDF 내 LaTeX 수식 작성 등 고급 작업 수행
10,000단어 논문이나 100페이지 문서 생성 등 장문 작업을 수분 내 완료

결론

Kimi K2.5는 비전 기반 코딩, 에이전트 스웜, 오피스 자동화의 세 영역에서 진전을 보여, 실세계 제약 하의 AGI 접근을 실증
향후 에이전틱 인텔리전스(agentic intelligence) 의 확장을 통해 지식 노동의 경계를 재정의할 계획

부록: 주요 벤치마크 결과

Reasoning, Vision, Coding, Agentic Search 등 7개 영역에서 GPT-5.2, Claude 4.5, Gemini 3 Pro 등과 비교
- HLE-Full w/ tools: 50.2 (GPT-5.2: 45.5)
- MMMU-Pro: 78.5 (Gemini 3 Pro: 81.0)
- SWE-Bench Verified: 76.8 (Claude 4.5: 80.9)
- BrowseComp (Swarm Mode) : 78.4
대부분의 비전·코딩·에이전틱 검색 벤치마크에서 상위권 성능 기록
모든 실험은 256k 토큰 컨텍스트, temperature=1.0, top-p=0.95 설정에서 수행
Kimi Vendor Verifier (KVV) 를 통해 제3자 서비스의 정확도 검증 가능

▲

GN⁺ 6일전 [-]

Hacker News 의견들

Hugging Face의 Kimi-K2.5 페이지를 보면 1조 파라미터 모델임
MIT 라이선스 기반이지만, 월간 활성 사용자 1억 명 이상이거나 매출 2천만 달러 이상인 상업 서비스에선 UI에 “Kimi K2.5”를 표시해야 한다는 조건이 추가되어 있음
- 1조라니, int4 기준으로도 VRAM 반 테라바이트쯤 필요할 듯함
  기술적으로 경이롭지만, 어차피 집에서는 돌릴 수 없는 걸 무료로 푼 셈이라 위험도 절반쯤 줄어든 느낌임
- Cursor 개발자들이 Composer 모델이 GLM 기반임을 숨기려 했는데, 이건 꽤 불편할 소식일 듯함
- Kimi K2.5의 thinking, instruct, agent, agent swarm(beta) 전부 오픈소스인지 궁금함
  API에서 agent swarm을 언급하던데, 그게 가중치까지 공개된 건지 알고 싶음
- “매출 2천만 달러 이상이면 UI에 Kimi K2.5를 표시하라”는 조항을 보니, 차라리 “100만 달러 내라”고 하는 게 낫지 않나 싶음
“Deepseek moment”가 딱 1년 전이었음
그때와 비교하면 지금은 정말 많은 기술이 무료로 공개되고 있고, OpenAI처럼 폐쇄적인 접근과는 완전히 다른 자유로움이 느껴짐
- DeepSeekR1 이후에도 v3-0324, v3.1, v3.1-terminus, v3.2-speciale 등 중국계 모델들의 발전 속도가 놀라움
  GLM 4.7 flash, Minimax-M2, Qwen 시리즈까지 포함하면 정말 다양함
  나는 OpenAI와 Anthropic 구독을 끊은 지 2년 됐는데 전혀 아쉽지 않음
- 우연이 아님. 중국 기업들은 춘절 전 대규모 릴리스를 자주 하므로, 2월 17일 전에도 더 나올 가능성이 큼
- 이렇게 거대한 모델을 무료로 공개하는 이유가 궁금함. 비즈니스 모델이 뭘까 하는 의문이 듦
- Deepseek은 실제로는 마케팅 중심 프로젝트였다고 생각함
  Reddit에서도 이상하게 ‘pro-deepseek’ 댓글이 계속 달리더라. 거의 Apple식 마케팅 같음
- 하지만 이런 모델들이 보안 공격이나 생물학적 공격에도 악용될 수 있음
  중국 기업들이 인류애적 이유로 이런 걸 푸는 건 아닐 것임
여러 모델을 비교할 수 있는 유용한 사이트들을 공유함
- lmarena.ai/leaderboard — 모델 간 ELO 대결
- dashboard.safe.ai — CAIS의 대시보드
- clocks.brianmoore.com — 모델의 시계 그리기 비교
- eqbench.com — 감정지능 벤치마크
- ocrarena.ai/battle — OCR 대결
- mafia-arena.com — 마피아 게임 대결
- openrouter.ai/rankings — OpenRouter 기반 점유율
Kimi K2.5는 최대 100개의 서브 에이전트를 병렬로 실행하며, 최대 1,500개의 툴 호출을 병렬 처리함
단순한 툴 호출이 아니라 에이전트 오케스트레이션 자체를 강화학습(RL) 으로 학습시킨 점이 흥미로움
- 하지만 1,500번의 툴 호출은 비용 구조 악몽임. 몇십 단계만 돼도 마진이 무너지는데, VC 자금 없이는 지속 불가능해 보임
- “self-direct an agent swarm”이 모델 내부 기능인지, 아니면 IDE/서비스 레벨에서 구현된 건지 궁금함
  보통은 모델이 “call tool X”를 출력하면 IDE가 실행하고 결과를 다시 전달하는 구조임
- 병렬 에이전트는 단순하지만 강력한 트릭임
  나는 Claude Code의 TeammateTool로 비슷한 효과를 보고 있음
Moonshot AI가 K2.5 외에도 Kimi Code를 공개했음
기존 Kimi CLI에서 발전한 터미널 코딩 에이전트로, 지난달부터 써봤는데 꽤 안정적임
GitHub: MoonshotAI/kimi-cli
- 단순한 코딩 에이전트가 아니라 셸(shell) 역할도 함
  zsh hook이 있어서 어디서든 에이전트 모드로 전환 가능함
- swarm 기능을 지원하는지, 그리고 Opencode도 지원하는지 궁금함
- CC와 비교했을 때 성능이 어떤지도 알고 싶음
K2.5는 자동으로 서브 에이전트를 생성하고 swarm을 구성하도록 훈련된 점이 흥미로움
Claude Code의 동적 서브에이전트와 유사하지만, 훨씬 더 많은 에이전트를 자율적으로 다룰 수 있음
Claude도 비슷한 훈련을 하고 있을지, 다음 버전에서 공개될지 기대됨
최근 중국 모델들이 Claude Opus를 기준으로 벤치마크를 잡고 있음
Qwen3 max thinking, Kimi K2.5 모두 Sonnet이 아니라 Opus와 비교함. 거의 같은 속도로 따라잡는 중임
- clocks.brianmoore.com에서 K2가 시계 테스트를 완벽히 통과한 몇 안 되는 모델 중 하나임
- 중국 연구소들은 서구 SOTA 모델을 증류(distill) 해서 몇 달 내로 따라잡는 패턴임
- 벤치마크상으로는 비슷하지만, 실제 사용성에서는 Anthropic 모델이 여전히 앞서 있음
- 결국 실제 사용 시나리오가 더 중요함. 벤치 점수만으로는 판단하기 어려움
Kimi K2는 감정지능(emotional intelligence) 이 높다는 평이 많았음
K2.5가 그 특성을 이어갈지 궁금함
- 나도 같은 인상을 받았음. 어떻게 그런 감정적 반응을 구현했는지 정말 궁금함
- mafia-arena.com에서 테스트해볼 예정임
- 주관적이긴 하지만 Gemini 3, GPT 5.2, Opus 4.5보다 더 인간적인 느낌이 있었음
CCP-bench 점수가 K2.5에서 크게 향상됨
관련 이미지 참고
Kimi 팀의 성과를 축하함
그런데 왜 여전히 Claude가 코딩 분야 1위인지 궁금함. 코딩 특화 훈련 때문인지, 아니면 전반적 학습 품질 때문인지 알고 싶음
누가 Opus 4.5를 코딩에서 이겨줬으면 함
- 벤치마크 차이는 의미가 거의 없음. 실제 코딩 환경의 노이즈가 훨씬 큼
  오히려 모델들이 벤치마크에 오버피팅된 경우도 있음
  GPT5.2와 Opus 4.5를 모두 써봤는데, 실제 코딩 성능은 거의 동일함
  게다가 K2.5는 가격이 상위 모델의 1/5 수준이라 기대됨
- 나는 Opus 대신 Gemini Pro를 쓰는데, 코드 구조를 재설계해 요구사항을 더 잘 반영함
  Opus는 불필요한 추상화나 하드코딩을 자주 함
- Gemini 3 Pro는 특히 대규모 코드베이스에서 훨씬 뛰어남
- Opus 4.5는 두 달 전 출시된 모델이고, Anthropic이 코딩 성능에 특히 집중해온 결과임

답변달기