3P by GN⁺ 6일전 | ★ favorite | 댓글 1개
  • Kimi K2.5는 약 15조 개의 시각·텍스트 토큰으로 추가 학습된 멀티모달 오픈소스 모델로, 코드 작성과 비전 처리 능력을 통합
  • 최대 100개의 하위 에이전트를 병렬로 제어하는 Agent Swarm 구조를 통해 복잡한 작업을 4.5배 빠르게 수행
  • Kimi CodeKimi App과 연동되어 이미지·영상 기반 코딩, 시각적 디버깅, 오피스 자동화 등 다양한 실무형 기능 지원
  • 내부 벤치마크에서 코딩·비전·오피스 생산성 전 영역에서 K2 대비 유의미한 성능 향상 기록
  • 오픈소스 커뮤니티에서 AGI(범용 인공지능) 로 향하는 실질적 진전을 보여주는 모델로 평가됨

Kimi K2.5 개요

  • Kimi K2.5는 K2 모델을 기반으로 약 15조 개의 혼합 시각·텍스트 토큰으로 추가 사전학습된 네이티브 멀티모달 모델
    • 코딩비전 기능을 통합하며, 자율적 에이전트 스웜(agent swarm) 패러다임을 구현
  • 최대 100개의 하위 에이전트가 병렬로 최대 1,500회 도구 호출을 수행하며, 단일 에이전트 대비 최대 4.5배 빠른 실행 시간 달성
  • Kimi.com, Kimi App, API, Kimi Code를 통해 제공되며, Instant·Thinking·Agent·Agent Swarm(베타) 모드 지원

코딩과 비전 통합

  • K2.5는 프론트엔드 개발에 강점을 가진 오픈소스 코딩 모델로, 대화형 인터페이스와 스크롤 트리거 애니메이션 등 복잡한 UI를 자동 생성
  • 이미지·영상 기반의 비주얼 코딩을 지원하여, 사용자가 시각적으로 의도를 표현하면 코드로 변환
    • 예시로, 영상에서 웹사이트를 재구성하거나 미로 이미지에서 BFS 알고리듬으로 최단 경로(113,557단계)를 탐색
  • 대규모 비전-텍스트 공동 학습을 통해 시각과 언어 능력이 함께 향상
  • 내부 Kimi Code Bench에서 빌드·디버깅·리팩토링·테스트 등 다언어 코딩 작업 전반에서 K2 대비 일관된 성능 향상
  • Kimi Code는 터미널 및 VSCode, Cursor, Zed 등 IDE와 통합되며, 이미지·영상 입력과 자동 스킬 마이그레이션 지원

Agent Swarm

  • K2.5 Agent Swarm은 단일 에이전트 확장이 아닌 병렬 협업형 구조로, Parallel-Agent Reinforcement Learning (PARL) 로 학습
    • 오케스트레이터 에이전트가 작업을 병렬 가능한 하위 작업으로 분해하고, 고정된 서브에이전트들이 동시에 실행
  • 보상 함수는 초기 병렬성 탐색을 유도하고 점차 작업 품질 Q(τ) 중심으로 전환
  • Critical Steps라는 지연 중심 지표를 도입해 병렬 실행의 효율성을 평가
  • 내부 평가에서 엔드투엔드 실행 시간 80% 단축, 복잡한 장기 작업 처리 능력 향상
    • 예시: 100개 세부 분야의 YouTube 크리에이터를 찾는 작업에서 100개의 서브에이전트를 병렬 생성해 결과를 통합

오피스 생산성

  • K2.5 Agent는 대규모 오피스 업무 자동화를 지원하며, 문서·스프레드시트·PDF·슬라이드 생성까지 대화형으로 처리
  • 내부 AI Office BenchmarkGeneral Agent Benchmark에서 각각 59.3% , 24.3% 향상
  • Word 주석 추가, Pivot Table 기반 재무 모델링, PDF 내 LaTeX 수식 작성 등 고급 작업 수행
  • 10,000단어 논문이나 100페이지 문서 생성 등 장문 작업을 수분 내 완료

결론

  • Kimi K2.5는 비전 기반 코딩, 에이전트 스웜, 오피스 자동화의 세 영역에서 진전을 보여, 실세계 제약 하의 AGI 접근을 실증
  • 향후 에이전틱 인텔리전스(agentic intelligence) 의 확장을 통해 지식 노동의 경계를 재정의할 계획

부록: 주요 벤치마크 결과

  • Reasoning, Vision, Coding, Agentic Search 등 7개 영역에서 GPT-5.2, Claude 4.5, Gemini 3 Pro 등과 비교
    • HLE-Full w/ tools: 50.2 (GPT-5.2: 45.5)
    • MMMU-Pro: 78.5 (Gemini 3 Pro: 81.0)
    • SWE-Bench Verified: 76.8 (Claude 4.5: 80.9)
    • BrowseComp (Swarm Mode) : 78.4
  • 대부분의 비전·코딩·에이전틱 검색 벤치마크에서 상위권 성능 기록
  • 모든 실험은 256k 토큰 컨텍스트, temperature=1.0, top-p=0.95 설정에서 수행
  • Kimi Vendor Verifier (KVV) 를 통해 제3자 서비스의 정확도 검증 가능
Hacker News 의견들
  • Hugging Face의 Kimi-K2.5 페이지를 보면 1조 파라미터 모델임
    MIT 라이선스 기반이지만, 월간 활성 사용자 1억 명 이상이거나 매출 2천만 달러 이상인 상업 서비스에선 UI에 “Kimi K2.5”를 표시해야 한다는 조건이 추가되어 있음

    • 1조라니, int4 기준으로도 VRAM 반 테라바이트쯤 필요할 듯함
      기술적으로 경이롭지만, 어차피 집에서는 돌릴 수 없는 걸 무료로 푼 셈이라 위험도 절반쯤 줄어든 느낌임
    • Cursor 개발자들이 Composer 모델이 GLM 기반임을 숨기려 했는데, 이건 꽤 불편할 소식일 듯함
    • Kimi K2.5의 thinking, instruct, agent, agent swarm(beta) 전부 오픈소스인지 궁금함
      API에서 agent swarm을 언급하던데, 그게 가중치까지 공개된 건지 알고 싶음
    • “매출 2천만 달러 이상이면 UI에 Kimi K2.5를 표시하라”는 조항을 보니, 차라리 “100만 달러 내라”고 하는 게 낫지 않나 싶음
  • Deepseek moment”가 딱 1년 전이었음
    그때와 비교하면 지금은 정말 많은 기술이 무료로 공개되고 있고, OpenAI처럼 폐쇄적인 접근과는 완전히 다른 자유로움이 느껴짐

    • DeepSeekR1 이후에도 v3-0324, v3.1, v3.1-terminus, v3.2-speciale 등 중국계 모델들의 발전 속도가 놀라움
      GLM 4.7 flash, Minimax-M2, Qwen 시리즈까지 포함하면 정말 다양함
      나는 OpenAI와 Anthropic 구독을 끊은 지 2년 됐는데 전혀 아쉽지 않음
    • 우연이 아님. 중국 기업들은 춘절 전 대규모 릴리스를 자주 하므로, 2월 17일 전에도 더 나올 가능성이 큼
    • 이렇게 거대한 모델을 무료로 공개하는 이유가 궁금함. 비즈니스 모델이 뭘까 하는 의문이 듦
    • Deepseek은 실제로는 마케팅 중심 프로젝트였다고 생각함
      Reddit에서도 이상하게 ‘pro-deepseek’ 댓글이 계속 달리더라. 거의 Apple식 마케팅 같음
    • 하지만 이런 모델들이 보안 공격이나 생물학적 공격에도 악용될 수 있음
      중국 기업들이 인류애적 이유로 이런 걸 푸는 건 아닐 것임
  • 여러 모델을 비교할 수 있는 유용한 사이트들을 공유함

  • Kimi K2.5는 최대 100개의 서브 에이전트를 병렬로 실행하며, 최대 1,500개의 툴 호출을 병렬 처리함
    단순한 툴 호출이 아니라 에이전트 오케스트레이션 자체를 강화학습(RL) 으로 학습시킨 점이 흥미로움

    • 하지만 1,500번의 툴 호출은 비용 구조 악몽임. 몇십 단계만 돼도 마진이 무너지는데, VC 자금 없이는 지속 불가능해 보임
    • “self-direct an agent swarm”이 모델 내부 기능인지, 아니면 IDE/서비스 레벨에서 구현된 건지 궁금함
      보통은 모델이 “call tool X”를 출력하면 IDE가 실행하고 결과를 다시 전달하는 구조임
    • 병렬 에이전트는 단순하지만 강력한 트릭임
      나는 Claude Code의 TeammateTool로 비슷한 효과를 보고 있음
  • Moonshot AI가 K2.5 외에도 Kimi Code를 공개했음
    기존 Kimi CLI에서 발전한 터미널 코딩 에이전트로, 지난달부터 써봤는데 꽤 안정적임
    GitHub: MoonshotAI/kimi-cli

    • 단순한 코딩 에이전트가 아니라 셸(shell) 역할도 함
      zsh hook이 있어서 어디서든 에이전트 모드로 전환 가능함
    • swarm 기능을 지원하는지, 그리고 Opencode도 지원하는지 궁금함
    • CC와 비교했을 때 성능이 어떤지도 알고 싶음
  • K2.5는 자동으로 서브 에이전트를 생성하고 swarm을 구성하도록 훈련된 점이 흥미로움
    Claude Code의 동적 서브에이전트와 유사하지만, 훨씬 더 많은 에이전트를 자율적으로 다룰 수 있음
    Claude도 비슷한 훈련을 하고 있을지, 다음 버전에서 공개될지 기대됨

  • 최근 중국 모델들이 Claude Opus를 기준으로 벤치마크를 잡고 있음
    Qwen3 max thinking, Kimi K2.5 모두 Sonnet이 아니라 Opus와 비교함. 거의 같은 속도로 따라잡는 중임

    • clocks.brianmoore.com에서 K2가 시계 테스트를 완벽히 통과한 몇 안 되는 모델 중 하나임
    • 중국 연구소들은 서구 SOTA 모델을 증류(distill) 해서 몇 달 내로 따라잡는 패턴임
    • 벤치마크상으로는 비슷하지만, 실제 사용성에서는 Anthropic 모델이 여전히 앞서 있음
    • 결국 실제 사용 시나리오가 더 중요함. 벤치 점수만으로는 판단하기 어려움
  • Kimi K2는 감정지능(emotional intelligence) 이 높다는 평이 많았음
    K2.5가 그 특성을 이어갈지 궁금함

    • 나도 같은 인상을 받았음. 어떻게 그런 감정적 반응을 구현했는지 정말 궁금함
    • mafia-arena.com에서 테스트해볼 예정임
    • 주관적이긴 하지만 Gemini 3, GPT 5.2, Opus 4.5보다 더 인간적인 느낌이 있었음
  • CCP-bench 점수가 K2.5에서 크게 향상
    관련 이미지 참고

  • Kimi 팀의 성과를 축하함
    그런데 왜 여전히 Claude가 코딩 분야 1위인지 궁금함. 코딩 특화 훈련 때문인지, 아니면 전반적 학습 품질 때문인지 알고 싶음
    누가 Opus 4.5를 코딩에서 이겨줬으면 함

    • 벤치마크 차이는 의미가 거의 없음. 실제 코딩 환경의 노이즈가 훨씬 큼
      오히려 모델들이 벤치마크에 오버피팅된 경우도 있음
      GPT5.2와 Opus 4.5를 모두 써봤는데, 실제 코딩 성능은 거의 동일함
      게다가 K2.5는 가격이 상위 모델의 1/5 수준이라 기대됨
    • 나는 Opus 대신 Gemini Pro를 쓰는데, 코드 구조를 재설계해 요구사항을 더 잘 반영함
      Opus는 불필요한 추상화나 하드코딩을 자주 함
    • Gemini 3 Pro는 특히 대규모 코드베이스에서 훨씬 뛰어남
    • Opus 4.5는 두 달 전 출시된 모델이고, Anthropic이 코딩 성능에 특히 집중해온 결과임