Kimi, 오픈소스 비주얼 SOTA-에이전틱 모델 Ki

▲

GN⁺ 3달전 | parent | ★ favorite | on: Kimi, 오픈소스 비주얼 SOTA-에이전틱 모델 Kimi K2.5 공개(kimi.com)

Hacker News 의견들

Hugging Face의 Kimi-K2.5 페이지를 보면 1조 파라미터 모델임
MIT 라이선스 기반이지만, 월간 활성 사용자 1억 명 이상이거나 매출 2천만 달러 이상인 상업 서비스에선 UI에 “Kimi K2.5”를 표시해야 한다는 조건이 추가되어 있음
- 1조라니, int4 기준으로도 VRAM 반 테라바이트쯤 필요할 듯함
  기술적으로 경이롭지만, 어차피 집에서는 돌릴 수 없는 걸 무료로 푼 셈이라 위험도 절반쯤 줄어든 느낌임
- Cursor 개발자들이 Composer 모델이 GLM 기반임을 숨기려 했는데, 이건 꽤 불편할 소식일 듯함
- Kimi K2.5의 thinking, instruct, agent, agent swarm(beta) 전부 오픈소스인지 궁금함
  API에서 agent swarm을 언급하던데, 그게 가중치까지 공개된 건지 알고 싶음
- “매출 2천만 달러 이상이면 UI에 Kimi K2.5를 표시하라”는 조항을 보니, 차라리 “100만 달러 내라”고 하는 게 낫지 않나 싶음
“Deepseek moment”가 딱 1년 전이었음
그때와 비교하면 지금은 정말 많은 기술이 무료로 공개되고 있고, OpenAI처럼 폐쇄적인 접근과는 완전히 다른 자유로움이 느껴짐
- DeepSeekR1 이후에도 v3-0324, v3.1, v3.1-terminus, v3.2-speciale 등 중국계 모델들의 발전 속도가 놀라움
  GLM 4.7 flash, Minimax-M2, Qwen 시리즈까지 포함하면 정말 다양함
  나는 OpenAI와 Anthropic 구독을 끊은 지 2년 됐는데 전혀 아쉽지 않음
- 우연이 아님. 중국 기업들은 춘절 전 대규모 릴리스를 자주 하므로, 2월 17일 전에도 더 나올 가능성이 큼
- 이렇게 거대한 모델을 무료로 공개하는 이유가 궁금함. 비즈니스 모델이 뭘까 하는 의문이 듦
- Deepseek은 실제로는 마케팅 중심 프로젝트였다고 생각함
  Reddit에서도 이상하게 ‘pro-deepseek’ 댓글이 계속 달리더라. 거의 Apple식 마케팅 같음
- 하지만 이런 모델들이 보안 공격이나 생물학적 공격에도 악용될 수 있음
  중국 기업들이 인류애적 이유로 이런 걸 푸는 건 아닐 것임
여러 모델을 비교할 수 있는 유용한 사이트들을 공유함
- lmarena.ai/leaderboard — 모델 간 ELO 대결
- dashboard.safe.ai — CAIS의 대시보드
- clocks.brianmoore.com — 모델의 시계 그리기 비교
- eqbench.com — 감정지능 벤치마크
- ocrarena.ai/battle — OCR 대결
- mafia-arena.com — 마피아 게임 대결
- openrouter.ai/rankings — OpenRouter 기반 점유율
Kimi K2.5는 최대 100개의 서브 에이전트를 병렬로 실행하며, 최대 1,500개의 툴 호출을 병렬 처리함
단순한 툴 호출이 아니라 에이전트 오케스트레이션 자체를 강화학습(RL) 으로 학습시킨 점이 흥미로움
- 하지만 1,500번의 툴 호출은 비용 구조 악몽임. 몇십 단계만 돼도 마진이 무너지는데, VC 자금 없이는 지속 불가능해 보임
- “self-direct an agent swarm”이 모델 내부 기능인지, 아니면 IDE/서비스 레벨에서 구현된 건지 궁금함
  보통은 모델이 “call tool X”를 출력하면 IDE가 실행하고 결과를 다시 전달하는 구조임
- 병렬 에이전트는 단순하지만 강력한 트릭임
  나는 Claude Code의 TeammateTool로 비슷한 효과를 보고 있음
Moonshot AI가 K2.5 외에도 Kimi Code를 공개했음
기존 Kimi CLI에서 발전한 터미널 코딩 에이전트로, 지난달부터 써봤는데 꽤 안정적임
GitHub: MoonshotAI/kimi-cli
- 단순한 코딩 에이전트가 아니라 셸(shell) 역할도 함
  zsh hook이 있어서 어디서든 에이전트 모드로 전환 가능함
- swarm 기능을 지원하는지, 그리고 Opencode도 지원하는지 궁금함
- CC와 비교했을 때 성능이 어떤지도 알고 싶음
K2.5는 자동으로 서브 에이전트를 생성하고 swarm을 구성하도록 훈련된 점이 흥미로움
Claude Code의 동적 서브에이전트와 유사하지만, 훨씬 더 많은 에이전트를 자율적으로 다룰 수 있음
Claude도 비슷한 훈련을 하고 있을지, 다음 버전에서 공개될지 기대됨
최근 중국 모델들이 Claude Opus를 기준으로 벤치마크를 잡고 있음
Qwen3 max thinking, Kimi K2.5 모두 Sonnet이 아니라 Opus와 비교함. 거의 같은 속도로 따라잡는 중임
- clocks.brianmoore.com에서 K2가 시계 테스트를 완벽히 통과한 몇 안 되는 모델 중 하나임
- 중국 연구소들은 서구 SOTA 모델을 증류(distill) 해서 몇 달 내로 따라잡는 패턴임
- 벤치마크상으로는 비슷하지만, 실제 사용성에서는 Anthropic 모델이 여전히 앞서 있음
- 결국 실제 사용 시나리오가 더 중요함. 벤치 점수만으로는 판단하기 어려움
Kimi K2는 감정지능(emotional intelligence) 이 높다는 평이 많았음
K2.5가 그 특성을 이어갈지 궁금함
- 나도 같은 인상을 받았음. 어떻게 그런 감정적 반응을 구현했는지 정말 궁금함
- mafia-arena.com에서 테스트해볼 예정임
- 주관적이긴 하지만 Gemini 3, GPT 5.2, Opus 4.5보다 더 인간적인 느낌이 있었음
CCP-bench 점수가 K2.5에서 크게 향상됨
관련 이미지 참고
Kimi 팀의 성과를 축하함
그런데 왜 여전히 Claude가 코딩 분야 1위인지 궁금함. 코딩 특화 훈련 때문인지, 아니면 전반적 학습 품질 때문인지 알고 싶음
누가 Opus 4.5를 코딩에서 이겨줬으면 함
- 벤치마크 차이는 의미가 거의 없음. 실제 코딩 환경의 노이즈가 훨씬 큼
  오히려 모델들이 벤치마크에 오버피팅된 경우도 있음
  GPT5.2와 Opus 4.5를 모두 써봤는데, 실제 코딩 성능은 거의 동일함
  게다가 K2.5는 가격이 상위 모델의 1/5 수준이라 기대됨
- 나는 Opus 대신 Gemini Pro를 쓰는데, 코드 구조를 재설계해 요구사항을 더 잘 반영함
  Opus는 불필요한 추상화나 하드코딩을 자주 함
- Gemini 3 Pro는 특히 대규모 코드베이스에서 훨씬 뛰어남
- Opus 4.5는 두 달 전 출시된 모델이고, Anthropic이 코딩 성능에 특히 집중해온 결과임