Kimi K2.6 공개 - 오픈소스 코딩의 발전

(kimi.com)

5P by GN⁺ 1달전 | ★ favorite | 댓글 3개

장기 구간 코딩과 에이전트형 작업에서 성능을 끌어올린 모델로, 여러 언어와 프런트엔드·devops·성능 최적화 전반에서 일반화 성능 강화
복잡한 엔지니어링 작업을 지속 실행형 코딩으로 처리하며, 수천 회 도구 호출과 12시간 이상 연속 실행을 거쳐 Zig 추론 최적화와 exchange-core 전면 개편에서 큰 폭의 처리량 향상 기록
단순 프롬프트를 완전한 프런트엔드 인터페이스로 바꾸고 이미지·영상 생성 도구까지 활용하며, 인증·데이터베이스 작업을 포함한 간단한 풀스택 워크플로우 지원
Agent Swarm 구조를 300개 서브에이전트와 4,000개 조정 단계 규모로 확장해 검색·리서치·문서 작성·파일 생성 작업을 병렬 실행하고, PDF·슬라이드·스프레드시트·Word 문서의 형식과 스타일을 재사용 가능한 skills로 전환
능동형 에이전트와 Claw Groups까지 범위를 넓혀 장시간 자율 운영, 다중 에이전트 협업, 작업 재할당을 수행하며, 벤치마크와 기업 베타 테스트에서 코딩·도구 호출·장기 실행 신뢰성 개선 확인

장기 구간 코딩

장기 구간 코딩 작업에서 성능 향상 확인, Rust·Go·Python 같은 여러 언어와 프런트엔드·devops·성능 최적화 같은 여러 작업 전반에서 일반화 성능 강화
- 내부 코딩 벤치마크인 Kimi Code Bench에서 복잡한 엔드투엔드 작업 전반을 대상으로 Kimi K2.5 대비 큰 폭의 개선 기록
복잡한 엔지니어링 작업에서 지속 실행형 코딩 수행
- Mac 로컬 환경에 Qwen3.5-0.8B 모델 다운로드와 배포 성공
- 비교적 특수한 언어인 Zig로 모델 추론을 구현하고 최적화, 분포 밖 일반화 성능 입증
- 4,000회 이상 도구 호출, 12시간 이상 연속 실행, 14회 반복을 거쳐 처리량을 약 15 tokens/sec에서 약 193 tokens/sec로 끌어올림
- 최종 속도는 LM Studio 대비 약 20% 빠름
8년 된 오픈소스 금융 매칭 엔진 exchange-core 전면 개편 수행
- 13시간 실행 동안 12개 최적화 전략 반복, 1,000회 이상 도구 호출로 4,000줄 이상 코드를 정밀 수정
- CPU 및 메모리 할당 flame graph 분석으로 숨은 병목 식별
- 코어 스레드 토폴로지를 4ME+2RE에서 2ME+1RE로 재구성
- 이미 성능 한계에 근접한 엔진에서 중간 처리량 185% 상승(0.43→1.24 MT/s), 성능 처리량 133% 상승(1.23→2.86 MT/s) 달성
베타 테스트의 기업 평가에서도 장기 코딩 신뢰성과 도구 호출 품질 관련 긍정적 평가 다수 확인
- Baseten은 선도적 비공개 모델과 유사한 수준의 코딩 작업 성능, 서드파티 프레임워크 이해 기반의 강한 도구 호출 품질, 복잡하고 장기적인 엔지니어링 작업 적합성 언급
- Blackbox는 장기·에이전트형 코딩 워크플로우에서 오픈소스 모델의 새 기준, 복잡한 다단계 작업 처리, 높은 코드 품질, 장시간 세션 안정성, 비명백한 버그 탐지 능력 언급
- CodeBuddy는 K2.5 대비 코드 생성 정확도 12% 증가, 장문맥 안정성 18% 개선, 도구 호출 성공률 96.60% 기록
- Factory는 자체 벤치마크와 나란히 비교한 평가에서 15% 향상 보고
- Fireworks는 장기 구간 신뢰성과 지시 이행 능력을 가장 큰 개선 지점으로 언급
- Hermes Agent는 도구 호출과 에이전트 루프의 긴밀함, 코딩 향상, 창의적 범위 확대 언급
- Kilo는 낮은 비용 대비 SOTA급 성능과 코드베이스 전반의 장문맥 작업 강점 언급
- Ollama는 코딩과 에이전트 도구 적합성, 긴 다단계 세션 안정성, 기존 통합과의 즉시 연동 언급
- OpenCode는 작업 분해와 도구 호출의 안정성, 반복 오버헤드 감소, 엔드투엔드 경험의 신뢰성 언급
- Qoder는 도구 호출과 모델 호출 빈도 증가, 작업 실행 중 능동성 강화, 사용자 중단과 대기 시간 감소 언급
- Vercel은 Next.js 벤치마크 50% 이상 개선, 플랫폼 상위권 성능, 비용 대비 효율 기반의 에이전트형 코딩과 프런트엔드 생성 적합성 언급

코딩 중심 설계

강한 코딩 능력을 기반으로 단순 프롬프트를 완전한 프런트엔드 인터페이스로 변환 가능
- 미적인 hero section, 상호작용 요소, 스크롤 트리거 효과를 포함한 풍부한 애니메이션 등 구조화된 레이아웃 생성
이미지·영상 생성 도구 활용 능력을 바탕으로 시각적으로 일관된 자산 생성 지원
- 더 높은 품질과 더 눈에 띄는 hero section 제작에 기여
정적 프런트엔드를 넘어 간단한 풀스택 워크플로우까지 확장
- 인증, 사용자 상호작용, 데이터베이스 작업 포함
- 거래 기록이나 세션 관리 같은 경량 사용 사례 지원
내부 Kimi Design Bench 구축
- Visual Input Tasks, Landing Page Construction, Full-Stack Application Development, General Creative Programming 네 범주로 구성
- Google AI Studio와 비교해 여러 범주에서 유망한 결과와 양호한 성능 기록
K2.6 Agent 예시 생성물 제공
- 하나의 프롬프트와 미리 구성된 harness·도구를 사용해 결과 생성
- 미적 측면에서는 풍부한 상호작용을 갖춘 아름다운 프런트엔드 디자인 포함
- 기능 측면에서는 내장 데이터베이스와 인증 포함
- 도구 활용 측면에서는 이미지·영상 생성 도구를 사용한 정제된 웹사이트 생성 포함

향상된 Agent Swarm

수직 확장만이 아닌 수평 확장 중심 구조 채택
- Agent Swarm은 작업을 이질적인 하위 작업으로 동적으로 분해하고, 스스로 생성한 도메인 특화 에이전트들이 이를 병렬 실행
K2.5 Agent Swarm 연구 프리뷰를 기반으로, Kimi K2.6 Agent Swarm에서 경험의 질적 도약 제시
- 넓은 검색과 깊은 리서치 결합
- 대규모 문서 분석과 장문 작성 결합
- 여러 형식의 콘텐츠 생성을 병렬 실행
- 단일 자율 실행 안에서 문서·웹사이트·슬라이드·스프레드시트를 아우르는 엔드투엔드 산출물 제공
아키텍처의 수평 확장 규모 확대
- 300개 서브에이전트가 4,000개 조정 단계를 동시에 실행
- K2.5의 100개 서브에이전트, 1,500단계 대비 큰 폭의 확장
- 대규모 병렬화로 엔드투엔드 지연 감소, 출력 품질 향상, Agent Swarm 운영 경계 확장
PDF·스프레드시트·슬라이드·Word 문서 같은 고품질 파일을 Skills로 전환 가능
- 문서의 구조와 스타일 특성을 캡처하고 유지
- 이후 작업에서 동일한 품질과 형식을 재현 가능
예시 작업 다수 제시
- 100개 글로벌 반도체 자산을 대상으로 5개 퀀트 전략 설계·실행, McKinsey 스타일 PPT를 재사용 가능한 skill로 도출, 상세 모델링 스프레드시트와 완전한 경영진 발표 자료 제공
- 풍부한 시각 데이터를 가진 고품질 천체물리학 논문을 재사용 가능한 학술 skill로 전환, 추론 흐름과 시각화 방식을 도출, 40페이지·7,000단어 연구 논문, 20,000개 이상 항목의 구조화 데이터셋, 천문학 수준 차트 14개 생성
- 업로드된 이력서를 바탕으로 100개 서브에이전트를 생성해 California의 관련 직무 100개 매칭, 구조화된 기회 데이터셋과 100개의 맞춤형 이력서 제공
- Google Maps에서 Los Angeles의 공식 웹사이트가 없는 소매점 30곳 식별, 각 매장에 대해 전환율 중심 랜딩 페이지 생성

능동형 에이전트

OpenClaw와 Hermes 같은 자율적·능동적 에이전트에서 강한 성능 기록
- 여러 애플리케이션을 가로질러 24시간 7일 연속 실행되는 유형 지원
단순 채팅 기반 상호작용과 구분되는 워크플로우 대응
- 일정 관리, 코드 실행, 플랫폼 간 작업 오케스트레이션을 지속적 백그라운드 에이전트로 수행 필요
RL 인프라 팀은 K2.6 기반 에이전트를 사용해 5일간 자율 운영 진행
- 모니터링, 사고 대응, 시스템 운영 담당
- 지속 컨텍스트 유지, 멀티스레드 작업 처리, 경보 발생부터 해결까지 전 주기 실행 입증
- 민감 정보 제거를 거친 작업 로그 존재 언급
실제 환경의 신뢰성 개선 측정
- 더 정확한 API 해석
- 더 안정적인 장시간 실행 성능
- 장기 리서치 작업 중 향상된 안전 인식
내부 평가 스위트 Claw Bench로 성능 향상 정량화
- Coding Tasks, IM Ecosystem Integration, Information Research & Analysis, Scheduled Task Management, Memory Utilization의 다섯 영역 포함
- 전 지표에서 Kimi K2.5 대비 작업 완료율과 도구 호출 정확도 크게 향상
- 특히 사람 감독 없이 지속 자율 운영이 필요한 워크플로우에서 강한 개선 기록

Bring Your Own Agents

강한 오케스트레이션 능력을 바탕으로 능동형 에이전트를 Claw Groups로 확장
- Agent Swarm 아키텍처의 새로운 구현 형태로 연구 프리뷰 제공
개방적이고 이질적인 생태계 수용
- 여러 에이전트와 사람이 실제 협업자로 함께 작동
- 사용자는 어떤 기기에서든, 어떤 모델로 실행되든 에이전트를 온보딩 가능
- 각 에이전트는 고유한 도구 모음, skill, 지속 메모리 컨텍스트 보유
- 로컬 노트북, 모바일 기기, 클라우드 인스턴스 등 다양한 환경의 에이전트가 공유 운영 공간에 자연스럽게 통합
중앙에서 Kimi K2.6이 적응형 조정자 역할 수행
- 각 에이전트의 skill 프로필과 사용 가능한 도구를 기준으로 작업 동적 배분
- 적합한 역량에 맞춰 작업 최적화
- 에이전트 실패나 정체 발생 시 이를 감지하고 작업 재할당 또는 하위 작업 재생성 수행
- 시작부터 검증, 완료까지 산출물 전 생애주기 적극 관리
Claw Groups의 자체 활용 사례 포함
- 인간-에이전트 워크플로우를 실제로 다듬기 위해 에이전트 마케팅 팀을 내부 사용
- Demo Makers, Benchmark Makers, Social Media Agents, Video Makers 같은 특화 에이전트들이 함께 작동
- 엔드투엔드 콘텐츠 제작과 출시 캠페인 운영
- K2.6이 중간 결과 공유와 아이디어의 일관된 완성형 산출물 전환 조정
인간과 AI의 관계를 질문 응답이나 단순 작업 할당을 넘어 실질적 협업 파트너십으로 확장
- "my agent", "your agent", "our team"의 경계가 협업 시스템 안에서 자연스럽게 사라지는 미래 지향점 제시

벤치마크 표

Agentic 영역 주요 수치
- HLE-Full w/ tools 54.0, GPT-5.4 52.1, Claude Opus 4.6 53.0, Gemini 3.1 Pro 51.4, Kimi K2.5 50.2
- BrowseComp 83.2, BrowseComp(agent swarm) 86.3, Kimi K2.5는 각각 74.9, 78.4
- DeepSearchQA f1-score 92.5, accuracy 83.0
- WideSearch item-f1 80.8
- Toolathlon 50.0, Kimi K2.5 27.8
- MCPMark 55.9
- Claw Eval pass^3 62.3, pass@3 80.9
- APEX-Agents 27.9
- OSWorld-Verified 73.1
Coding 영역 주요 수치
- Terminal-Bench 2.0 (Terminus-2) 66.7
- SWE-Bench Pro 58.6
- SWE-Bench Multilingual 76.7
- SWE-Bench Verified 80.2
- SciCode 52.2
- OJBench (python) 60.6
- LiveCodeBench (v6) 89.6
Reasoning & Knowledge 영역 주요 수치
- HLE-Full 34.7
- AIME 2026 96.4
- HMMT 2026 (Feb) 92.7
- IMO-AnswerBench 86.0
- GPQA-Diamond 90.5
Vision 영역 주요 수치
- MMMU-Pro 79.4, MMMU-Pro w/ python 80.1
- CharXiv (RQ) 80.4, CharXiv (RQ) w/ python 86.7
- MathVision 87.4, MathVision w/ python 93.2
- BabyVision 39.8, BabyVision w/ python 68.5
- V* w/ python 96.9
공식 Kimi-K2.6 벤치마크 결과 재현에는 공식 API 사용 권장
- 서드파티 제공자 선택에는 Kimi Vendor Verifier (KVV) 참고 안내 포함

각주

일반 테스트 세부 사항
- Kimi K2.6과 Kimi K2.5는 thinking mode enabled, Claude Opus 4.6은 max effort, GPT-5.4는 xhigh reasoning effort, Gemini 3.1 Pro는 high thinking level 조건에서 결과 보고
- 별도 표기가 없는 한 Kimi K2.6 실험은 temperature 1.0, top-p 1.0, 262,144 tokens 컨텍스트 길이로 수행
- 공개 점수가 없는 벤치마크는 Kimi K2.6과 같은 조건으로 재평가했고 별표(*) 로 표시
- 별표가 없는 결과는 공식 보고서 인용
추론 벤치마크
- GPT-5.4와 Claude 4.6의 IMO-AnswerBench 점수는 z.ai 블로그에서 취득
- Humanity's Last Exam (HLE) 및 기타 추론 작업은 최대 생성 길이 98,304 tokens로 평가
- 기본 보고값은 HLE full set
- 텍스트 전용 하위 집합에서 Kimi K2.6은 도구 없이 36.4% accuracy, 도구 포함 시 55.5% accuracy 기록
도구 보강 및 에이전트형 작업
- HLE with tools, BrowseComp, DeepSearchQA, WideSearch에서 search, code-interpreter, web-browsing 도구 장착
- HLE-Full with tools는 최대 생성 길이 262,144 tokens, 단계별 한도 49,152 tokens
- 컨텍스트 창이 임계값을 넘으면 가장 최근의 도구 관련 메시지 라운드만 유지하는 단순 컨텍스트 관리 전략 사용
- BrowseComp 점수는 Kimi K2.5 및 DeepSeek-V3.2와 동일한 discard-all 전략의 컨텍스트 관리로 획득
- DeepSearchQA에서는 Kimi K2.6 테스트에 컨텍스트 관리를 적용하지 않았고, 지원 컨텍스트 길이를 초과한 작업은 실패로 직접 집계
- Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro의 DeepSearchQA 점수는 Claude Opus 4.7 System Card 인용
- WideSearch는 hide tool result 컨텍스트 관리 설정으로 결과 보고
- 테스트 시스템 프롬프트는 Kimi K2.5 technical report와 동일
- Claw Eval은 version 1.1, max-tokens-per-step 16384로 수행
- APEX-Agents는 공개 480개 작업 중 452개 작업 평가
  - Artificial Analysis와 동일하게 Investment Banking Worlds 244, 246 제외
  - 제외 이유는 외부 런타임 의존성
코딩 작업
- Terminal-Bench 2.0 점수는 기본 에이전트 프레임워크 Terminus-2와 제공된 JSON parser를 사용해 preserve thinking mode로 획득
- SWE-Bench 계열 평가(Verified, Multilingual, Pro 포함)는 SWE-agent를 바탕으로 개조한 사내 평가 프레임워크 사용
- 해당 프레임워크 도구 구성은 bash tool, createfile tool, insert tool, view tool, strreplace tool, submit tool의 최소 집합
- 코딩 작업의 보고 점수는 모두 독립 실행 10회 평균값
비전 벤치마크
- max-tokens 98,304, 3회 실행 평균(avg@3) 적용
- Python 도구 사용 설정은 max-tokens-per-step 65,536, max-steps 50으로 다단계 추론 수행
- MMMU-Pro는 공식 프로토콜을 따르며 입력 순서를 유지하고 이미지를 앞에 배치

GN⁺ 1달전 [-]

Hacker News 의견들

OpenRouter로 붙여 써봤더니 이 모델이 SVG 펠리컨을 그냥 그리는 데서 끝나지 않고, 애니메이션 속도 조절까지 되는 HTML로 감싸서 내보낸 점이 인상적이었음. 대화 기록과 HTML은 여기 gist에 있고, 실행 예시는 이 링크에서 볼 수 있음
- 이제는 이런 펠리컨 SVG가 학습 데이터셋에 들어갔을 것 같다는 생각이 듦
- 이건 완전히 과잉 성실형 느낌이었고, Kimi라는 이름도 왠지 모범생 같게 들림
- 아쉽게도 펠리컨의 다리와 발에는 같은 공을 들이지 않은 것 같음. 왼쪽 다리는 마비된 것처럼 안 움직이고, 오른쪽 발목은 불안할 정도로 휙휙 돌아감
- 베타 때 써봤는데 꽤 괜찮은 모델이었고, 어떤 순간에는 내가 Opus나 GPT가 아닌 다른 모델을 쓰고 있다는 걸 잊을 정도였음. 그래도 Opus가 여전히 더 낫고, 내 기준에선 GPT 쪽이 더 버거워 보였음. 백엔드 작업에서는 약간의 틈새가 있지만, 실력이 있으면 Opus로도 비슷하게 해결 가능했고 전반적으로는 부족한 면이 더 많았음
- 진지하게 궁금한데, 거의 모든 새 모델 스레드마다 이걸 올리는 목적이 무엇인지 모르겠음. 내가 좀 늙고 까칠한 걸 수도 있지만, 한참 전에 이미 식상해졌고 저노력 Reddit 댓글처럼 느껴짐
초반 벤치마크를 보면 Kimi K2.6이 Kimi K2 Thinking보다 크게 좋아졌음. 이전 모델은 우리 벤치마크에서 성적이 별로였고, 양자화도 최선의 설정을 썼음. 지금은 Kimi K2.6이 원샷 코딩 추론에서 오픈 웨이트 모델 중 최상위권이고, GLM 5.1보다 약간 좋으며, 대략 3개월 전 SOTA 모델들과도 경쟁 가능해서 Gemini 3.1 Pro Preview와 비슷한 급으로 보임. 에이전트형 테스트는 아직 진행 중이고, 오픈 웨이트 모델은 긴 컨텍스트 에이전트 워크플로에서 약한 편이지만 GLM 5.1은 꽤 잘 버텼기 때문에 Kimi의 결과가 궁금함. 다만 구버전과 신버전 모두 속도가 느린 편이라 에이전트 코딩 실사용성에는 제약이 있을 수 있음. 예전 Kimi K2는 벤치마크 최적화가 심했고 어려운 문제 해결보다는 변주와 온도를 늘리는 데 더 흥미가 있었는데, 이번 모델은 훨씬 강한 범용형처럼 보임. 전체적으로 오픈 웨이트 진영은 정말 좋아 보이고, 거의 매주 프런티어급 신모델이 하나씩 나오는 분위기임. 자세한 벤치마크는 gertlabs에서 확인 가능함
- K2.6이 Sonnet 4.6과 비교해서 가격과 성능이 어느 정도인지 궁금함
- 언어별 성능 편차가 이렇게 큰 점은 꽤 놀라웠음
중국이 어쩌면 세계에서 가장 중요한 기술을 오픈소스 방식으로 밀고 있고, 미국은 정반대로 가는 모습에 아이러니한 유머가 느껴짐
- 내 생각엔 동기 중 하나가 미국 기업 견제임. OpenAI와 Anthropic이 가장 큰 플레이어이고 둘 다 미국 회사라서, 오픈 웨이트 모델이 많아질수록 이 둘의 산업 지배력이 약해짐. 중국 회사들이 미국식으로 비공개 모델 전략을 택하면 대부분 ChatGPT나 Claude를 쓸 가능성이 높아서, 어차피 큰 수익을 내기 어렵다면 오픈 웨이트로 내놓아 미국 회사의 초과 이익을 줄이는 쪽이 더 현실적이라고 봄
- 위대한 기술 발전은 결국 개방을 통해 가속된다고 봄. iPhone만 봐도 GPS, 인터넷, 음성 비서, 터치스크린, 마이크로프로세서, 리튬이온 배터리 등 핵심 기술 다수가 정부 연구나 공공에 가깝게 열린 연구에서 나왔음. 민간 기업은 경쟁사에게 돌파구를 그냥 열어주지 않기 때문에, 분야 전체를 전진시키려면 결국 기술을 열어야 한다는 생각임
- 이번 업데이트로 Kimi K2.6이 가장 강한 오픈 멀티모달 AI 모델이 됐다고 봄. 물론 나는 관계자가 아님. 공개된 AI 벤치마크를 모아보면 Opus 4.6 max effort와 비교했을 때 에이전트는 5 대 5, 코딩은 Kimi 5 대 Opus 1, 추론과 지식은 Kimi 1 대 Opus 4, 비전은 Kimi 9 대 Opus 0이었음. 다만 벤치마크는 모델 제작사가 고르기 때문에 편향은 감안해야 하고, 그래도 코딩과 추론 항목 다수는 꽤 표준적인 편이었음
- 꼭 그렇게만 보긴 어려움. Google도 최근 Gemma 4를 공개했고 Allen AI도 open Olmo 계열을 내놓고 있음. 그래도 중국 오픈 모델이 확실히 더 강하게 보이는 건 맞고, 특히 Qwen 3 계열은 체급 이상으로 잘 치고 올라오는 느낌임
- 중국 연구소들이 왜 모델을 오픈소스로 내놓는지 여러 추측이 나오지만, 내 생각엔 이유가 단순하고 분명함. 그들에게 사실상 가능한 상용화 전략이 그것뿐이기 때문임. 이 점은 내 글에서 정리해둠
나는 Kimi가 생각보다 주목을 덜 받는 점이 늘 의외였음. 창의성이나 품질 면에서 계속 눈에 띄었고, 꽤 오랫동안 내가 가장 좋아하는 모델이었음. 물론 내가 권위자는 아님
- 좋긴 하지만 아직 Claude급은 아니라고 느낌. 게다가 API는 용량 문제를 자주 겪음. 그래도 가격 대비 품질은 정말 말이 안 될 정도라서, 몇 주나 몇 달 전에 40달러 충전해둔 걸 아직도 절반도 못 썼음
- SVG 시계를 그릴 수 있는 몇 안 되는 모델 중 하나라는 점도 재밌었음. 예시는 이 사이트에서 볼 수 있음
- 이 정도 성능에 OpenRouter에서 매우 저렴한 편이라 더 좋았음. 2.6도 그 전통을 이어가길 바람
- Kagi Assistant에서 선택지로 써봤는데, 검색과 요약이 많은 환경에서 결과가 마음에 들었음. 특히 목록형이나 Markdown 범벅의 전형적인 LLM 문체가 아닌 자연스러운 산문을 부탁했을 때 좋았음. 확신 있게 비교하긴 어렵지만, 출력 흐름을 좋게 만들기 위해 원문을 과감히 재배열하는 편이었고, 때로는 따로 다뤄진 관련 아이디어를 연결하거나 요청에 제대로 답하도록 만드는 데 그런 편집이 오히려 필요했음
- 첫 K2가 나왔을 때를 기억하는데, 한동안 창의적 글쓰기에서는 다른 모델보다 확실히 앞섰음
여기서 Kimi를 실제 업무에 써본 사람이 있는지 궁금함. 나는 한 번 써봤는데 벤치마크는 화려해 보여도 실사용 인상은 그저 그랬음. 반면 Qwen 3.6은 꽤 좋았고, Opus에는 못 미쳐도 Sonnet과는 충분히 비빌 만하다고 느낌
- Codex 쿼터를 다 쓰면 Kimi K2.5를 대신 썼는데, 작고 중간 규모 작업은 무난했음. 하지만 복잡한 작업에 쓰면 나중에 Codex로 이틀 동안 뒤처리를 해야 해서, 2.6이 좀 더 나아졌길 바람
- GLM-5.1 전에는 Opus 4.5와 Kimi 4.5를 왔다 갔다 하면서 썼고, Kimi 쪽에서도 결과가 꽤 좋았음
- 실제로 쓰고 있을 가능성이 높음. Cursor의 composer-2 모델을 쓰면 그게 Kimi 계열이기 때문임. 계획 수립은 최상위권이고, 실행도 composer-2에서 잘 돌아간다고 느낌
벤치마크 감각과 실제 체감이 맞아떨어진다면, 이번 건 중국 AI가 미국 최상위 연구소 모델과 거의 어깨를 나란히 하는 DeepSeek 순간 같은 사건일 수도 있겠다고 느낌
- 이전 세대 모델과 비교하면 그렇다고 볼 수 있지만, 이른바 10T급 신화적 모델과 비교하면 아직 전혀 가깝지 않다고 봄
내 테스트와 aibenchy 비교 기준으로는 Kimi K2.6이 Kimi K2.5보다 약간 나은 정도였음. 특히 퍼즐, 도메인 특화 문제, 함정형 정확성 과제에서 지시 불이행과 오답이 자주 보였음. 코딩 모델로는 훌륭할 수 있지만, 전체적인 지능감은 여전히 최상위 SOTA보다 약간 아래라고 느낌
- OpenRouter에서 max tokens를 8192로 두고 써봤는데, non-thinking 모드에서도 모든 응답이 잘려서 나왔음. 배포 문제일 수도 있지만, 네 링크에서도 출력 토큰을 엄청 많이 생성하는 걸로 보였음
가끔 미래에는 예전 컴퓨터가 방 하나를 차지하다가 지금은 주머니에 들어오게 된 것처럼, 언젠가 데이터센터에 해당하는 계산량이 휴대폰 같은 단일 기기 하나로 들어갈 수 있을지 궁금해짐. 기술 발전 속도가 해마다 빨라지는 것처럼 보이니, 그런 변화도 더 빨리 오지 않을까 하는 생각이 듦
- 이런 방향으로는 이미 초반 작업이 있음. 예를 들어 Taalas 같은 회사는 LLM ASIC을 만들고 있고, HC1은 llama 8b에서 초당 17k 토큰을 낸다고 함. 아직 2.5kW 수준이라 휴대폰보다는 단일 서버에 가깝지만 첫 칩이라는 점은 의미가 큼. 광자 컴퓨팅 같은 대안도 전력을 크게 줄일 가능성이 있지만 아직은 연구 단계로 보임. AI에 돈이 워낙 많이 몰리고 기존 GPU 추론의 전력 소모가 커서, 이 영역의 개선은 꽤 빠르게 일어날 거라고 예상함
- 나는 그렇게까지 빠를 거라고 보진 않음. 역사적으로는 대체로 지수적 축소가 이어졌고, 그 추세가 유지된다면 방 크기의 연산이 주머니 크기로 줄어드는 데 걸리는 시간은 비슷해야 함. 게다가 최근에는 그 지수 추세에도 못 미치고 있고, 원래 지수 성장 자체가 오래 지속되기 어려움. 기술 진보가 계속 빨라지고 계산 장치도 계속 작아질 거라는 점에는 동의하지만, 그 사실만으로 다음 축소 단계가 더 짧은 시간 안에 온다고 보긴 어렵다고 생각함
오늘 아침 내내 앱에 붙여 테스트해봤는데, 느낌상 결과가 Sonnet 4.6과 비슷했음. 정식 검증 없이 순전히 바이브 기반 인상이긴 하지만, 프런티어 모델에 실제 경쟁이 생긴 건 반가운 일임
- K2.6과 GLM 5.1 덕분에 이제는 Sonnet급 지능을 Haiku급 가격에 쓰는 느낌이 듦. 이건 정말 좋음. Anthropic도 빨리 새 Haiku를 내놨으면 하고, 더 저렴한 모델들과 경쟁하려면 지금 Haiku의 3분의 1에서 5분의 1 가격대 제품이 필요해 보임. Gemma-4가 그 가격 구간에서 꽤 잘하고 있음
이 모델에 코딩용 정액제가 있는지 궁금했음. 즉 토큰 제한 대신 API 호출 제한만 있는 방식인지 궁금했고, 최근에는 z.ai에서 GLM 과금이 실패해서 구독이 끊겼는데 가격도 몇 달 사이에 너무 많이 올랐음
- Kimi도 다른 서비스들과 거의 비슷한 방식의 자체 구독이 있고, Kimi Code에서 확인 가능함