Kimi K2 Thinking, SOTA 오픈소스 트릴리언 파라미터 추론 모델

(moonshotai.github.io)

2P by GN⁺ 4일전 | ★ favorite | 댓글 1개

Kimi K2 Thinking은 도구를 활용하며 단계별로 사고하는 오픈소스 추론 모델로, 복잡한 문제 해결에서 인간 수준의 사고 과정을 구현
Humanity’s Last Exam(HLE) , BrowseComp, SWE-Bench Verified 등 주요 벤치마크에서 최신 최고 성능(SOTA) 달성
최대 200~300회 연속 도구 호출을 수행하며, 테스트 타임 스케일링(test-time scaling) 을 통해 사고 토큰과 도구 호출 단계를 동시에 확장
에이전틱(Agentic) 추론·검색·코딩 영역에서 두드러진 성능을 보이며, 복잡한 수학·코딩·웹 탐색 문제를 장기적 계획으로 해결
INT4 양자화 기반 추론 효율화로 속도 2배 향상과 GPU 메모리 절감 달성, 대규모 오픈소스 모델 중 최고 수준의 효율성 확보

Kimi K2 Thinking 소개

Kimi K2 Thinking은 Moonshot AI가 공개한 최고 성능의 오픈소스 사고 모델
- 도구 사용 중에도 단계별 추론을 수행하는 ‘thinking agent’ 구조
- HLE, BrowseComp 등에서 최신 최고 성능 기록
테스트 타임 스케일링을 통해 사고 토큰 수와 도구 호출 단계를 동시에 확장
현재 kimi.com 채팅 모드에서 사용 가능하며, 전체 에이전틱 모드는 곧 공개 예정
API를 통해 외부 연동 가능

평가 결과

HLE(도구 사용) 44.9%, BrowseComp 60.2%, SWE-Bench Verified 71.3% 달성
다영역 전문 수준 문제 해결에서 일관된 일반화 능력 입증
에이전틱 추론·검색·코딩 전반에서 기존 모델 대비 성능 향상

에이전틱 추론 (Agentic Reasoning)

Humanity’s Last Exam(HLE) 에서 44.9% 로 최고 기록 달성
- 100개 이상 학문 분야의 전문가 수준 문제를 포함한 폐쇄형 벤치마크
- 검색·Python·웹 브라우징 도구를 병행 사용
23단계의 추론 및 도구 호출을 교차 수행하며 박사급 수학 문제 해결 사례 제시
수백 단계의 계획·추론·실행·적응을 통해 복잡한 학술 문제 해결 가능

에이전틱 코딩 (Agentic Coding)

SWE-Multilingual 61.1% , SWE-Bench Verified 71.3% , Terminal-Bench 47.1% 기록
HTML·React 등 프런트엔드 구성 요소 중심 작업에서 높은 완성도
도구 호출을 통한 다단계 개발 워크플로우 수행, 정확하고 유연한 코드 생성 지원
단일 프롬프트로 웹사이트·문서 편집기 등 복합 애플리케이션 생성 사례 제시

에이전틱 검색 및 브라우징 (Agentic Search and Browsing)

BrowseComp 60.2% 로 인간 기준(29.2%)을 크게 상회
- 실시간 웹 정보 수집 및 추론 능력 입증
200~300회 연속 도구 호출을 수행하며 장기 계획·적응형 추론 구현
“생각 → 검색 → 브라우저 사용 → 생각 → 코딩”의 반복 루프를 통해
복잡한 오픈엔드 문제를 구조화된 하위 과제로 분해

일반적 능력 (General Capabilities)

창의적 글쓰기: 풍부한 표현력과 감정적 깊이를 갖춘 서사 생성
실용적 글쓰기: 논리적 구조와 지시 정확성 향상, 학술·연구용 콘텐츠에 적합
감정적 응답: 공감적이고 구체적인 조언 제공, 인간적 균형감 강화

추론 효율성 (Inference Efficiency)

INT4 가중치 전용 양자화(QAT) 적용으로 2배 속도 향상 및 메모리 절감
대규모 추론 시에도 성능 저하 없이 정밀한 사고 과정 유지
모든 벤치마크 결과는 INT4 정밀도 기준으로 보고됨

종합 성능 비교

주요 벤치마크에서 GPT‑5, Claude Sonnet 4.5, DeepSeek‑V3.2 등과 동등 또는 우수한 성능
Reasoning·Coding·Agentic Search 전 영역에서 오픈소스 최고 수준 달성

요약:
Kimi K2 Thinking은 도구 기반 단계적 사고를 수행하는 트릴리언 파라미터급 오픈소스 추론 모델로,
복잡한 문제 해결과 장기적 계획 수행에서 SOTA 수준의 성능과 효율성을 동시에 달성한 최신 AI 시스템임.

▲

GN⁺ 4일전 [-]

Hacker News 의견

uv tool install llm으로 Moonshot Kimi-K2-Thinking 모델을 설치하고, llm -m moonshot/kimi-k2-thinking 'Generate an SVG of a pelican riding a bicycle' 명령으로 SVG를 생성했음
결과물은 이 링크에서 볼 수 있음
OpenRouter의 moonshotai/kimi-k2-thinking으로 실행한 결과는 이 버전처럼 훨씬 정교하게 나왔음
- OpenRouter 결과는 양자화된(quantized) 호스팅 제공자에서 나온 것 같음
  Moonshot의 직접 API 호출과 비교하면 거의 밤과 낮 수준의 차이가 있음
  OpenRouter가 계정 단위가 아닌 API 단위로만 양자화 제한을 걸기 때문에 사용자 경험이 다소 혼란스러움
- 새 모델이 나올 때마다 이 벤치마크가 점점 상징적으로 변해가는 게 흥미로움
  GPT-5 계열의 성능은 여전히 믿기 어렵지만, 오픈소스 모델들이 점점 더 야심찬 시도를 하는 게 보기 좋음
- 혹시 실행 시 temperature를 0으로 고정해서 일관성을 유지한 것인지 궁금함
- 1조 파라미터 모델은 도대체 어디서 돌리는지 궁금함
경쟁이 늘고 오픈소스가 많아지는 건 좋지만, 나는 거대한 모델보다 작은 LLM + 에이전트 조합이 얼마나 코딩과 추론을 잘할 수 있는지가 더 흥미로움
로컬이나 저렴한 클러스터에서 돌릴 수 있는 게 이상적임
OpenAI의 원래 목표는 인류 전체의 이익이었지만 지금은 유료 중심 구조로 바뀌어, 부유층만 혜택을 보는 방향으로 가는 게 아쉬움
- 이미 그런 소형 모델 실험은 많이 이루어지고 있음
  하지만 결과가 아직 미흡하고, 효율적인 작은 모델을 만들 수 있었다면 대형 모델이 존재할 이유가 없었을 것임
  물론 새로운 아이디어가 나오면 이 구도가 바뀔 수도 있음
- 나도 예전엔 “가장 똑똑한 모델”에 집착했지만, 실제로 써보니 작은 모델이 훨씬 빠르게 같은 일을 처리함
  그래서 지금은 “내 작업을 해결할 수 있는 가장 작은 모델”을 찾는 게 목표임
  높은 벤치마크 점수는 오히려 과잉 스펙과 낭비의 지표로 보임
- “오픈소스”라면 학습 데이터를 다운로드하고 엔드투엔드로 재학습 가능한 스크립트가 포함되어야 함
  단순히 추론용 바이너리만 배포하면서 오픈소스라 부르는 건 잘못된 사용임
- 왜 전문가 단위의 초소형 모델이 안 나오는지 이해가 안 됨
  예를 들어 Go만 쓰는 사람에게는 Go 모델만 있으면 됨
  여러 전문 모델을 메모리에서 교체하며 쓰는 구조라면 훨씬 효율적일 것 같음
  하지만 대부분은 여전히 거대한 범용 모델을 추구함
  나는 CoPilot 구독과 Ollama 정도만 써봤지만, 앞으로는 1~2B 규모의 다수 모델 조합이 대세가 될 것 같음
- 사실 대형 모델의 발전은 대부분 최적화와 스케일링 덕분임
  하지만 이런 기술이 결국 소형 모델의 성능 향상으로 이어짐
  DeepSeek이 좋은 예로, 대형 모델의 혁신이 소형 모델에도 이득을 줌
  참고로 이번 모델은 MoE 구조로, 한 번에 320억 파라미터만 활성화됨
최근 몇 달 사이 중국의 네 개 기업(DeepSeek, Qwen/Alibaba, Kimi/Moonshot, GLM/Z.ai)이 훌륭한 오픈소스 모델을 내놓았음
미국이나 유럽 기업, 심지어 Meta조차 이런 움직임이 없음. 이유가 뭘까?
- 물론 OpenAI도 8월에 GPT-OSS를 공개했음
  Qwen 235도 좋아하지만, “오픈소스”의 정의가 오픈웨이트인지 전체 공개인지는 여전히 불분명함
- 중국 기업들은 최신 GPU 접근이 제한되어 있어서 오픈소스로 공개하는 전략을 택함
  반면 미국 기업들은 막대한 GPU 투자비를 회수해야 하기 때문에 공개를 꺼림
- 또 다른 이유는 프라이버시 우려로 인해 유료 고객이 적기 때문임
  결국 무료 공개 외에는 선택지가 없음
- Meta는 DeepSeek 이후 오픈웨이트 전략을 포기한 듯함
예시가 다소 선별된(cherry-picked) 것 같긴 하지만, 그래도 놀라움
OSS 모델을 워크플로우에 넣어본 입장에서 한계를 잘 알지만, 이런 결과는 프런티어 모델조차 어려운 수준임
앞으로의 발전이 기대됨
- 개인적으로 Kimi는 벤치마크보다 훨씬 “똑똑하게” 느껴지는 모델임
  아마 미국 연구소들처럼 점수 맞추기식 튜닝을 덜 해서 그런 듯함
OpenRouter 가격표를 보면 입력 100만 토큰당 $0.60, 출력 $2.50임
이 정도 성능이라면 동급 모델 대비 4배 저렴한데, 손해 보고 호스팅하는 건지, 아니면 다른 모델들이 마진이 큰 건지 궁금함
- 훈련비용을 제외하면 다른 모델들이 큰 마진을 남기고 있음
  자세한 내용은 이 글 참고
- OpenRouter의 오픈소스 모델들은 하드웨어 원가 수준으로 과금함
  일부는 보조금이 들어간 인프라에서 돌기 때문에 실제로는 수익이 남을 수도 있음
이 모델만이 최근 ‘스태킹 문제’ 를 인간처럼 해결했음
관련 글에서 9개의 달걀로 하중을 분산시키는 개념을 이해한 게 핵심임
- 하지만 누군가는 “그 문제 자체가 학습 데이터에 포함됐을 수도 있다”고 지적함
- 또 다른 사용자는 실제 대화 예시를 공유하며, 모델이 여러 번의 피드백 끝에 물리적으로 가능한 스택 구성을 찾아가는 과정을 보여줌
  결국 “책 → 병 → 노트북 → 못” 순서로 정리하며 현실적인 답을 냈음
“Reasoning model”이란 무엇인지 궁금함
단순히 시스템 프롬프트에서 scratchpad 토큰을 동적으로 사용하는 모델을 말하는 건지, 아니면 그런 방식으로 파인튜닝된 모델을 말하는 건지 헷갈림
- 후자임. 즉, 중간 사고 과정을 학습하도록 파인튜닝된 모델을 의미함
  단순히 프롬프트로 흉내 내는 것보다 훨씬 효과적임
- 보통 <think></think> 같은 토큰 안에서 내부 사고를 수행한 뒤 답변하는 모델을 뜻함
  이런 형식은 RL이나 포맷 기반 보상 학습으로 훈련됨
비사고(non-thinking) 버전이 글쓰기 품질이 가장 뛰어남
다른 프런티어 연구소들과는 다른 새로운 접근을 시도한 것 같아 기대됨
- 나는 반대로 느꼈음. 집에서 돌릴 수 있는 가장 큰 모델이라 좋아하지만, 지나치게 구조화된 출력이 오히려 인공적임
  이전 버전과 크게 다르지 않아 아쉬움
- 그래도 Kimi K2는 모델 감각이 세련되고 완성도 높음
AWS Bedrock이나 Google Vertex에서 데이터 거주성(data residency) 을 보장하며 쓸 수 있으면 좋겠음
- 이전 모델처럼 가중치가 공개되어 있으니, 곧 제3자 호스팅에서도 제공될 것 같음
  Hugging Face 링크
- 비사고 버전은 이미 Vertex AI에 등록되어 있음
  이번 모델은 순차적 도구 사용과 needle-in-a-haystack RAG 성능을 강조하는데, 실제 현업에서 가장 필요한 부분임
  참고로 Thoughtworks는 최근 text-to-sql을 보류(Hold) 상태로 옮겼음
이미 OpenRouter에서도 사용 가능함
- 다만 현재는 지연(latency) 이 심함

답변달기