# Kimi K2 Thinking, SOTA 오픈소스 트릴리언 파라미터 추론 모델

> Clean Markdown view of GeekNews topic #24194. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=24194](https://news.hada.io/topic?id=24194)
- GeekNews Markdown: [https://news.hada.io/topic/24194.md](https://news.hada.io/topic/24194.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-11-07T09:59:11+09:00
- Updated: 2025-11-07T09:59:11+09:00
- Original source: [moonshotai.github.io](https://moonshotai.github.io/Kimi-K2/thinking.html)
- Points: 2
- Comments: 1

## Topic Body

- **Kimi K2 Thinking**은 도구를 활용하며 단계별로 사고하는 **오픈소스 추론 모델**로, 복잡한 문제 해결에서 인간 수준의 사고 과정을 구현  
- **Humanity’s Last Exam(HLE)** , **BrowseComp**, **SWE-Bench Verified** 등 주요 벤치마크에서 **최신 최고 성능(SOTA)** 달성  
- 최대 **200~300회 연속 도구 호출**을 수행하며, **테스트 타임 스케일링(test-time scaling)** 을 통해 사고 토큰과 도구 호출 단계를 동시에 확장  
- **에이전틱(Agentic) 추론·검색·코딩** 영역에서 두드러진 성능을 보이며, 복잡한 수학·코딩·웹 탐색 문제를 장기적 계획으로 해결  
- **INT4 양자화 기반 추론 효율화**로 속도 2배 향상과 GPU 메모리 절감 달성, 대규모 오픈소스 모델 중 최고 수준의 효율성 확보  

---

### Kimi K2 Thinking 소개
- Kimi K2 Thinking은 Moonshot AI가 공개한 **최고 성능의 오픈소스 사고 모델**  
  - 도구 사용 중에도 단계별 추론을 수행하는 **‘thinking agent’** 구조  
  - HLE, BrowseComp 등에서 **최신 최고 성능** 기록  
- **테스트 타임 스케일링**을 통해 사고 토큰 수와 도구 호출 단계를 동시에 확장  
- 현재 [kimi.com](https://kimi.com) 채팅 모드에서 사용 가능하며, **전체 에이전틱 모드**는 곧 공개 예정  
- **API**를 통해 외부 연동 가능  

### 평가 결과
- **HLE(도구 사용)** 44.9%, **BrowseComp** 60.2%, **SWE-Bench Verified** 71.3% 달성  
- 다영역 전문 수준 문제 해결에서 **일관된 일반화 능력** 입증  
- **에이전틱 추론·검색·코딩** 전반에서 기존 모델 대비 성능 향상  

### 에이전틱 추론 (Agentic Reasoning)
- **Humanity’s Last Exam(HLE)** 에서 **44.9%** 로 최고 기록 달성  
  - 100개 이상 학문 분야의 전문가 수준 문제를 포함한 폐쇄형 벤치마크  
  - 검색·Python·웹 브라우징 도구를 병행 사용  
- **23단계의 추론 및 도구 호출**을 교차 수행하며 **박사급 수학 문제 해결** 사례 제시  
- 수백 단계의 계획·추론·실행·적응을 통해 복잡한 학술 문제 해결 가능  

### 에이전틱 코딩 (Agentic Coding)
- **SWE-Multilingual 61.1%** , **SWE-Bench Verified 71.3%** , **Terminal-Bench 47.1%** 기록  
- HTML·React 등 **프런트엔드 구성 요소 중심 작업**에서 높은 완성도  
- 도구 호출을 통한 다단계 개발 워크플로우 수행, **정확하고 유연한 코드 생성** 지원  
- 단일 프롬프트로 **웹사이트·문서 편집기 등 복합 애플리케이션** 생성 사례 제시  

### 에이전틱 검색 및 브라우징 (Agentic Search and Browsing)
- **BrowseComp 60.2%** 로 인간 기준(29.2%)을 크게 상회  
  - 실시간 웹 정보 수집 및 추론 능력 입증  
- **200~300회 연속 도구 호출**을 수행하며 **장기 계획·적응형 추론** 구현  
- “생각 → 검색 → 브라우저 사용 → 생각 → 코딩”의 반복 루프를 통해  
  **복잡한 오픈엔드 문제를 구조화된 하위 과제로 분해**  

### 일반적 능력 (General Capabilities)
- **창의적 글쓰기**: 풍부한 표현력과 감정적 깊이를 갖춘 서사 생성  
- **실용적 글쓰기**: 논리적 구조와 지시 정확성 향상, 학술·연구용 콘텐츠에 적합  
- **감정적 응답**: 공감적이고 구체적인 조언 제공, 인간적 균형감 강화  

### 추론 효율성 (Inference Efficiency)
- **INT4 가중치 전용 양자화(QAT)** 적용으로 **2배 속도 향상** 및 **메모리 절감**  
- 대규모 추론 시에도 성능 저하 없이 **정밀한 사고 과정 유지**  
- 모든 벤치마크 결과는 **INT4 정밀도 기준**으로 보고됨  

### 종합 성능 비교
- 주요 벤치마크에서 GPT‑5, Claude Sonnet 4.5, DeepSeek‑V3.2 등과 **동등 또는 우수한 성능**  
- **Reasoning·Coding·Agentic Search** 전 영역에서 **오픈소스 최고 수준** 달성  

---  
**요약:**  
Kimi K2 Thinking은 도구 기반 단계적 사고를 수행하는 **트릴리언 파라미터급 오픈소스 추론 모델**로,  
복잡한 문제 해결과 장기적 계획 수행에서 **SOTA 수준의 성능과 효율성**을 동시에 달성한 최신 AI 시스템임.

## Comments


### Comment 46021

- Author: neo
- Created: 2025-11-07T09:59:12+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=45836070) 
- `uv tool install llm`으로 **Moonshot Kimi-K2-Thinking** 모델을 설치하고, `llm -m moonshot/kimi-k2-thinking 'Generate an SVG of a pelican riding a bicycle'` 명령으로 SVG를 생성했음  
  결과물은 [이 링크](https://tools.simonwillison.net/svg-render#%3Csvg%20width%3D%22400%22...)에서 볼 수 있음  
  OpenRouter의 `moonshotai/kimi-k2-thinking`으로 실행한 결과는 [이 버전](https://tools.simonwillison.net/svg-render#%20%20%20%20%3Csvg%20width%3D%22600%22...)처럼 훨씬 정교하게 나왔음
  - OpenRouter 결과는 **양자화된(quantized)** 호스팅 제공자에서 나온 것 같음  
    Moonshot의 직접 API 호출과 비교하면 거의 **밤과 낮 수준의 차이**가 있음  
    OpenRouter가 계정 단위가 아닌 API 단위로만 양자화 제한을 걸기 때문에 사용자 경험이 다소 혼란스러움
  - 새 모델이 나올 때마다 이 **벤치마크**가 점점 상징적으로 변해가는 게 흥미로움  
    GPT-5 계열의 성능은 여전히 믿기 어렵지만, 오픈소스 모델들이 점점 더 **야심찬 시도**를 하는 게 보기 좋음
  - 혹시 실행 시 **temperature를 0으로 고정**해서 일관성을 유지한 것인지 궁금함
  - **1조 파라미터 모델**은 도대체 어디서 돌리는지 궁금함

- 경쟁이 늘고 오픈소스가 많아지는 건 좋지만, 나는 거대한 모델보다 **작은 LLM + 에이전트 조합**이 얼마나 코딩과 추론을 잘할 수 있는지가 더 흥미로움  
  로컬이나 저렴한 클러스터에서 돌릴 수 있는 게 이상적임  
  OpenAI의 원래 목표는 인류 전체의 이익이었지만 지금은 **유료 중심 구조**로 바뀌어, 부유층만 혜택을 보는 방향으로 가는 게 아쉬움
  - 이미 그런 **소형 모델 실험**은 많이 이루어지고 있음  
    하지만 결과가 아직 미흡하고, 효율적인 작은 모델을 만들 수 있었다면 대형 모델이 존재할 이유가 없었을 것임  
    물론 새로운 아이디어가 나오면 이 구도가 바뀔 수도 있음
  - 나도 예전엔 “가장 똑똑한 모델”에 집착했지만, 실제로 써보니 **작은 모델이 훨씬 빠르게** 같은 일을 처리함  
    그래서 지금은 “내 작업을 해결할 수 있는 가장 작은 모델”을 찾는 게 목표임  
    높은 벤치마크 점수는 오히려 **과잉 스펙**과 낭비의 지표로 보임
  - “오픈소스”라면 학습 데이터를 다운로드하고 **엔드투엔드로 재학습 가능한 스크립트**가 포함되어야 함  
    단순히 추론용 바이너리만 배포하면서 오픈소스라 부르는 건 잘못된 사용임
  - 왜 **전문가 단위의 초소형 모델**이 안 나오는지 이해가 안 됨  
    예를 들어 Go만 쓰는 사람에게는 Go 모델만 있으면 됨  
    여러 **전문 모델을 메모리에서 교체하며** 쓰는 구조라면 훨씬 효율적일 것 같음  
    하지만 대부분은 여전히 거대한 범용 모델을 추구함  
    나는 CoPilot 구독과 Ollama 정도만 써봤지만, 앞으로는 **1~2B 규모의 다수 모델 조합**이 대세가 될 것 같음
  - 사실 대형 모델의 발전은 대부분 **최적화와 스케일링** 덕분임  
    하지만 이런 기술이 결국 **소형 모델의 성능 향상**으로 이어짐  
    DeepSeek이 좋은 예로, 대형 모델의 혁신이 소형 모델에도 이득을 줌  
    참고로 이번 모델은 **MoE 구조**로, 한 번에 320억 파라미터만 활성화됨

- 최근 몇 달 사이 중국의 네 개 기업(DeepSeek, Qwen/Alibaba, Kimi/Moonshot, GLM/Z.ai)이 **훌륭한 오픈소스 모델**을 내놓았음  
  미국이나 유럽 기업, 심지어 Meta조차 이런 움직임이 없음. 이유가 뭘까?
  - 물론 OpenAI도 8월에 [GPT-OSS](https://openai.com/index/introducing-gpt-oss/)를 공개했음  
    Qwen 235도 좋아하지만, “오픈소스”의 정의가 **오픈웨이트인지 전체 공개인지**는 여전히 불분명함
  - 중국 기업들은 최신 GPU 접근이 제한되어 있어서 **오픈소스로 공개**하는 전략을 택함  
    반면 미국 기업들은 막대한 GPU 투자비를 **회수해야 하기 때문**에 공개를 꺼림
  - 또 다른 이유는 **프라이버시 우려**로 인해 유료 고객이 적기 때문임  
    결국 무료 공개 외에는 선택지가 없음
  - Meta는 DeepSeek 이후 **오픈웨이트 전략을 포기**한 듯함

- 예시가 다소 **선별된(cherry-picked)** 것 같긴 하지만, 그래도 놀라움  
  OSS 모델을 워크플로우에 넣어본 입장에서 한계를 잘 알지만, 이런 결과는 **프런티어 모델조차 어려운 수준**임  
  앞으로의 발전이 기대됨
  - 개인적으로 Kimi는 벤치마크보다 훨씬 **“똑똑하게” 느껴지는 모델**임  
    아마 미국 연구소들처럼 점수 맞추기식 튜닝을 덜 해서 그런 듯함

- [OpenRouter 가격표](https://openrouter.ai/moonshotai/kimi-k2-thinking)를 보면 입력 100만 토큰당 $0.60, 출력 $2.50임  
  이 정도 성능이라면 **동급 모델 대비 4배 저렴**한데, 손해 보고 호스팅하는 건지, 아니면 다른 모델들이 마진이 큰 건지 궁금함
  - 훈련비용을 제외하면 **다른 모델들이 큰 마진을 남기고 있음**  
    자세한 내용은 [이 글](https://martinalderson.com/posts/are-openai-and-anthropic-really-losing-money-on-inference/) 참고
  - OpenRouter의 오픈소스 모델들은 **하드웨어 원가 수준**으로 과금함  
    일부는 **보조금이 들어간 인프라**에서 돌기 때문에 실제로는 수익이 남을 수도 있음

- 이 모델만이 최근 **‘스태킹 문제’** 를 인간처럼 해결했음  
  [관련 글](https://medium.com/@nathanbos/gpt-4-may-have-general-intelli...)에서 9개의 달걀로 하중을 분산시키는 개념을 이해한 게 핵심임
  - 하지만 누군가는 “그 문제 자체가 **학습 데이터에 포함**됐을 수도 있다”고 지적함
  - 또 다른 사용자는 실제 대화 예시를 공유하며, 모델이 여러 번의 피드백 끝에 **물리적으로 가능한 스택 구성**을 찾아가는 과정을 보여줌  
    결국 “책 → 병 → 노트북 → 못” 순서로 정리하며 현실적인 답을 냈음

- “**Reasoning model**”이란 무엇인지 궁금함  
  단순히 시스템 프롬프트에서 **scratchpad 토큰을 동적으로 사용하는 모델**을 말하는 건지, 아니면 그런 방식으로 **파인튜닝된 모델**을 말하는 건지 헷갈림
  - 후자임. 즉, **중간 사고 과정을 학습하도록 파인튜닝된 모델**을 의미함  
    단순히 프롬프트로 흉내 내는 것보다 훨씬 효과적임
  - 보통 `&lt;think&gt;&lt;/think&gt;` 같은 토큰 안에서 **내부 사고를 수행**한 뒤 답변하는 모델을 뜻함  
    이런 형식은 RL이나 포맷 기반 보상 학습으로 훈련됨

- **비사고(non-thinking)** 버전이 글쓰기 품질이 가장 뛰어남  
  다른 프런티어 연구소들과는 다른 **새로운 접근**을 시도한 것 같아 기대됨
  - 나는 반대로 느꼈음. 집에서 돌릴 수 있는 가장 큰 모델이라 좋아하지만, **지나치게 구조화된 출력**이 오히려 인공적임  
    이전 버전과 크게 다르지 않아 아쉬움
  - 그래도 Kimi K2는 **모델 감각이 세련되고 완성도 높음**

- AWS Bedrock이나 Google Vertex에서 **데이터 거주성(data residency)** 을 보장하며 쓸 수 있으면 좋겠음
  - 이전 모델처럼 **가중치가 공개**되어 있으니, 곧 제3자 호스팅에서도 제공될 것 같음  
    [Hugging Face 링크](https://huggingface.co/moonshotai/Kimi-K2-Thinking)
  - 비사고 버전은 이미 **Vertex AI에 등록**되어 있음  
    이번 모델은 **순차적 도구 사용**과 **needle-in-a-haystack RAG** 성능을 강조하는데, 실제 현업에서 가장 필요한 부분임  
    참고로 Thoughtworks는 최근 **text-to-sql을 보류(Hold)** 상태로 옮겼음
- 이미 [OpenRouter](https://openrouter.ai/moonshotai/kimi-k2-thinking)에서도 사용 가능함
  - 다만 현재는 **지연(latency)** 이 심함