Kimi K2 - 최첨단 전문가 혼합(MoE) 언어 모델
(github.com/MoonshotAI)- Moonshot AI의 Kimi K2는 1조 매개변수를 가진 최첨단 믹스처오브엑스퍼트(MoE) 언어 모델임
- 학습 과정에서 Muon 최적화 기법을 도입하여 대규모 안정성 문제를 해결함
- 도구 사용, 추론, 자율적 문제 해결을 위해 에이전트 지능에 초점을 맞춤
- 다양한 벤치마크에서 코딩, 수학, 일반 작업에서 상위권 성능을 입증함
- 배포 및 활용이 편리하며, OpenAI/Anthropic 호환 API 제공 및 유연한 엔진 지원 환경임
왜 Kimi K2가 중요한가
- Kimi K2는 Moonshot AI에서 개발한 최신 믹스처오브엑스퍼트(MoE) 언어 모델
- 1조 파라미터 규모와 혁신적인 최적화 방법(Muon)이 적용되어 대규모 언어 모델 영역에서 높은 성능과 안정성을 제공
- 기존 고성능 오픈소스 모델들과 비교 시, 코딩, 수학, 도구 사용 등 다양한 실제 적용 분야에서 글로벌 최첨단(SOTA) 및 오픈소스 최고 수준을 기록
- 대형 모델을 빠르고 안정적으로 학습하는 문제, 그리고 다양한 인공지능 활용 시나리오를 지원하는 유연성에서 강점을 가짐
1. 모델 소개
- Kimi K2는 1조(1T) 전체 파라미터와 320억(32B) 활성 파라미터를 갖춘 최첨단 MoE 언어 모델임
- Muon 옵티마이저를 사용해 대규모 모델 학습의 불안정을 효과적으로 해결함
- 도구 활용, 복잡한 추론, 자율 에이전트 등 고차원적 능력에 특화함
주요 특징
- 대규모 학습: 1조 파라미터 모델을 15.5조 토큰으로 사전학습하며, 학습 불안정성(unstability) 없이 진행함
- MuonClip 옵티마이저: 대규모 모델에 특화된 Muon 알고리듬과 새로운 최적화 기법을 결합해 안정성 확보함
- Agentic Intelligence: 도구 활용, 복잡한 추론, 자율 문제해결을 염두에 두고 설계함
모델 종류
- Kimi-K2-Base: 커스텀 파인튜닝 및 연구자 활용에 적합한 기초 모델
- Kimi-K2-Instruct: 채팅, 일반 에이전트 구동에 최적화된 사후학습(post-training) 모델
2. 모델 요약
- 아키텍처: Mixture-of-Experts (MoE)
- 총 파라미터: 1조(1,000,000,000,000)
- 활성 파라미터: 32억(32B)
- 레이어 수: 61 (Dense layer 포함)
- Dense Layer 수: 1
- Attention hidden dimension: 7168
- MoE hidden dimension(전문가당) : 2048
- Attention Head: 64
- 전문가 개수: 384
- 토큰당 선택되는 전문가 수: 8
- 공유 전문가 수: 1
- 어휘사이즈: 160K
- 컨텍스트 길이: 128K
- Attention 메커니즘: MLA
- 활성화 함수: SwiGLU
3. 평가 결과
Instruction 모델 성능
- 코딩 과제, 도구 활용, 수학/이공계, 일반 작업 등 다양한 벤치마크에서 상위권 성능을 기록함
- SWE-bench, LiveCodeBench, OJBench, MultiPL-E, TerminalBench, AceBench, Tau2, AIME, MATH-500 등 각종 코드·도구, 수학·논리, 일반 작업 부문에서 SOTA 또는 동급 최고 성능 보임
- SWE-bench Verified에서 pass@1 65.8%, SWE-bench Multilingual에서 47.3% 기록, Agentic Coding 환경에서도 두드러진 성과 보임
- MATH-500(수학), AIME, HMMT, CNMO 등 이공계 테스트에서도 탁월한 정확도
- MMLU(일반지식), SimpleQA 등 다양한 일반작업에서도 경쟁 오픈소스/상용 모델 대비 상위 성능 확보함
Base 모델 성능
- MMLU, TriviaQA, GPQA-Diamond 등 대표 벤치마크에서 오픈소스 동급 모델 중 최상위 성적 기록
- 코딩, 수학, 중국어 평가 등 대형 오픈소스 베이스모델 대비 전반적인 우위 확보함
4. 배포 및 엔진 구동
- https://platform.moonshot.ai에서 Kimi K2 API(OpenAI/Anthropic 호환) 사용 가능함
- Huggingface(https://huggingface.co/moonshotai/Kimi-K2-Instruct)에서도 모델 체크포인트(block-fp8) 지원함
- 권장 추론 엔진: vLLM, SGLang, KTransformers, TensorRT-LLM 등 다양한 환경 호환성 보유함
5. 모델 활용 예시
채팅 인터페이스
- 로컬 추론 서비스 실행 후, OpenAI 호환 클라이언트(Chat Completions API 등)에서 직접 상호작용 가능함
- 권장 temperature: 0.6, System 프롬프트도 기본 형태로 사용권장됨
도구 호출 기능
- Kimi-K2-Instruct는 강력한 도구 호출(tool-calling) 능력을 가짐
- 사용자는 요청마다 활용 가능한 툴 리스트를 전달하면, 모델이 자율적으로 도구 사용 및 실행 시점을 판단함
- 파이프라인 전체에 걸친 예제 및 결과 메시지 시연 가능함
- 엔진의 Kimi-K2 도구 파싱 로직 지원이 필요함
6. 라이선스
- 코드와 모델 가중치 모두 Modified MIT License로 오픈소스 배포함
Hacker News 의견
- Kimi를 몇 가지 코딩 문제에 사용해봤음, Claude가 틀거나 돌아가는 문제에서 꽤 잘 작동했음, 모델 크기가 엄청나게 커서 “로컬” 모델로는 적합하지 않은데, 구동에는 H200 GPU 16개 정도가 필요할 것이라 생각함, 다른 모델과 다른 개성이 좀 느껴졌고 만족스러웠음, 최소한 앙상블 사용환경에서는 유용할 것 같음
- 4비트 양자화를 사용하면 512GB Mac Studio 두 대(MLX TB4 Ring 방식, 관련 정보는 여기 링크 참고)나, 1TB RAM 이상의 Epyc 시스템 한 대에서도 실용적인 속도가 나옴, 대략 2만 달러 정도의 비용으로 실험해볼 수 있음, 하지만 진짜 프로덕션 수준의 속도를 원한다면 훨씬 강력한 하드웨어가 필요함, “로컬” 보다는 “개인 스탬프 모델” 정도로 보는 게 더 적합함
- Claude와 직접 비교하면서 몇 번 테스트해봤음, Kimi는 더 단순하고 읽기 쉬운 코드를 생성해줬는데, Claude는 오버엔지니어드된 느낌이 강했음, 단, Kimi는 Claude가 챙겼던 몇 가지 미묘한 엣지 케이스를 놓치기도 했음
- Claude라고 했는데, Sonnet? 3.7? 3.5? Opus? 4? 어느 버전인지 궁금함
- 처음으로 Kimi에 준 질문(꽤 단순한 수학적 놀이 문제였음)에 대답이 엄청나게 틀렸음, 공정하게 보자면 이 질문에 OpenAI 모델도 실패했음, 추가 프롬프트 덕분에 좀 개선하긴 했지만 의외였음
- GPT 4o, DeepSeek-V3 계열처럼, 이 모델(Kimi K2)은 굉장히 인상적인 범용 LLM임, 게다가 오픈소스임, 요즘 주목을 덜 받는 이유는 최전선이 추론 및 멀티모달 모델 쪽으로 이동했기 때문이라 생각함, 정확도 벤치마크를 보면 상위권 모델이 전부 추론 특화형임(참고 링크), 만약 누군가 Kimi K2로 추론 특화 모델을 훈련한다면 그 성능이 무척 궁금함
- “Kimi k2로 추론 특화 모델을 훈련했다면”이라고 했는데, MoonshotAI에서 아마 그 작업을 진행 중일 것 같음
- 왜 Kimi의 현재나 과거 모델이 Artificial analysis 벤치마크에 아직 추가되지 않았는지 궁금함
- 기술적인 장점 외에도, Kimi K2는 로봇같은 느낌이 적어서 감탄하게 됨, Anthropic의 최상급 모델들처럼 성격이 쾌활하고 똑똑하며 유창함, 뻣뻣한 봇 스타일의 답변을 안 보는 작은 승리라 할 만함
- 내 생각엔, OpenAI의 오픈소스 모델 출시는 Kimi K2가 화제를 선점하고 수치를 이겨버려서 미뤄진 듯함
- OpenAI 쪽에서 “너무 커서 집에서 직접 호스팅은 어렵다”고 언급하기도 했으니 그게 맞을 수 있음, 지금쯤 ay OpenAI에서 벤치마크 돌려보며 “이기는” 평가 항목을 찾고 있을 듯함
- 벤치마크 기준으로 보면 Kimi K2는 여러 부문에서 GPT-4.1을 이김, OpenAI가 제대로 경쟁하려면 GPT-4.1 가중치 또는 동급 모델을 공개해야 할 텐데, 아마 그럴 가능성은 적을 것 같음
- 오픈소스가 아니라 “수정된 MIT 라이선스”임, 월 활성 사용자 1억 명 혹은 월 매출 2천만 달러(혹은 그 이상)의 상업 서비스에서 사용하면 서비스 UI에 “Kimi K2”를 명확하게 표시해야 한다는 조건이 붙음
- 이 조건은 Llama의 “Built with Llama” 노출 조건과 “월 활성 사용자 7억” 조항을 합친 것처럼 보임, 그리고 이걸 살짝 “변형된 MIT”처럼 포장한 셈임
- 이런 조건이 OSD(오픈소스 정의) 또는 FSF의 자유 소프트웨어 정의, Debian 기준에도 위반된다고 보지 않음, GPLv2, GPLv3, BSD 4-clause에서도 비슷한 공표 의무가 있고, 다만 사용자 수나 수익 기준은 없음, 그리고 뉴럴 네트워크는 소스코드에서 빌드되는 게 아니라서 “오픈소스”라는 말도 좀 모호함, 진짜 오픈소스에 비유하면 학습 데이터와 과정까지 공개하는 게 가까운데, 이건 수백만 달러가 드는 일이므로 컴파일과도 다름, 그래서 라이선스 문제와는 별개임
- 이 조건이 자유소프트웨어의 네 가지 기본 자유 중 어떤 점을 침해하는지 궁금함, 구체적으로 짚어줄 수 있겠는지?
- OpenStreetMap 조건보다 오히려 덜 제한적임
- 이 조건은 Google이 “각색판”을 만들어 Gemini-3.0-pro로 뽑아낼까봐 붙인 걸로 보임
- 나한테 K2는 산 이름이고 SOTA는 “summits on the air”라는 의미라서, 헤드라인을 보고 놀랐었음
- K2하면 나는 Kotlin 2.0 컴파일러가 먼저 떠오름, 관련 블로그 링크
- 새로운, 탄탄한 논리모델이 아닌 LLM이 프론티어를 확장해가는 게 마음에 듦, 이런 모델도 여전히 좋은 활용처가 있음(STEM, 논리퍼즐이 아닌 영역), 추론 토큰에 비용을 쓰고 싶지 않을 때 유용함
- “오픈소스”라니, 실상은 오픈 웨이트임, 언제나처럼 데이터셋, 학습 스크립트 등은 제공하지 않음
- 지금은 오픈 웨이트조차 아님, 웨이트 공개에 “수정된 MIT 라이선스” 조건임(상술)
- 현행 저작권 체계로는 SOTA 모델 훈련에 저작권 텍스트 없이 개발이 현실적으로 불가능함, 이걸 어떻게 유통할 수 있을지 궁금함
- 답변 품질이나 톤이 마음에 듦(ChatGPT나 DeepSeek에 비해 덜 공손하고 좀 더 직설적임), 다만 현 SOTA 모델(DeepSeek 포함)보다 응답 포맷을 엉키거나 놓치는 일이 더 많은 것 같음
- 요즘 AI 모델이 전부 em-dash(—)를 남용함, ChatGPT는 em-dash 사용하지 말라 했더니 그래도 계속 씀, 왜 이런지 아는 사람 있음?
- em-dash 쓰는 걸 좋아하는 입장에서, 이제는 LLM 특유의 투박함(sloppiness)을 드러내는 기호로 인식돼서 아쉬운 마음임