Kimi K2 - 최첨단 전문가 혼합(MoE) 언어 모델

(github.com/MoonshotAI)

4P by GN⁺ 5일전 | ★ favorite | 댓글 1개

Moonshot AI의 Kimi K2는 1조 매개변수를 가진 최첨단 믹스처오브엑스퍼트(MoE) 언어 모델임
학습 과정에서 Muon 최적화 기법을 도입하여 대규모 안정성 문제를 해결함
도구 사용, 추론, 자율적 문제 해결을 위해 에이전트 지능에 초점을 맞춤
다양한 벤치마크에서 코딩, 수학, 일반 작업에서 상위권 성능을 입증함
배포 및 활용이 편리하며, OpenAI/Anthropic 호환 API 제공 및 유연한 엔진 지원 환경임

왜 Kimi K2가 중요한가

Kimi K2는 Moonshot AI에서 개발한 최신 믹스처오브엑스퍼트(MoE) 언어 모델
1조 파라미터 규모와 혁신적인 최적화 방법(Muon)이 적용되어 대규모 언어 모델 영역에서 높은 성능과 안정성을 제공
기존 고성능 오픈소스 모델들과 비교 시, 코딩, 수학, 도구 사용 등 다양한 실제 적용 분야에서 글로벌 최첨단(SOTA) 및 오픈소스 최고 수준을 기록
대형 모델을 빠르고 안정적으로 학습하는 문제, 그리고 다양한 인공지능 활용 시나리오를 지원하는 유연성에서 강점을 가짐

1. 모델 소개

Kimi K2는 1조(1T) 전체 파라미터와 320억(32B) 활성 파라미터를 갖춘 최첨단 MoE 언어 모델임
Muon 옵티마이저를 사용해 대규모 모델 학습의 불안정을 효과적으로 해결함
도구 활용, 복잡한 추론, 자율 에이전트 등 고차원적 능력에 특화함

주요 특징

대규모 학습: 1조 파라미터 모델을 15.5조 토큰으로 사전학습하며, 학습 불안정성(unstability) 없이 진행함
MuonClip 옵티마이저: 대규모 모델에 특화된 Muon 알고리듬과 새로운 최적화 기법을 결합해 안정성 확보함
Agentic Intelligence: 도구 활용, 복잡한 추론, 자율 문제해결을 염두에 두고 설계함

모델 종류

Kimi-K2-Base: 커스텀 파인튜닝 및 연구자 활용에 적합한 기초 모델
Kimi-K2-Instruct: 채팅, 일반 에이전트 구동에 최적화된 사후학습(post-training) 모델

2. 모델 요약

아키텍처: Mixture-of-Experts (MoE)
총 파라미터: 1조(1,000,000,000,000)
활성 파라미터: 32억(32B)
레이어 수: 61 (Dense layer 포함)
Dense Layer 수: 1
Attention hidden dimension: 7168
MoE hidden dimension(전문가당) : 2048
Attention Head: 64
전문가 개수: 384
토큰당 선택되는 전문가 수: 8
공유 전문가 수: 1
어휘사이즈: 160K
컨텍스트 길이: 128K
Attention 메커니즘: MLA
활성화 함수: SwiGLU

3. 평가 결과

Instruction 모델 성능

코딩 과제, 도구 활용, 수학/이공계, 일반 작업 등 다양한 벤치마크에서 상위권 성능을 기록함
SWE-bench, LiveCodeBench, OJBench, MultiPL-E, TerminalBench, AceBench, Tau2, AIME, MATH-500 등 각종 코드·도구, 수학·논리, 일반 작업 부문에서 SOTA 또는 동급 최고 성능 보임
SWE-bench Verified에서 pass@1 65.8%, SWE-bench Multilingual에서 47.3% 기록, Agentic Coding 환경에서도 두드러진 성과 보임
MATH-500(수학), AIME, HMMT, CNMO 등 이공계 테스트에서도 탁월한 정확도
MMLU(일반지식), SimpleQA 등 다양한 일반작업에서도 경쟁 오픈소스/상용 모델 대비 상위 성능 확보함

Base 모델 성능

MMLU, TriviaQA, GPQA-Diamond 등 대표 벤치마크에서 오픈소스 동급 모델 중 최상위 성적 기록
코딩, 수학, 중국어 평가 등 대형 오픈소스 베이스모델 대비 전반적인 우위 확보함

4. 배포 및 엔진 구동

https://platform.moonshot.ai에서 Kimi K2 API(OpenAI/Anthropic 호환) 사용 가능함
Huggingface(https://huggingface.co/moonshotai/Kimi-K2-Instruct)에서도 모델 체크포인트(block-fp8) 지원함
권장 추론 엔진: vLLM, SGLang, KTransformers, TensorRT-LLM 등 다양한 환경 호환성 보유함

5. 모델 활용 예시

채팅 인터페이스

로컬 추론 서비스 실행 후, OpenAI 호환 클라이언트(Chat Completions API 등)에서 직접 상호작용 가능함
권장 temperature: 0.6, System 프롬프트도 기본 형태로 사용권장됨

도구 호출 기능

Kimi-K2-Instruct는 강력한 도구 호출(tool-calling) 능력을 가짐
사용자는 요청마다 활용 가능한 툴 리스트를 전달하면, 모델이 자율적으로 도구 사용 및 실행 시점을 판단함
파이프라인 전체에 걸친 예제 및 결과 메시지 시연 가능함
엔진의 Kimi-K2 도구 파싱 로직 지원이 필요함

6. 라이선스

코드와 모델 가중치 모두 Modified MIT License로 오픈소스 배포함

▲

GN⁺ 5일전 [-]

Hacker News 의견

Kimi를 몇 가지 코딩 문제에 사용해봤음, Claude가 틀거나 돌아가는 문제에서 꽤 잘 작동했음, 모델 크기가 엄청나게 커서 “로컬” 모델로는 적합하지 않은데, 구동에는 H200 GPU 16개 정도가 필요할 것이라 생각함, 다른 모델과 다른 개성이 좀 느껴졌고 만족스러웠음, 최소한 앙상블 사용환경에서는 유용할 것 같음
- 4비트 양자화를 사용하면 512GB Mac Studio 두 대(MLX TB4 Ring 방식, 관련 정보는 여기 링크 참고)나, 1TB RAM 이상의 Epyc 시스템 한 대에서도 실용적인 속도가 나옴, 대략 2만 달러 정도의 비용으로 실험해볼 수 있음, 하지만 진짜 프로덕션 수준의 속도를 원한다면 훨씬 강력한 하드웨어가 필요함, “로컬” 보다는 “개인 스탬프 모델” 정도로 보는 게 더 적합함
- Claude와 직접 비교하면서 몇 번 테스트해봤음, Kimi는 더 단순하고 읽기 쉬운 코드를 생성해줬는데, Claude는 오버엔지니어드된 느낌이 강했음, 단, Kimi는 Claude가 챙겼던 몇 가지 미묘한 엣지 케이스를 놓치기도 했음
- Claude라고 했는데, Sonnet? 3.7? 3.5? Opus? 4? 어느 버전인지 궁금함
- 처음으로 Kimi에 준 질문(꽤 단순한 수학적 놀이 문제였음)에 대답이 엄청나게 틀렸음, 공정하게 보자면 이 질문에 OpenAI 모델도 실패했음, 추가 프롬프트 덕분에 좀 개선하긴 했지만 의외였음
GPT 4o, DeepSeek-V3 계열처럼, 이 모델(Kimi K2)은 굉장히 인상적인 범용 LLM임, 게다가 오픈소스임, 요즘 주목을 덜 받는 이유는 최전선이 추론 및 멀티모달 모델 쪽으로 이동했기 때문이라 생각함, 정확도 벤치마크를 보면 상위권 모델이 전부 추론 특화형임(참고 링크), 만약 누군가 Kimi K2로 추론 특화 모델을 훈련한다면 그 성능이 무척 궁금함
- “Kimi k2로 추론 특화 모델을 훈련했다면”이라고 했는데, MoonshotAI에서 아마 그 작업을 진행 중일 것 같음
- 왜 Kimi의 현재나 과거 모델이 Artificial analysis 벤치마크에 아직 추가되지 않았는지 궁금함
기술적인 장점 외에도, Kimi K2는 로봇같은 느낌이 적어서 감탄하게 됨, Anthropic의 최상급 모델들처럼 성격이 쾌활하고 똑똑하며 유창함, 뻣뻣한 봇 스타일의 답변을 안 보는 작은 승리라 할 만함
내 생각엔, OpenAI의 오픈소스 모델 출시는 Kimi K2가 화제를 선점하고 수치를 이겨버려서 미뤄진 듯함
- OpenAI 쪽에서 “너무 커서 집에서 직접 호스팅은 어렵다”고 언급하기도 했으니 그게 맞을 수 있음, 지금쯤 ay OpenAI에서 벤치마크 돌려보며 “이기는” 평가 항목을 찾고 있을 듯함
- 벤치마크 기준으로 보면 Kimi K2는 여러 부문에서 GPT-4.1을 이김, OpenAI가 제대로 경쟁하려면 GPT-4.1 가중치 또는 동급 모델을 공개해야 할 텐데, 아마 그럴 가능성은 적을 것 같음
오픈소스가 아니라 “수정된 MIT 라이선스”임, 월 활성 사용자 1억 명 혹은 월 매출 2천만 달러(혹은 그 이상)의 상업 서비스에서 사용하면 서비스 UI에 “Kimi K2”를 명확하게 표시해야 한다는 조건이 붙음
- 이 조건은 Llama의 “Built with Llama” 노출 조건과 “월 활성 사용자 7억” 조항을 합친 것처럼 보임, 그리고 이걸 살짝 “변형된 MIT”처럼 포장한 셈임
- 이런 조건이 OSD(오픈소스 정의) 또는 FSF의 자유 소프트웨어 정의, Debian 기준에도 위반된다고 보지 않음, GPLv2, GPLv3, BSD 4-clause에서도 비슷한 공표 의무가 있고, 다만 사용자 수나 수익 기준은 없음, 그리고 뉴럴 네트워크는 소스코드에서 빌드되는 게 아니라서 “오픈소스”라는 말도 좀 모호함, 진짜 오픈소스에 비유하면 학습 데이터와 과정까지 공개하는 게 가까운데, 이건 수백만 달러가 드는 일이므로 컴파일과도 다름, 그래서 라이선스 문제와는 별개임
- 이 조건이 자유소프트웨어의 네 가지 기본 자유 중 어떤 점을 침해하는지 궁금함, 구체적으로 짚어줄 수 있겠는지?
- OpenStreetMap 조건보다 오히려 덜 제한적임
- 이 조건은 Google이 “각색판”을 만들어 Gemini-3.0-pro로 뽑아낼까봐 붙인 걸로 보임
나한테 K2는 산 이름이고 SOTA는 “summits on the air”라는 의미라서, 헤드라인을 보고 놀랐었음
- K2하면 나는 Kotlin 2.0 컴파일러가 먼저 떠오름, 관련 블로그 링크
새로운, 탄탄한 논리모델이 아닌 LLM이 프론티어를 확장해가는 게 마음에 듦, 이런 모델도 여전히 좋은 활용처가 있음(STEM, 논리퍼즐이 아닌 영역), 추론 토큰에 비용을 쓰고 싶지 않을 때 유용함
답변 품질이나 톤이 마음에 듦(ChatGPT나 DeepSeek에 비해 덜 공손하고 좀 더 직설적임), 다만 현 SOTA 모델(DeepSeek 포함)보다 응답 포맷을 엉키거나 놓치는 일이 더 많은 것 같음
요즘 AI 모델이 전부 em-dash(—)를 남용함, ChatGPT는 em-dash 사용하지 말라 했더니 그래도 계속 씀, 왜 이런지 아는 사람 있음?
- em-dash 쓰는 걸 좋아하는 입장에서, 이제는 LLM 특유의 투박함(sloppiness)을 드러내는 기호로 인식돼서 아쉬운 마음임

답변달기