Kimi K2 Thinking, SOTA 오픈소스 트릴

▲

GN⁺ 6달전 | parent | ★ favorite | on: Kimi K2 Thinking, SOTA 오픈소스 트릴리언 파라미터 추론 모델(moonshotai.github.io)

Hacker News 의견

uv tool install llm으로 Moonshot Kimi-K2-Thinking 모델을 설치하고, llm -m moonshot/kimi-k2-thinking 'Generate an SVG of a pelican riding a bicycle' 명령으로 SVG를 생성했음
결과물은 이 링크에서 볼 수 있음
OpenRouter의 moonshotai/kimi-k2-thinking으로 실행한 결과는 이 버전처럼 훨씬 정교하게 나왔음
- OpenRouter 결과는 양자화된(quantized) 호스팅 제공자에서 나온 것 같음
  Moonshot의 직접 API 호출과 비교하면 거의 밤과 낮 수준의 차이가 있음
  OpenRouter가 계정 단위가 아닌 API 단위로만 양자화 제한을 걸기 때문에 사용자 경험이 다소 혼란스러움
- 새 모델이 나올 때마다 이 벤치마크가 점점 상징적으로 변해가는 게 흥미로움
  GPT-5 계열의 성능은 여전히 믿기 어렵지만, 오픈소스 모델들이 점점 더 야심찬 시도를 하는 게 보기 좋음
- 혹시 실행 시 temperature를 0으로 고정해서 일관성을 유지한 것인지 궁금함
- 1조 파라미터 모델은 도대체 어디서 돌리는지 궁금함
경쟁이 늘고 오픈소스가 많아지는 건 좋지만, 나는 거대한 모델보다 작은 LLM + 에이전트 조합이 얼마나 코딩과 추론을 잘할 수 있는지가 더 흥미로움
로컬이나 저렴한 클러스터에서 돌릴 수 있는 게 이상적임
OpenAI의 원래 목표는 인류 전체의 이익이었지만 지금은 유료 중심 구조로 바뀌어, 부유층만 혜택을 보는 방향으로 가는 게 아쉬움
- 이미 그런 소형 모델 실험은 많이 이루어지고 있음
  하지만 결과가 아직 미흡하고, 효율적인 작은 모델을 만들 수 있었다면 대형 모델이 존재할 이유가 없었을 것임
  물론 새로운 아이디어가 나오면 이 구도가 바뀔 수도 있음
- 나도 예전엔 “가장 똑똑한 모델”에 집착했지만, 실제로 써보니 작은 모델이 훨씬 빠르게 같은 일을 처리함
  그래서 지금은 “내 작업을 해결할 수 있는 가장 작은 모델”을 찾는 게 목표임
  높은 벤치마크 점수는 오히려 과잉 스펙과 낭비의 지표로 보임
- “오픈소스”라면 학습 데이터를 다운로드하고 엔드투엔드로 재학습 가능한 스크립트가 포함되어야 함
  단순히 추론용 바이너리만 배포하면서 오픈소스라 부르는 건 잘못된 사용임
- 왜 전문가 단위의 초소형 모델이 안 나오는지 이해가 안 됨
  예를 들어 Go만 쓰는 사람에게는 Go 모델만 있으면 됨
  여러 전문 모델을 메모리에서 교체하며 쓰는 구조라면 훨씬 효율적일 것 같음
  하지만 대부분은 여전히 거대한 범용 모델을 추구함
  나는 CoPilot 구독과 Ollama 정도만 써봤지만, 앞으로는 1~2B 규모의 다수 모델 조합이 대세가 될 것 같음
- 사실 대형 모델의 발전은 대부분 최적화와 스케일링 덕분임
  하지만 이런 기술이 결국 소형 모델의 성능 향상으로 이어짐
  DeepSeek이 좋은 예로, 대형 모델의 혁신이 소형 모델에도 이득을 줌
  참고로 이번 모델은 MoE 구조로, 한 번에 320억 파라미터만 활성화됨
최근 몇 달 사이 중국의 네 개 기업(DeepSeek, Qwen/Alibaba, Kimi/Moonshot, GLM/Z.ai)이 훌륭한 오픈소스 모델을 내놓았음
미국이나 유럽 기업, 심지어 Meta조차 이런 움직임이 없음. 이유가 뭘까?
- 물론 OpenAI도 8월에 GPT-OSS를 공개했음
  Qwen 235도 좋아하지만, “오픈소스”의 정의가 오픈웨이트인지 전체 공개인지는 여전히 불분명함
- 중국 기업들은 최신 GPU 접근이 제한되어 있어서 오픈소스로 공개하는 전략을 택함
  반면 미국 기업들은 막대한 GPU 투자비를 회수해야 하기 때문에 공개를 꺼림
- 또 다른 이유는 프라이버시 우려로 인해 유료 고객이 적기 때문임
  결국 무료 공개 외에는 선택지가 없음
- Meta는 DeepSeek 이후 오픈웨이트 전략을 포기한 듯함
예시가 다소 선별된(cherry-picked) 것 같긴 하지만, 그래도 놀라움
OSS 모델을 워크플로우에 넣어본 입장에서 한계를 잘 알지만, 이런 결과는 프런티어 모델조차 어려운 수준임
앞으로의 발전이 기대됨
- 개인적으로 Kimi는 벤치마크보다 훨씬 “똑똑하게” 느껴지는 모델임
  아마 미국 연구소들처럼 점수 맞추기식 튜닝을 덜 해서 그런 듯함
OpenRouter 가격표를 보면 입력 100만 토큰당 $0.60, 출력 $2.50임
이 정도 성능이라면 동급 모델 대비 4배 저렴한데, 손해 보고 호스팅하는 건지, 아니면 다른 모델들이 마진이 큰 건지 궁금함
- 훈련비용을 제외하면 다른 모델들이 큰 마진을 남기고 있음
  자세한 내용은 이 글 참고
- OpenRouter의 오픈소스 모델들은 하드웨어 원가 수준으로 과금함
  일부는 보조금이 들어간 인프라에서 돌기 때문에 실제로는 수익이 남을 수도 있음
이 모델만이 최근 ‘스태킹 문제’ 를 인간처럼 해결했음
관련 글에서 9개의 달걀로 하중을 분산시키는 개념을 이해한 게 핵심임
- 하지만 누군가는 “그 문제 자체가 학습 데이터에 포함됐을 수도 있다”고 지적함
- 또 다른 사용자는 실제 대화 예시를 공유하며, 모델이 여러 번의 피드백 끝에 물리적으로 가능한 스택 구성을 찾아가는 과정을 보여줌
  결국 “책 → 병 → 노트북 → 못” 순서로 정리하며 현실적인 답을 냈음
“Reasoning model”이란 무엇인지 궁금함
단순히 시스템 프롬프트에서 scratchpad 토큰을 동적으로 사용하는 모델을 말하는 건지, 아니면 그런 방식으로 파인튜닝된 모델을 말하는 건지 헷갈림
- 후자임. 즉, 중간 사고 과정을 학습하도록 파인튜닝된 모델을 의미함
  단순히 프롬프트로 흉내 내는 것보다 훨씬 효과적임
- 보통 <think></think> 같은 토큰 안에서 내부 사고를 수행한 뒤 답변하는 모델을 뜻함
  이런 형식은 RL이나 포맷 기반 보상 학습으로 훈련됨
비사고(non-thinking) 버전이 글쓰기 품질이 가장 뛰어남
다른 프런티어 연구소들과는 다른 새로운 접근을 시도한 것 같아 기대됨
- 나는 반대로 느꼈음. 집에서 돌릴 수 있는 가장 큰 모델이라 좋아하지만, 지나치게 구조화된 출력이 오히려 인공적임
  이전 버전과 크게 다르지 않아 아쉬움
- 그래도 Kimi K2는 모델 감각이 세련되고 완성도 높음
AWS Bedrock이나 Google Vertex에서 데이터 거주성(data residency) 을 보장하며 쓸 수 있으면 좋겠음
- 이전 모델처럼 가중치가 공개되어 있으니, 곧 제3자 호스팅에서도 제공될 것 같음
  Hugging Face 링크
- 비사고 버전은 이미 Vertex AI에 등록되어 있음
  이번 모델은 순차적 도구 사용과 needle-in-a-haystack RAG 성능을 강조하는데, 실제 현업에서 가장 필요한 부분임
  참고로 Thoughtworks는 최근 text-to-sql을 보류(Hold) 상태로 옮겼음
이미 OpenRouter에서도 사용 가능함
- 다만 현재는 지연(latency) 이 심함