Kimi K2.6가 코딩 챌린지에서 Claude, GP

▲

GN⁺ 4시간전 | parent | ★ favorite | on: Kimi K2.6가 코딩 챌린지에서 Claude, GPT-5.5, Gemini를 이김(thinkpol.ca)

Hacker News 의견들

앞으로 1년은 이런 글이 계속 나올 것 같음. 모델을 객관적으로 비교할 방법이 없기 때문임. 토큰 생성 속도, 평균 추론 토큰 수, 매개변수 수, 활성 전문가 수 같은 낮은 수준의 숫자를 빼면 모델마다 쓰임새도 다르고, 사용자도 다르고, 결정적이지도 않음
그래서 “이 모델이 저 모델을 이겼다”는 벤치마크와 선언이 계속 나오겠지만, 최고의 모델은 없음. 각자 기준에 맞는 모델만 있을 뿐이고, 결국 Windows vs MacOS vs Linux처럼 각자 진영에 머무는 세계가 될 가능성이 큼
- 핵심은 모델 비교 방식이 아니라 Kimi K2.6와 DeepSeek v4 Pro가 Opus와 거의 동급이라는 점이고, 그 자체로 꽤 큰 일임
  이들은 오픈소스이고 미국 모델보다 토큰당 비용이 훨씬 낮음. 지금 $20 Ollama 클라우드 플랜으로 쓰는데, Claude Pro $20 플랜에서는 프롬프트 한두 번이면 한계에 닿던 사이드 프로젝트 작업을 실제로 할 수 있음. Ollama는 CLI가 편해서 고른 것뿐이고, 이 모델들을 제공하는 업체가 많아 나쁜 조건이나 사용 규칙에 묶이지도 않음. 미국 경제에는 꽤 나쁜 신호로 봄
- 모델을 비교할 객관적인 방법은 있음. 반복 표본 추출과 통계 분석으로 결과가 앞으로도 유지될지, 단순한 우연인지 판단해야 함
  각 모델을 예상 작업에 맞게 최대 성능이 나오도록 미세조정하면, 서로 다른 벤치마크의 순위도 상당히 높은 정도로 일치함: https://arxiv.org/abs/2507.05195
  그런데 이 글의 작성자는 그런 절차를 하지 않았음. 각 모델을 지금까지 13개 문제에 한 번씩만 돌리고, 그중 12번째 문제 결과를 강조했을 뿐임. 이건 p값을 생각해보지도 않았으니 p-hacking이라고 부르기도 어려움. 대규모 언어 모델 품질은 실행마다 크게 흔들리므로, 각 모델을 한 번만 돌리는 것은 동전 두 개를 한 번 던져 하나는 앞면, 하나는 뒷면이 나왔다고 어느 동전이 더 편향됐는지 말하는 것과 비슷함
- 일부 동의하지만, 지표를 비교 가능하게 만들려는 작업은 진행 중임. 예를 들면: https://ghzhang233.github.io/blog/2026/03/05/train-before-te...
  아직 널리 채택되지는 않았고, 각 이해관계자 입장에서는 당분간 그렇게 남아 있는 편이 유리할 수도 있음. 사실상 p-hacking과 비슷함
- 내 대규모 언어 모델 사용 사례와 에이전트형 실행 환경은 꽤 제한적이라, 새 모델이나 실행 도구가 나오면 내 사용 사례 한두 개만 시험해보고 주관적 판단을 한 뒤 대부분의 벤치마크는 무시함
  블로그와 글쓰기는 그 자체로 사업이거나 기술 주변 사업에 트래픽을 공급하고, 평가 글 중 상당수는 관심을 끌기 위한 것임. 그 자체가 나쁘진 않지만 잡음이 많음
- 결국 사람을 채용하는 것과 비슷한 위치에 이를 것 같음. 이력서, 즉 벤치마크는 볼 수 있지만 실제로 6개월 같이 일해보기 전에는 확신할 수 없음
  업계는 한 소프트웨어 엔지니어가 다른 엔지니어보다 객관적으로 더 나은지 거의 어떤 차원에서도 판단하지 못함. 그런데 왜 모델에는 객관적 순위를 매길 수 있다고 생각하는지 모르겠음
객관적으로 채점되는 테스트 쪽으로 이동하는 건 반가움
우리는 https://gertlabs.com/rankings에서 이를 대규모로 해왔고, 글쓴이는 일회성 표본을 돌린 것으로 보이지만 Kimi K2.6의 성능이 좋은 건 놀랍지 않음. 우리 테스트 기준으로 특히 코딩에서는 Kimi가 오픈 가중치 모델 중 최상위인 MiMo V2.5 Pro와 통계적 불확실성 범위 안에 있고, 도구 사용에서는 DeepSeek V4 Pro보다 훨씬 낫게 나옴. GPT 5.5가 여유 있게 앞서지만 Kimi는 Opus 4.6과 동급이거나 더 나음. 다만 Kimi 2.6의 문제는 우리가 테스트한 모델 중 느린 편이라는 점임
- 객관적으로 채점될 수는 있지만, 이게 누군가의 코딩 능력을 보여주지는 않음. 이 테스트는 어떤 모델이 다른 봇들을 상대로 거의 우연히 가장 좋은 전략을 떠올렸는지를 재는 것에 가까움
  코딩을 대표하려면 이런 퍼즐을 100개 이상, 퍼즐 스펙트럼 전반에 걸쳐 테스트해야 영어 사전을 활용한 전략을 누가 더 잘 찾는지 알 수 있음
- 에이전트형 작업 흐름에서는 Qwen Flash와 DeepSeek Flash 모델이 꽤 좋은 것 같음
  어제 여기서 Flash 모델들이 도구 호출을 더 잘한다는 댓글과도 맞아떨어짐. GPT 5.5로 계획을 세우고 Flash 모델로 구현하는 조합이 가성비 좋은 경로일 수 있음
- 내 경험상 벤치마크는 꽤 무의미함
  성능은 언어와 작업뿐 아니라 사용한 프롬프트와 기대 결과에도 좌우됨. 내부 테스트에서 GPT 5.5와 Opus 4.7 중 어느 쪽이 더 나은지 판단하기가 정말 어려웠음. 스타일이 다르고 결국 취향에 가까움. 어떤 때는 한 모델에 승리를 줬다가 다시 생각하고 마음을 바꾸기도 했음. 결국은 Opus 4.7을 약간 더 선호함
- 테스트와 결과가 오픈소스인가?
- 왜 사람에 대한 문맥 크기 측정값은 제공할 수 없는지 궁금함. 충분히 좋은 근삿값을 만들 정도의 과학은 있을 것 같은데
며칠 전 읽은 연구에 따르면 현재 속도라면 오픈소스 모델이 몇 년 안에 클라우드 모델을 넘어설 것으로 예상됨
몇 년 전 ChatGPT와 Claude를 돌아보면, 아주 작은 Qwen 모델도 당시 클라우드 기반 모델이 하던 코딩과 거의 동등함. 확장 법칙까지 고려하면 9B에서 18B로 가는 건 대략 40% 증가지만 18B에서 35B는 20% 정도라, 클라우드 기반 모델은 적어도 가격 변화가 생길 것 같음. Adobe도 예전엔 월 $600였지만 배포 규모가 커지자 $20가 됐음
- 그건 말이 안 되고, 유효한 조건을 훨씬 넘어 추세를 외삽하는 냄새가 남
  단순한 진실은 클라우드 모델이 항상 오픈 모델보다 엄격히 우월할 수밖에 없다는 것임. 클라우드 모델 업체들도 같은 오픈 모델을 돌릴 수 있기 때문임. 게다가 전문 하드웨어로 가득 찬 대형 데이터센터를 운영하는 규모의 경제와 효율성도 유지함. 최소한 누구의 전기요금보다도 낮은 토큰당 가격으로 오픈 모델을 제공할 수 있음. 그 위에 모델과 주변 시스템을 연구하는 인력도 있고, GitHub에서 유행하는 도구보다 항상 앞선 실행 환경을 유지하도록 최고 엔지니어를 투입할 여력도 있음
- 그럴 수도 있지만 하드웨어 쪽이 걱정됨
  충분히 좋은 모델이 있더라도, 클라우드 모델 제공자들이 추론용 하드웨어 조달을 더 잘한다면 어떻게 될까?
- “Adobe가 월 $600였다가 배포가 확장되면서 $20가 됐다”는 어떤 제품을 말하는 건지 모르겠음. Adobe에 그렇게 비싼 상품이 있었다는 얘기는 못 들어봄
- 월 $600? 평생 라이선스 1회 구매 $600을 말하는 건가? 그렇게 비싼 Adobe 플랜은 들어본 적이 없음
- 읽었다는 연구 링크가 있으면 공유해줬으면 함
Kimi는 정말 좋음
컴파일러/가상머신 프로젝트에서 Sonnet과 DeepSeek, ChatGPT, MiniMax, Qwen 등을 써봤는데, Claude Pro 플랜은 진지한 코딩 작업에는 거의 못 쓸 수준임. 그래서 브라우저 채팅 모드로 써서 프로젝트 전체를 불필요하게 읽지 못하게 하고, Kimi는 OpenCode Go 플랜에서 pi와 함께 사용함. C+Python 프로젝트에서는 Kimi가 Sonnet을 꾸준히 앞섰고, 요청한 것 외의 행동을 할까 걱정한 적이 없음. GLM은 한두 번 크게 망가졌지만 Kimi는 그러지 않았음
- “Claude Pro 플랜은 진지한 코딩 작업에 거의 못 쓴다”는 게 왜 그런지 궁금함. 진지한 코딩에 Claude Pro를 주로 쓴다는 대중적 평가와는 정반대처럼 보임
단일 과제에서, 해법의 성능으로만 측정한 결과임
Kimi K2.6는 확실히 프런티어급 크기의 모델이라 닫힌 프런티어 모델들과 나란히 있는 게 아주 놀랍지는 않음. 오픈이라는 점은 좋지만, 소비자용 GPU 한 장만 있는 내게는 그렇게 큰 의미는 없음
- 오픈소스의 가치는 내가 로컬에서 돌릴 수 있다는 데 있지 않고, 누군가가 실행할 수 있다는 데 있음
  대형 오픈소스 모델을 돌릴 하드웨어를 살 여유가 없어도, 누군가는 살 것이고 닫힌 모델 비용의 절반에 가격을 매겨도 이익을 낼 수 있음. 지금 그 일이 안 보이는 유일한 이유는 현재 선두 토큰 제공자들이 추론 비용을 보조하고 있기 때문임. 그들이 품질 저하와 수익화 압박을 시작하는 순간 대안 시장이 가능해짐. 오픈소스 모델이 없으면 실질적 대안도 없음. 개발자 비용의 80%만 받으려 해도, 크게 뒤처지지 않은 오픈소스 모델의 존재가 강제력으로 작용함. 그들에게 해자는 없음
- 당연히 의미 있음. 그래서 Anthropic과 OpenAI의 코딩 플랜보다 훨씬 저렴한 플랜이 가능해짐
  개인용으로 GLM 5.1, Kimi K2.6, MiniMax M2.7, Xiaomi MiMo V2.5 Pro 코딩 플랜을 쓰고 있는데 가성비가 매우 좋음
- 정말 중요함
  품질 저하는 처음엔 눈에 띄지 않겠지만, 이미 내가 좋아하던 프런티어 모델들이 심하게 약화되어 예전에는 안 하던 멍청한 행동을 하는 걸 보고 있음. 우리가 점점 더 의존하는 만큼, 안정적인 플랫폼 역할을 할 오픈 가중치 모델이 필요함
- 미래는 이쪽임. H200에서 돌아가는 오픈 가중치 모델은 제품과 실제 인프라를 만들 기회를 훨씬 많이 제공함
  집의 작은 RTX용으로는 언제든 증류하면 됨. 하지만 소비자 하드웨어에 맞춘 모델은 넓게 채택되거나 프런티어 연구소와 경쟁력을 유지하기 어려움. 이건 경쟁할 수 있는 형태이고, 추론을 실행할 새로운 세대의 오픈 클라우드 인프라를 필요로 하며 또 자극할 것임. 처음에는 “버튼 눌러 배포”, “버튼 눌러 미세조정” 같은 제품이 나오고, 이후에는 API 뒤에 잠기지 않은 오픈 가중치만 가능한 훨씬 고급 제품이 나올 수 있음. 이제 오픈 가중치 Nano Banana Pro / GPT Image 2, Seedance 2.0에 해당하는 모델만 있으면 됨. 전투와 초점은 데이터센터용 오픈 가중치에 맞춰져야 함
순위를 보고 놀랐는데 테스트 내용을 읽고 나니 이해됐음. 코딩과는 크게 관련 없어 보임
전체 테스트의 현재 순위는 더 말이 됨. Gemini가 잘하는 정도만 빼면: https://aicc.rayonnant.ai
- 순위 세부 내역을 보면 Kimi K2.6는 최근 5개 챌린지에만 참가했음. 그전에는 Claude가 지배했고, 최근 5개만 세면 Kimi가 1위임
- 금메달 순위는 모든 모델이 모든 테스트에 참가했을 때만 의미가 있음
  DNP는 참가하지 않았다는 뜻임. 이 관점에서는 Kimi가 Claude보다 더 많고 더 좋은 메달을 얻었음
- 저 많은 모델을 다루는 사이트가 모바일에서 반응형이 아니라니 아이러니함
- 제공한 링크는 사실상 Kimi의 우위를 확인해줌
일화적이지만, 지난 몇 달간 Claude Code만 쓰다가 Pi + Kimi K2.6의 능력에 기분 좋게 놀랐음. OpenRouter를 통해 쓰면 훨씬 빠르고 비용도 훨씬 낮음
안타깝게도 Kimi는 GPT나 Opus에 전혀 근접하지 못함. 정말 그러길 바라지만 아님
모델이 3D 모델을 생성하는 코드를 만들어야 하는 평가를 돌리고 있는데, 공간 이해가 부족하고 성공하기 전까지 코드 오류를 훨씬 많이 내는 게 분명함. 여기저기 특정 사례에서는 더 나을 수 있고, 이 블로그 글이 그런 예시라고 봄
- 약간 주제 밖이지만, 지난 몇 주간 DeepSeek V4 Pro를 써보니 대체로 Opus와 동급임. 다만 Blender를 다룰 때는 예외임
  이건 시각 문제도 아님. DeepSeek는 멀티모달이 아닌데, 이유는 모르겠지만 Opus가 Blender API를 훨씬 더 잘 이해함. 닫힌 프런티어 모델이 약간 더 잘하는 작은 영역들이 늘 있는 것 같음
- 공정하게 말하면 모두가 3D 모델을 필요로 하지는 않음
이건 Kimi가 Claude보다 코딩을 더 잘한다기보다는, 특정 게임의 올바른 전략을 Kimi가 찾은 것에 가까워 보임
그래도 흥미롭긴 함. 오픈 가중치 모델이 그 차이가 의미 있을 정도로 가까워졌다는 사실이 진짜 핵심일 가능성이 큼
AI 분야를 잘 알지는 못하지만, 어떤 모델이든 모든 사람에게 모든 것을 해주도록 훈련하려는 건 정말 어리석은 생각처럼 보임
막대한 재원이 필요하고, AI 회사가 쓰는 모든 자원, 즉 RAM, SSD, 데이터센터 등에 극심한 부족과 시장 왜곡을 일으킴. 현실에서 배관공을 고용하면서 조경, 자동차 수리, 옷 수선까지 기대하지는 않음. 예를 들어 셸, Python, C 코딩에 특화된 앱을 내려받을 수 있거나, 심지어 그런 앱 3개가 서로 통신하는 편이 자원 활용 면에서 훨씬 나아 보임. 16GB RAM 일반 머신에서도 돌릴 수 있을지 모름. Fortran, COBOL, Lisp까지 코딩할 수 있는 거대 모델 하나가 꼭 필요한 건 아님. 인간은 전문화로 꽤 잘해왔고, 현재의 “하나의 모델이 모든 것을 지배하며 국가 규모 데이터센터에서만 돌아가는” 경로보다 작고 집중된 AI 모델이 더 많이 탐구되길 바람
- 기본적으로는 맞지만, 그렇지 않은 경우도 있음
  GPT-3 이후로 사람들은 어떤 모델도 그렇게 범용적일 수 없으니 미세조정이 좋다고 주장해왔지만, 세대가 지날수록 그 말이 덜 맞아지고 있음