# Kimi K2.6가 코딩 챌린지에서 Claude, GPT-5.5, Gemini를 이김

> Clean Markdown view of GeekNews topic #29138. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=29138](https://news.hada.io/topic?id=29138)
- GeekNews Markdown: [https://news.hada.io/topic/29138.md](https://news.hada.io/topic/29138.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-05-04T09:50:00+09:00
- Updated: 2026-05-04T09:50:00+09:00
- Original source: [thinkpol.ca](https://thinkpol.ca/2026/04/30/an-open-weights-chinese-model-just-beat-claude-gpt-5-5-and-gemini-in-a-programming-challenge/)
- Points: 5
- Comments: 1

## Topic Body

- Moonshot AI의 오픈 가중치 모델 **Kimi K2.6**가 [AI Coding Contest](https://aicc.rayonnant.ai/) Day 12의 [Word Gem Puzzle](https://aicc.rayonnant.ai/challenges/word-gem-puzzle/)에서 22 매치 포인트와 7-1-0 기록으로 우승함
- Xiaomi의 **MiMo V2-Pro**가 20점으로 2위, ChatGPT GPT-5.5가 16점으로 3위, GLM 5.1이 15점으로 4위, Claude Opus 4.7이 12점으로 5위를 기록했고 Anthropic, OpenAI, Google, xAI 모델은 모두 상위 2개 모델보다 낮았음
- **Word Gem Puzzle**은 10×10부터 30×30까지의 슬라이딩 타일 문자 퍼즐로, 7자 미만 단어에는 벌점이 있고 7자 이상 단어는 `길이 - 6`점으로 계산되며 각 모델 쌍은 격자 크기별 5라운드를 10초 제한으로 진행함
- **Kimi K2.6**는 양수 가치 단어를 여는 이동을 반복 선택하는 탐욕적 슬라이딩으로 누적 77점을 냈고, MiMo V2-Pro는 실제로 슬라이드하지 않고 초기 격자의 7자 이상 단어를 한 번에 제출해 누적 43점으로 2위에 오름
- 이번 결과가 하나의 퍼즐이 일반 벤치마크를 뒤집는다는 뜻은 아니지만, **다운로드 가능한 모델**인 Kimi K2.6가 Artificial Analysis Intelligence Index에서 GPT-5.5 60점, Claude 57점에 가까운 54점을 기록한다는 점에서 경쟁 구도는 좁아졌음

---

### 대회 구성과 참가 모델
- Zhipu AI의 GLM 5.1은 4위, DeepSeek V4는 8위에 그침
- Nvidia의 **Nemotron Super 3**가 만든 코드는 문법 오류를 포함해 게임 서버에 연결하지 못했고, 실제 경쟁은 9개 모델로 진행됨
- Kimi K2.6는 2023년에 설립된 중국 스타트업 Moonshot AI의 공개 사용 가능한 오픈 가중치 모델이며, MiMo V2-Pro는 현재 API 전용임
- Xiaomi는 더 새로운 V2.5 Pro 모델의 가중치를 곧 공개한다고 [확인](https://x.com/XiaomiMiMo/status/2047840164777726076)함
- 이번 결과는 단순히 “중국이 서구를 이겼다”는 구도가 아니라, **Kimi K2.6**와 **MiMo V2-Pro**라는 두 특정 모델의 우승으로 정리됨

### Word Gem Puzzle의 규칙
- **Word Gem Puzzle**은 글자 타일과 빈칸 하나로 채워진 직사각형 격자에서 진행되는 슬라이딩 타일 문자 퍼즐임
- 격자 크기는 10×10, 15×15, 20×20, 25×25, 30×30 중 하나이며, 봇은 빈칸에 인접한 타일을 밀어 넣을 수 있음
- 봇은 언제든 수평 또는 수직 직선으로 만들어진 유효한 영어 단어를 제출할 수 있음
- 대각선 단어와 역방향 단어는 인정되지 않음
- 점수는 긴 단어에 보상을 주고 짧은 단어에 벌점을 주도록 설계됨
  - 7자 미만 단어는 점수를 잃음
  - 5자 단어는 1점 감점, 3자 단어는 3점 감점됨
  - 7자 이상 단어는 `길이 - 6`점으로 계산되어, 8자 단어는 2점이 됨
- 같은 단어는 한 번만 제출할 수 있고, 다른 봇이 먼저 제출한 단어는 점수를 얻지 못함
- 각 모델 쌍은 격자 크기별로 한 라운드씩 총 5라운드를 진행했고, 라운드당 벽시계 기준 제한 시간은 10초였음
- 격자는 실제 사전 단어를 십자말풀이식으로 배치한 뒤, 남은 칸을 Scrabble 타일 빈도에 맞춰 글자로 채우고, 마지막으로 빈칸을 섞는 방식으로 만들어짐
- 큰 보드일수록 더 강하게 섞였기 때문에 10×10에서는 많은 시드 단어가 그대로 남았지만, 30×30에서는 거의 남지 않음

### 모델별 동작과 성패 요인
- ## Kimi K2.6
  - Kimi K2.6는 적극적으로 타일을 밀어 우승했으며, 누적 점수 **77점**으로 대회 최고 점수를 기록함
  - 전략은 탐욕적이었고, 가능한 각 이동이 새로 열어주는 양수 가치 단어를 기준으로 점수를 매긴 뒤 가장 좋은 이동을 실행하고 이를 반복함
  - 양수 단어를 여는 이동이 없으면 알파벳순으로 첫 번째 합법 방향을 선택함
  - 이 방식은 빈칸을 앞뒤로 튕기며 진전이 없는 **2-cycle** 형태의 비효율적 가장자리 왕복을 만들기도 함
  - 작은 격자에서는 시드 단어가 상당히 남아 있어 이런 비효율이 손해로 이어졌지만, 30×30에서는 거의 모든 단어가 깨져 재구성이 필요했고, 많은 슬라이드 횟수가 결국 점수로 이어짐
- ## MiMo V2-Pro
  - MiMo의 슬라이딩 코드는 저장소에 있었지만, “최고 가치가 0보다 큼” 조건이 발동하지 않아 실제로는 한 번도 슬라이드하지 않음
  - 초기 격자에서 7자 이상 단어를 스캔한 뒤, 모든 제출을 하나의 TCP 패킷으로 보내는 방식으로 진행함
  - 이 전략은 섞인 뒤에도 시드 단어가 그대로 남아 있는지에 전적으로 의존하는 취약한 방식이었음
  - 단어가 남아 있는 격자에서는 빠르게 점수를 냈지만, 남아 있지 않은 격자에서는 아무 점수도 얻지 못함
  - 최종 누적 점수는 **43점**이었고 전체 2위를 기록함
- ## Claude Opus 4.7
  - Claude도 슬라이드하지 않았음
  - 이동 로그상 25×25 보드에서는 섞임 밀도가 아직 감당 가능한 수준이라 버텼지만, 실제 타일 이동이 필요해진 30×30에서는 무너짐
  - 슬라이딩 퍼즐에서 슬라이드하지 않는 것은 명확한 한계로 작용함
- ## GPT-5.5
  - GPT-5.5는 라운드당 약 120회 슬라이드하는 더 보수적인 방식을 사용했고, 무한 왕복을 피하기 위한 상한을 둠
  - 15×15와 30×30 격자에서 가장 강한 수치를 보임
- ## Grok Expert 4.2와 GLM 5.1
  - Grok은 슬라이드하지 않았지만 큰 보드에서 비교적 괜찮은 점수를 냄
  - GLM은 전체 대회에서 가장 공격적으로 슬라이드한 모델로, 총 슬라이드 수가 **80만 회**를 넘음
  - GLM은 양수 이동이 사라질 때마다 심하게 멈춰섬
- ## DeepSeek V4
  - DeepSeek은 매 라운드마다 잘못된 형식의 데이터를 보냄
  - 유용한 출력은 없었지만, 플레이해서 점수를 더 악화시키지는 않음
- ## Muse Spark
  - Muse는 찾을 수 있는 모든 단어를 길이와 무관하게 제출함
  - 점수 규칙은 “the”, “and”, “it” 같은 짧은 단어를 무차별 제출하는 전략을 막기 위해 짧은 단어에 벌점을 주도록 설계됐고, 경쟁력 있는 모델들은 모두 사전을 7자 이상 단어로 필터링함
  - Muse는 30×30 격자에서 어느 순간에도 보이는 수백 개의 짧은 유효 단어를 찾아 모두 제출함
  - 누적 점수는 **−15,309점**이었고, 8경기 모두 패배했으며 라운드 승리는 0회였음
  - 서버에 연결만 하고 아무것도 하지 않는 Muse 버전이 있었다면 0점을 얻었을 것이므로, 실제 Muse보다 **15,309점** 높았을 계산임
  - Muse와 8위의 격차는 8위와 1위의 격차보다 컸음

### 30×30 격자가 만든 차이
- 30×30 격자는 참가 모델들의 차이를 가장 뚜렷하게 갈랐음
- 작은 보드에서는 정적 스캐너와 능동 슬라이더의 차이가 크지 않았지만, 최대 크기에서는 이미 존재하는 단어만 찾는 모델들이 더 이상 제출할 단어를 확보하지 못함
- Kimi의 탐욕 루프에는 결함이 있었지만, 정적 스캐너들이 제출할 단어를 잃은 상황에서도 계속 출력을 만들어냄
- MiMo와 Kimi는 거의 반대 전략을 사용했음에도 최종 점수 차이가 2점에 그침
- 1위와 2위의 격차에는 능력 차이뿐 아니라 **시드 변동성**도 일부 작용함

### 구조화된 작업에서 드러난 리스크
- DeepSeek의 잘못된 형식 출력은 시간 압박 아래 낯선 프로토콜 명세를 처리하는 방식에 대한 신호가 됨
- Muse는 유효 단어를 찾고 제출했지만, 점수 규칙까지 반영한 “유효함”의 의미를 적용하지 못함
- Muse의 실패는 과제를 부분적으로 읽고, 그 부분적 해석을 끝까지 실행한 형태로 나타남
- 벌점이 있는 구조화 작업에 모델을 배포할 때는 규칙 전체를 반영하지 못하는 실행이 큰 손실로 이어질 수 있음

### 결과 해석의 한계와 의미
- 이 점수 체계는 공격적인 단어 제출에 보상하는 구조이고, 강하게 안전 조정된 모델은 이런 무차별 제출 방식에 더 보수적일 수 있음
- 그런 경우 결과는 순수 능력 차이라기보다 과제 설계와 정렬된 모델 행동 사이의 불일치를 반영할 수 있음
- 하나의 도전 과제가 일반 벤치마크를 뒤집지는 않음
- 이 퍼즐은 실시간 의사결정, TCP 서버에 연결해 새로운 게임을 제대로 플레이하는 동작 코드 작성 능력을 시험함
- 긴 컨텍스트 추론이나 명세 기반 코드 생성 전반을 시험하는 과제는 아님
- Kimi K2.6는 Artificial Analysis Intelligence Index에서 **54점**, GPT-5.5는 **60점**, Claude는 **57점**을 기록함
- 이 점수는 완전한 동률은 아니지만 가까운 수준이며, Kimi K2.6는 누구나 다운로드할 수 있는 모델이라는 점이 경쟁 구도를 바꿈
- 프런티어와 몇 점 차이에 있는 모델을 로컬에서 자유롭게 실행할 수 있게 되면, 1년 전과는 다른 경쟁 상황이 됨
- 이번 도전 과제는 격차가 작아져 이런 결과가 나올 수 있음을 나타내는 하나의 데이터 포인트임

## Comments


### Comment 56787

- Author: neo
- Created: 2026-05-04T09:50:01+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47993235) 
- 앞으로 1년은 이런 글이 계속 나올 것 같음. 모델을 객관적으로 비교할 방법이 없기 때문임. 토큰 생성 속도, 평균 추론 토큰 수, 매개변수 수, 활성 전문가 수 같은 낮은 수준의 숫자를 빼면 모델마다 쓰임새도 다르고, 사용자도 다르고, 결정적이지도 않음  
  그래서 “**이 모델이 저 모델을 이겼다**”는 벤치마크와 선언이 계속 나오겠지만, 최고의 모델은 없음. 각자 기준에 맞는 모델만 있을 뿐이고, 결국 Windows vs MacOS vs Linux처럼 각자 진영에 머무는 세계가 될 가능성이 큼
  - 핵심은 모델 비교 방식이 아니라 **Kimi K2.6**와 DeepSeek v4 Pro가 Opus와 거의 동급이라는 점이고, 그 자체로 꽤 큰 일임  
    이들은 오픈소스이고 미국 모델보다 토큰당 비용이 훨씬 낮음. 지금 $20 Ollama 클라우드 플랜으로 쓰는데, Claude Pro $20 플랜에서는 프롬프트 한두 번이면 한계에 닿던 사이드 프로젝트 작업을 실제로 할 수 있음. Ollama는 CLI가 편해서 고른 것뿐이고, 이 모델들을 제공하는 업체가 많아 나쁜 조건이나 사용 규칙에 묶이지도 않음. 미국 경제에는 꽤 나쁜 신호로 봄
  - 모델을 비교할 **객관적인 방법**은 있음. 반복 표본 추출과 통계 분석으로 결과가 앞으로도 유지될지, 단순한 우연인지 판단해야 함  
    각 모델을 예상 작업에 맞게 최대 성능이 나오도록 미세조정하면, 서로 다른 벤치마크의 순위도 상당히 높은 정도로 일치함: [https://arxiv.org/abs/2507.05195](<https://arxiv.org/abs/2507.05195>)  
    그런데 이 글의 작성자는 그런 절차를 하지 않았음. 각 모델을 지금까지 13개 문제에 한 번씩만 돌리고, 그중 12번째 문제 결과를 강조했을 뿐임. 이건 p값을 생각해보지도 않았으니 p-hacking이라고 부르기도 어려움. 대규모 언어 모델 품질은 실행마다 크게 흔들리므로, 각 모델을 한 번만 돌리는 것은 동전 두 개를 한 번 던져 하나는 앞면, 하나는 뒷면이 나왔다고 어느 동전이 더 편향됐는지 말하는 것과 비슷함
  - 일부 동의하지만, **지표를 비교 가능하게 만들려는 작업**은 진행 중임. 예를 들면: [https://ghzhang233.github.io/blog/2026/03/05/train-before-te...](<https://ghzhang233.github.io/blog/2026/03/05/train-before-test/>)  
    아직 널리 채택되지는 않았고, 각 이해관계자 입장에서는 당분간 그렇게 남아 있는 편이 유리할 수도 있음. 사실상 p-hacking과 비슷함
  - 내 대규모 언어 모델 사용 사례와 에이전트형 실행 환경은 꽤 제한적이라, 새 모델이나 실행 도구가 나오면 내 사용 사례 한두 개만 시험해보고 주관적 판단을 한 뒤 대부분의 **벤치마크**는 무시함  
    블로그와 글쓰기는 그 자체로 사업이거나 기술 주변 사업에 트래픽을 공급하고, 평가 글 중 상당수는 관심을 끌기 위한 것임. 그 자체가 나쁘진 않지만 잡음이 많음
  - 결국 사람을 채용하는 것과 비슷한 위치에 이를 것 같음. 이력서, 즉 **벤치마크**는 볼 수 있지만 실제로 6개월 같이 일해보기 전에는 확신할 수 없음  
    업계는 한 소프트웨어 엔지니어가 다른 엔지니어보다 객관적으로 더 나은지 거의 어떤 차원에서도 판단하지 못함. 그런데 왜 모델에는 객관적 순위를 매길 수 있다고 생각하는지 모르겠음

- 객관적으로 채점되는 테스트 쪽으로 이동하는 건 반가움  
  우리는 [https://gertlabs.com/rankings](<https://gertlabs.com/rankings>)에서 이를 대규모로 해왔고, 글쓴이는 일회성 표본을 돌린 것으로 보이지만 Kimi K2.6의 성능이 좋은 건 놀랍지 않음. 우리 테스트 기준으로 특히 코딩에서는 Kimi가 오픈 가중치 모델 중 최상위인 MiMo V2.5 Pro와 통계적 불확실성 범위 안에 있고, 도구 사용에서는 DeepSeek V4 Pro보다 훨씬 낫게 나옴. GPT 5.5가 여유 있게 앞서지만 Kimi는 Opus 4.6과 동급이거나 더 나음. 다만 Kimi 2.6의 문제는 우리가 테스트한 모델 중 느린 편이라는 점임
  - 객관적으로 채점될 수는 있지만, 이게 누군가의 **코딩 능력**을 보여주지는 않음. 이 테스트는 어떤 모델이 다른 봇들을 상대로 거의 우연히 가장 좋은 전략을 떠올렸는지를 재는 것에 가까움  
    코딩을 대표하려면 이런 퍼즐을 100개 이상, 퍼즐 스펙트럼 전반에 걸쳐 테스트해야 영어 사전을 활용한 전략을 누가 더 잘 찾는지 알 수 있음
  - 에이전트형 작업 흐름에서는 **Qwen Flash**와 DeepSeek Flash 모델이 꽤 좋은 것 같음  
    어제 여기서 Flash 모델들이 도구 호출을 더 잘한다는 댓글과도 맞아떨어짐. GPT 5.5로 계획을 세우고 Flash 모델로 구현하는 조합이 가성비 좋은 경로일 수 있음
  - 내 경험상 벤치마크는 꽤 무의미함  
    성능은 언어와 작업뿐 아니라 사용한 프롬프트와 기대 결과에도 좌우됨. 내부 테스트에서 GPT 5.5와 Opus 4.7 중 어느 쪽이 더 나은지 판단하기가 정말 어려웠음. 스타일이 다르고 결국 취향에 가까움. 어떤 때는 한 모델에 승리를 줬다가 다시 생각하고 마음을 바꾸기도 했음. 결국은 Opus 4.7을 약간 더 선호함
  - 테스트와 결과가 **오픈소스**인가?
  - 왜 사람에 대한 **문맥 크기** 측정값은 제공할 수 없는지 궁금함. 충분히 좋은 근삿값을 만들 정도의 과학은 있을 것 같은데

- 며칠 전 읽은 연구에 따르면 현재 속도라면 **오픈소스 모델**이 몇 년 안에 클라우드 모델을 넘어설 것으로 예상됨  
  몇 년 전 ChatGPT와 Claude를 돌아보면, 아주 작은 Qwen 모델도 당시 클라우드 기반 모델이 하던 코딩과 거의 동등함. 확장 법칙까지 고려하면 9B에서 18B로 가는 건 대략 40% 증가지만 18B에서 35B는 20% 정도라, 클라우드 기반 모델은 적어도 가격 변화가 생길 것 같음. Adobe도 예전엔 월 $600였지만 배포 규모가 커지자 $20가 됐음
  - 그건 말이 안 되고, 유효한 조건을 훨씬 넘어 **추세를 외삽**하는 냄새가 남  
    단순한 진실은 클라우드 모델이 항상 오픈 모델보다 엄격히 우월할 수밖에 없다는 것임. 클라우드 모델 업체들도 같은 오픈 모델을 돌릴 수 있기 때문임. 게다가 전문 하드웨어로 가득 찬 대형 데이터센터를 운영하는 규모의 경제와 효율성도 유지함. 최소한 누구의 전기요금보다도 낮은 토큰당 가격으로 오픈 모델을 제공할 수 있음. 그 위에 모델과 주변 시스템을 연구하는 인력도 있고, GitHub에서 유행하는 도구보다 항상 앞선 실행 환경을 유지하도록 최고 엔지니어를 투입할 여력도 있음
  - 그럴 수도 있지만 **하드웨어** 쪽이 걱정됨  
    충분히 좋은 모델이 있더라도, 클라우드 모델 제공자들이 추론용 하드웨어 조달을 더 잘한다면 어떻게 될까?
  - “Adobe가 월 $600였다가 배포가 확장되면서 $20가 됐다”는 어떤 제품을 말하는 건지 모르겠음. Adobe에 그렇게 비싼 상품이 있었다는 얘기는 못 들어봄
  - 월 $600? 평생 라이선스 1회 구매 $600을 말하는 건가? 그렇게 비싼 Adobe 플랜은 들어본 적이 없음
  - 읽었다는 **연구 링크**가 있으면 공유해줬으면 함

- **Kimi**는 정말 좋음  
  컴파일러/가상머신 프로젝트에서 Sonnet과 DeepSeek, ChatGPT, MiniMax, Qwen 등을 써봤는데, Claude Pro 플랜은 진지한 코딩 작업에는 거의 못 쓸 수준임. 그래서 브라우저 채팅 모드로 써서 프로젝트 전체를 불필요하게 읽지 못하게 하고, Kimi는 OpenCode Go 플랜에서 pi와 함께 사용함. C+Python 프로젝트에서는 Kimi가 Sonnet을 꾸준히 앞섰고, 요청한 것 외의 행동을 할까 걱정한 적이 없음. GLM은 한두 번 크게 망가졌지만 Kimi는 그러지 않았음
  - “Claude Pro 플랜은 진지한 코딩 작업에 거의 못 쓴다”는 게 왜 그런지 궁금함. 진지한 코딩에 **Claude Pro**를 주로 쓴다는 대중적 평가와는 정반대처럼 보임

- 단일 과제에서, 해법의 성능으로만 측정한 결과임  
  **Kimi K2.6**는 확실히 프런티어급 크기의 모델이라 닫힌 프런티어 모델들과 나란히 있는 게 아주 놀랍지는 않음. 오픈이라는 점은 좋지만, 소비자용 GPU 한 장만 있는 내게는 그렇게 큰 의미는 없음
  - 오픈소스의 가치는 내가 로컬에서 돌릴 수 있다는 데 있지 않고, **누군가가 실행할 수 있다**는 데 있음  
    대형 오픈소스 모델을 돌릴 하드웨어를 살 여유가 없어도, 누군가는 살 것이고 닫힌 모델 비용의 절반에 가격을 매겨도 이익을 낼 수 있음. 지금 그 일이 안 보이는 유일한 이유는 현재 선두 토큰 제공자들이 추론 비용을 보조하고 있기 때문임. 그들이 품질 저하와 수익화 압박을 시작하는 순간 대안 시장이 가능해짐. 오픈소스 모델이 없으면 실질적 대안도 없음. 개발자 비용의 80%만 받으려 해도, 크게 뒤처지지 않은 오픈소스 모델의 존재가 강제력으로 작용함. 그들에게 해자는 없음
  - 당연히 의미 있음. 그래서 Anthropic과 OpenAI의 코딩 플랜보다 **훨씬 저렴한 플랜**이 가능해짐  
    개인용으로 GLM 5.1, Kimi K2.6, MiniMax M2.7, Xiaomi MiMo V2.5 Pro 코딩 플랜을 쓰고 있는데 가성비가 매우 좋음
  - 정말 중요함  
    품질 저하는 처음엔 눈에 띄지 않겠지만, 이미 내가 좋아하던 프런티어 모델들이 심하게 약화되어 예전에는 안 하던 멍청한 행동을 하는 걸 보고 있음. 우리가 점점 더 의존하는 만큼, 안정적인 **플랫폼** 역할을 할 오픈 가중치 모델이 필요함
  - 미래는 이쪽임. **H200**에서 돌아가는 오픈 가중치 모델은 제품과 실제 인프라를 만들 기회를 훨씬 많이 제공함  
    집의 작은 RTX용으로는 언제든 증류하면 됨. 하지만 소비자 하드웨어에 맞춘 모델은 넓게 채택되거나 프런티어 연구소와 경쟁력을 유지하기 어려움. 이건 경쟁할 수 있는 형태이고, 추론을 실행할 새로운 세대의 오픈 클라우드 인프라를 필요로 하며 또 자극할 것임. 처음에는 “버튼 눌러 배포”, “버튼 눌러 미세조정” 같은 제품이 나오고, 이후에는 API 뒤에 잠기지 않은 오픈 가중치만 가능한 훨씬 고급 제품이 나올 수 있음. 이제 오픈 가중치 Nano Banana Pro / GPT Image 2, Seedance 2.0에 해당하는 모델만 있으면 됨. 전투와 초점은 데이터센터용 오픈 가중치에 맞춰져야 함

- 순위를 보고 놀랐는데 테스트 내용을 읽고 나니 이해됐음. 코딩과는 크게 관련 없어 보임  
  전체 테스트의 현재 순위는 더 말이 됨. Gemini가 잘하는 정도만 빼면: [https://aicc.rayonnant.ai](<https://aicc.rayonnant.ai>)
  - 순위 세부 내역을 보면 **Kimi K2.6**는 최근 5개 챌린지에만 참가했음. 그전에는 Claude가 지배했고, 최근 5개만 세면 Kimi가 1위임
  - 금메달 순위는 모든 모델이 모든 테스트에 참가했을 때만 의미가 있음  
    DNP는 참가하지 않았다는 뜻임. 이 관점에서는 Kimi가 Claude보다 더 많고 더 좋은 메달을 얻었음
  - 저 많은 모델을 다루는 사이트가 모바일에서 **반응형**이 아니라니 아이러니함
  - 제공한 링크는 사실상 Kimi의 우위를 확인해줌

- 일화적이지만, 지난 몇 달간 Claude Code만 쓰다가 **Pi + Kimi K2.6**의 능력에 기분 좋게 놀랐음. OpenRouter를 통해 쓰면 훨씬 빠르고 비용도 훨씬 낮음

- 안타깝게도 Kimi는 GPT나 Opus에 전혀 근접하지 못함. 정말 그러길 바라지만 아님  
  모델이 3D 모델을 생성하는 코드를 만들어야 하는 평가를 돌리고 있는데, **공간 이해**가 부족하고 성공하기 전까지 코드 오류를 훨씬 많이 내는 게 분명함. 여기저기 특정 사례에서는 더 나을 수 있고, 이 블로그 글이 그런 예시라고 봄
  - 약간 주제 밖이지만, 지난 몇 주간 DeepSeek V4 Pro를 써보니 대체로 Opus와 동급임. 다만 **Blender**를 다룰 때는 예외임  
    이건 시각 문제도 아님. DeepSeek는 멀티모달이 아닌데, 이유는 모르겠지만 Opus가 Blender API를 훨씬 더 잘 이해함. 닫힌 프런티어 모델이 약간 더 잘하는 작은 영역들이 늘 있는 것 같음
  - 공정하게 말하면 모두가 **3D 모델**을 필요로 하지는 않음

- 이건 Kimi가 Claude보다 코딩을 더 잘한다기보다는, **특정 게임의 올바른 전략**을 Kimi가 찾은 것에 가까워 보임  
  그래도 흥미롭긴 함. 오픈 가중치 모델이 그 차이가 의미 있을 정도로 가까워졌다는 사실이 진짜 핵심일 가능성이 큼

- AI 분야를 잘 알지는 못하지만, 어떤 모델이든 모든 사람에게 모든 것을 해주도록 훈련하려는 건 정말 어리석은 생각처럼 보임  
  막대한 재원이 필요하고, AI 회사가 쓰는 모든 자원, 즉 RAM, SSD, 데이터센터 등에 극심한 부족과 시장 왜곡을 일으킴. 현실에서 배관공을 고용하면서 조경, 자동차 수리, 옷 수선까지 기대하지는 않음. 예를 들어 셸, Python, C 코딩에 특화된 앱을 내려받을 수 있거나, 심지어 그런 앱 3개가 서로 통신하는 편이 자원 활용 면에서 훨씬 나아 보임. 16GB RAM 일반 머신에서도 돌릴 수 있을지 모름. Fortran, COBOL, Lisp까지 코딩할 수 있는 거대 모델 하나가 꼭 필요한 건 아님. 인간은 전문화로 꽤 잘해왔고, 현재의 “하나의 모델이 모든 것을 지배하며 국가 규모 데이터센터에서만 돌아가는” 경로보다 작고 집중된 AI 모델이 더 많이 탐구되길 바람
  - 기본적으로는 맞지만, 그렇지 않은 경우도 있음  
    GPT-3 이후로 사람들은 어떤 모델도 그렇게 범용적일 수 없으니 **미세조정**이 좋다고 주장해왔지만, 세대가 지날수록 그 말이 덜 맞아지고 있음