Hacker News 의견들
  • OpenRouter로 붙여 써봤더니 이 모델이 SVG 펠리컨을 그냥 그리는 데서 끝나지 않고, 애니메이션 속도 조절까지 되는 HTML로 감싸서 내보낸 점이 인상적이었음. 대화 기록과 HTML은 여기 gist에 있고, 실행 예시는 이 링크에서 볼 수 있음

    • 이제는 이런 펠리컨 SVG가 학습 데이터셋에 들어갔을 것 같다는 생각이 듦
    • 이건 완전히 과잉 성실형 느낌이었고, Kimi라는 이름도 왠지 모범생 같게 들림
    • 아쉽게도 펠리컨의 다리와 발에는 같은 공을 들이지 않은 것 같음. 왼쪽 다리는 마비된 것처럼 안 움직이고, 오른쪽 발목은 불안할 정도로 휙휙 돌아감
    • 베타 때 써봤는데 꽤 괜찮은 모델이었고, 어떤 순간에는 내가 Opus나 GPT가 아닌 다른 모델을 쓰고 있다는 걸 잊을 정도였음. 그래도 Opus가 여전히 더 낫고, 내 기준에선 GPT 쪽이 더 버거워 보였음. 백엔드 작업에서는 약간의 틈새가 있지만, 실력이 있으면 Opus로도 비슷하게 해결 가능했고 전반적으로는 부족한 면이 더 많았음
    • 진지하게 궁금한데, 거의 모든 새 모델 스레드마다 이걸 올리는 목적이 무엇인지 모르겠음. 내가 좀 늙고 까칠한 걸 수도 있지만, 한참 전에 이미 식상해졌고 저노력 Reddit 댓글처럼 느껴짐
  • 초반 벤치마크를 보면 Kimi K2.6이 Kimi K2 Thinking보다 크게 좋아졌음. 이전 모델은 우리 벤치마크에서 성적이 별로였고, 양자화도 최선의 설정을 썼음. 지금은 Kimi K2.6이 원샷 코딩 추론에서 오픈 웨이트 모델 중 최상위권이고, GLM 5.1보다 약간 좋으며, 대략 3개월 전 SOTA 모델들과도 경쟁 가능해서 Gemini 3.1 Pro Preview와 비슷한 급으로 보임. 에이전트형 테스트는 아직 진행 중이고, 오픈 웨이트 모델은 긴 컨텍스트 에이전트 워크플로에서 약한 편이지만 GLM 5.1은 꽤 잘 버텼기 때문에 Kimi의 결과가 궁금함. 다만 구버전과 신버전 모두 속도가 느린 편이라 에이전트 코딩 실사용성에는 제약이 있을 수 있음. 예전 Kimi K2는 벤치마크 최적화가 심했고 어려운 문제 해결보다는 변주와 온도를 늘리는 데 더 흥미가 있었는데, 이번 모델은 훨씬 강한 범용형처럼 보임. 전체적으로 오픈 웨이트 진영은 정말 좋아 보이고, 거의 매주 프런티어급 신모델이 하나씩 나오는 분위기임. 자세한 벤치마크는 gertlabs에서 확인 가능함

    • K2.6이 Sonnet 4.6과 비교해서 가격과 성능이 어느 정도인지 궁금함
    • 언어별 성능 편차가 이렇게 큰 점은 꽤 놀라웠음
  • 중국이 어쩌면 세계에서 가장 중요한 기술을 오픈소스 방식으로 밀고 있고, 미국은 정반대로 가는 모습에 아이러니한 유머가 느껴짐

    • 내 생각엔 동기 중 하나가 미국 기업 견제임. OpenAI와 Anthropic이 가장 큰 플레이어이고 둘 다 미국 회사라서, 오픈 웨이트 모델이 많아질수록 이 둘의 산업 지배력이 약해짐. 중국 회사들이 미국식으로 비공개 모델 전략을 택하면 대부분 ChatGPT나 Claude를 쓸 가능성이 높아서, 어차피 큰 수익을 내기 어렵다면 오픈 웨이트로 내놓아 미국 회사의 초과 이익을 줄이는 쪽이 더 현실적이라고 봄
    • 위대한 기술 발전은 결국 개방을 통해 가속된다고 봄. iPhone만 봐도 GPS, 인터넷, 음성 비서, 터치스크린, 마이크로프로세서, 리튬이온 배터리 등 핵심 기술 다수가 정부 연구나 공공에 가깝게 열린 연구에서 나왔음. 민간 기업은 경쟁사에게 돌파구를 그냥 열어주지 않기 때문에, 분야 전체를 전진시키려면 결국 기술을 열어야 한다는 생각임
    • 이번 업데이트로 Kimi K2.6이 가장 강한 오픈 멀티모달 AI 모델이 됐다고 봄. 물론 나는 관계자가 아님. 공개된 AI 벤치마크를 모아보면 Opus 4.6 max effort와 비교했을 때 에이전트는 5 대 5, 코딩은 Kimi 5 대 Opus 1, 추론과 지식은 Kimi 1 대 Opus 4, 비전은 Kimi 9 대 Opus 0이었음. 다만 벤치마크는 모델 제작사가 고르기 때문에 편향은 감안해야 하고, 그래도 코딩과 추론 항목 다수는 꽤 표준적인 편이었음
    • 꼭 그렇게만 보긴 어려움. Google도 최근 Gemma 4를 공개했고 Allen AI도 open Olmo 계열을 내놓고 있음. 그래도 중국 오픈 모델이 확실히 더 강하게 보이는 건 맞고, 특히 Qwen 3 계열은 체급 이상으로 잘 치고 올라오는 느낌임
    • 중국 연구소들이 왜 모델을 오픈소스로 내놓는지 여러 추측이 나오지만, 내 생각엔 이유가 단순하고 분명함. 그들에게 사실상 가능한 상용화 전략이 그것뿐이기 때문임. 이 점은 내 글에서 정리해둠
  • 나는 Kimi가 생각보다 주목을 덜 받는 점이 늘 의외였음. 창의성이나 품질 면에서 계속 눈에 띄었고, 꽤 오랫동안 내가 가장 좋아하는 모델이었음. 물론 내가 권위자는 아님

    • 좋긴 하지만 아직 Claude급은 아니라고 느낌. 게다가 API는 용량 문제를 자주 겪음. 그래도 가격 대비 품질은 정말 말이 안 될 정도라서, 몇 주나 몇 달 전에 40달러 충전해둔 걸 아직도 절반도 못 썼음
    • SVG 시계를 그릴 수 있는 몇 안 되는 모델 중 하나라는 점도 재밌었음. 예시는 이 사이트에서 볼 수 있음
    • 이 정도 성능에 OpenRouter에서 매우 저렴한 편이라 더 좋았음. 2.6도 그 전통을 이어가길 바람
    • Kagi Assistant에서 선택지로 써봤는데, 검색과 요약이 많은 환경에서 결과가 마음에 들었음. 특히 목록형이나 Markdown 범벅의 전형적인 LLM 문체가 아닌 자연스러운 산문을 부탁했을 때 좋았음. 확신 있게 비교하긴 어렵지만, 출력 흐름을 좋게 만들기 위해 원문을 과감히 재배열하는 편이었고, 때로는 따로 다뤄진 관련 아이디어를 연결하거나 요청에 제대로 답하도록 만드는 데 그런 편집이 오히려 필요했음
    • 첫 K2가 나왔을 때를 기억하는데, 한동안 창의적 글쓰기에서는 다른 모델보다 확실히 앞섰음
  • 여기서 Kimi를 실제 업무에 써본 사람이 있는지 궁금함. 나는 한 번 써봤는데 벤치마크는 화려해 보여도 실사용 인상은 그저 그랬음. 반면 Qwen 3.6은 꽤 좋았고, Opus에는 못 미쳐도 Sonnet과는 충분히 비빌 만하다고 느낌

    • Codex 쿼터를 다 쓰면 Kimi K2.5를 대신 썼는데, 작고 중간 규모 작업은 무난했음. 하지만 복잡한 작업에 쓰면 나중에 Codex로 이틀 동안 뒤처리를 해야 해서, 2.6이 좀 더 나아졌길 바람
    • GLM-5.1 전에는 Opus 4.5와 Kimi 4.5를 왔다 갔다 하면서 썼고, Kimi 쪽에서도 결과가 꽤 좋았음
    • 실제로 쓰고 있을 가능성이 높음. Cursor의 composer-2 모델을 쓰면 그게 Kimi 계열이기 때문임. 계획 수립은 최상위권이고, 실행도 composer-2에서 잘 돌아간다고 느낌
  • 벤치마크 감각과 실제 체감이 맞아떨어진다면, 이번 건 중국 AI가 미국 최상위 연구소 모델과 거의 어깨를 나란히 하는 DeepSeek 순간 같은 사건일 수도 있겠다고 느낌

    • 이전 세대 모델과 비교하면 그렇다고 볼 수 있지만, 이른바 10T급 신화적 모델과 비교하면 아직 전혀 가깝지 않다고 봄
  • 내 테스트와 aibenchy 비교 기준으로는 Kimi K2.6이 Kimi K2.5보다 약간 나은 정도였음. 특히 퍼즐, 도메인 특화 문제, 함정형 정확성 과제에서 지시 불이행과 오답이 자주 보였음. 코딩 모델로는 훌륭할 수 있지만, 전체적인 지능감은 여전히 최상위 SOTA보다 약간 아래라고 느낌

    • OpenRouter에서 max tokens를 8192로 두고 써봤는데, non-thinking 모드에서도 모든 응답이 잘려서 나왔음. 배포 문제일 수도 있지만, 네 링크에서도 출력 토큰을 엄청 많이 생성하는 걸로 보였음
  • 가끔 미래에는 예전 컴퓨터가 방 하나를 차지하다가 지금은 주머니에 들어오게 된 것처럼, 언젠가 데이터센터에 해당하는 계산량이 휴대폰 같은 단일 기기 하나로 들어갈 수 있을지 궁금해짐. 기술 발전 속도가 해마다 빨라지는 것처럼 보이니, 그런 변화도 더 빨리 오지 않을까 하는 생각이 듦

    • 이런 방향으로는 이미 초반 작업이 있음. 예를 들어 Taalas 같은 회사는 LLM ASIC을 만들고 있고, HC1은 llama 8b에서 초당 17k 토큰을 낸다고 함. 아직 2.5kW 수준이라 휴대폰보다는 단일 서버에 가깝지만 첫 칩이라는 점은 의미가 큼. 광자 컴퓨팅 같은 대안도 전력을 크게 줄일 가능성이 있지만 아직은 연구 단계로 보임. AI에 돈이 워낙 많이 몰리고 기존 GPU 추론의 전력 소모가 커서, 이 영역의 개선은 꽤 빠르게 일어날 거라고 예상함
    • 나는 그렇게까지 빠를 거라고 보진 않음. 역사적으로는 대체로 지수적 축소가 이어졌고, 그 추세가 유지된다면 방 크기의 연산이 주머니 크기로 줄어드는 데 걸리는 시간은 비슷해야 함. 게다가 최근에는 그 지수 추세에도 못 미치고 있고, 원래 지수 성장 자체가 오래 지속되기 어려움. 기술 진보가 계속 빨라지고 계산 장치도 계속 작아질 거라는 점에는 동의하지만, 그 사실만으로 다음 축소 단계가 더 짧은 시간 안에 온다고 보긴 어렵다고 생각함
  • 오늘 아침 내내 앱에 붙여 테스트해봤는데, 느낌상 결과가 Sonnet 4.6과 비슷했음. 정식 검증 없이 순전히 바이브 기반 인상이긴 하지만, 프런티어 모델에 실제 경쟁이 생긴 건 반가운 일임

    • K2.6과 GLM 5.1 덕분에 이제는 Sonnet급 지능을 Haiku급 가격에 쓰는 느낌이 듦. 이건 정말 좋음. Anthropic도 빨리 새 Haiku를 내놨으면 하고, 더 저렴한 모델들과 경쟁하려면 지금 Haiku의 3분의 1에서 5분의 1 가격대 제품이 필요해 보임. Gemma-4가 그 가격 구간에서 꽤 잘하고 있음
  • 이 모델에 코딩용 정액제가 있는지 궁금했음. 즉 토큰 제한 대신 API 호출 제한만 있는 방식인지 궁금했고, 최근에는 z.ai에서 GLM 과금이 실패해서 구독이 끊겼는데 가격도 몇 달 사이에 너무 많이 올랐음

    • Kimi도 다른 서비스들과 거의 비슷한 방식의 자체 구독이 있고, Kimi Code에서 확인 가능함