Kimi K2 1T 모델이 2대의 512GB M3 Ul

▲

GN⁺ 5달전 | parent | ★ favorite | on: Kimi K2 1T 모델이 2대의 512GB M3 Ultra에서 실행됨(twitter.com/awnihannun)

Hacker News 의견들

Kimi K2는 정말 이상한 모델임
Opus 4.5나 5.2-Pro보다 똑똑하진 않지만, 글쓰기 스타일이 매우 독특하고 사람과 대화하듯 직설적인 톤을 가짐
이메일처럼 짧은 글을 쓸 때는 현존 최고 수준이고, 대화 중 실수를 지적하거나 헛소리를 바로잡는 데 주저하지 않음
다른 모델과는 전혀 다르게 학습된 느낌이라, 데이터 분석보다는 에디팅에 훨씬 유용함
그래서 실제로 Kimi 구독을 결제해서 쓰고 있음
- 나도 같은 생각임. 짧은 커뮤니케이션에서는 Kimi K2가 독보적임
  감정 지능(emotional intelligence) 이 뛰어나서 메시지의 뉘앙스나 의도를 잘 읽고, 사회적 맥락까지 고려해 문장을 다듬어줌
  Moonshot이 어떻게 학습시켰는지 모르겠지만, 이 부분은 정말 주목할 만함
  EQ-bench에서 감정 지능 평가 1위를 차지했는데, 내 체감과 정확히 일치함
- 내가 좋아하는 AI 벤치마크인 Clocks 테스트를 꾸준히 잘 통과하는 유일한 모델임
- 내가 틀렸을 때 솔직하게 지적해주는 유일한 모델임
  “재현 가능한 예시를 제공하라”는 식으로 말하는 챗봇을 보는 건 신기한 경험임
  참고로 Kagi에서도 Kimi K2를 사용할 수 있음
- Sonnet 4.5도 비슷하게 사용자에게 반박하곤 하지만, 대부분은 맥락 부족 때문에 생기는 오해임
  Kimi K2는 이런 부분에서 얼마나 정확한지 궁금함
  결국 모델의 핵심은 지시 따르기(instruction following) 아닌가 하는 생각이 듦
- 이런 특성 덕분에 EQ-bench 점수가 높은 것도 당연함
Kimi K2는 정말 인상적인 모델임
지나치게 아첨하지 않는 태도 덕분에 논리 검증용으로 유용함
예전 ChatGPT 모델들은 뭐든 칭찬했지만, Kimi는 요청하면 지능이나 조상까지 의심할 만큼 가차 없이 비판함
- 요청하면 진짜로 roast 모드로 돌입함. 집중력 유지에 도움이 됨
- 예전에 Tesla 안에서 Grok을 켜놨다가 음성 인식이 오작동해서 난감했던 적이 있음
  그 모델도 Kimi처럼 전혀 아첨하지 않는 성격이었음
M3 Ultra 512GB 모델이 $9,499임
Apple 공식 링크
- 리퍼비시 제품은 이 링크에서 $8,070에 구매 가능함
  기프트카드로 추가 10% 할인도 가능함
이 구성의 리눅스 버전이 있는지 궁금함
RDNA 지원 얘기는 들었지만, 하드웨어 의존적인지(ConnectX나 Apple Thunderbolt 필요) 아니면 일반 10G NIC로도 가능한지 모르겠음
- 프로덕션 수준의 성능을 내려면 RDNA 호환 하드웨어가 필요함
  다만 vLLM은 일반 이더넷 기반 멀티 노드 클러스터도 지원함
항상 그렇듯, 성능 주장은 맥락 길이나 prefill 조건을 명시하지 않아 오해를 부름
긴 컨텍스트를 쓰면 답변 기다리는 데 몇 분 걸릴 수도 있음
이런 장비를 몇 대 사고 싶긴 하지만, 감가상각을 생각하면 아직 시기상조 같음
몇 년 안에 훨씬 저렴해질 것 같음
- 구매 전에는 실제 속도 벤치마크를 꼭 확인해야 함
  “작동한다”는 말만 믿으면 안 되고, 긴 컨텍스트 상황에서의 처리 속도는 완전히 다름
- 개인적으로는 이런 장비를 사는 게 경제적으로 맞지 않다고 봄
  같은 금액으로 클라우드 사용량을 훨씬 많이 확보할 수 있음
  게다가 24/7로 돌리지 않으니 효율이 떨어짐
  오픈소스 모델은 Groq이나 Cerebras 같은 초저지연 서비스로 돌리는 게 훨씬 편함
- 로컬 모델을 돌리는 이유는 프라이버시 때문이지, 비용이나 지연 시간 때문은 아님
- 다음 업데이트 때는 M5 변형 칩이 탑재되길 기대함
- RAM 가격이 안정될 때까지 기다리는 게 좋을 듯함
요즘 어떤 벤치마크가 유효한지 궁금함
Cursor에서 여러 모델을 테스트하지만, Deepseek v3.2나 Kimi K2는 포맷 문제로 잘 안 되고, 다른 모델들도 빠져 있음
특히 C++이나 Rust 같은 비웹 분야 벤치마크가 궁금함
이 모델이 4bit 양자화(quant) 버전임을 언급해야 함. 그래도 인상적임
- Kimi K2는 애초에 4bit 최적화를 목표로 설계된 모델임
- 파라미터 수가 조 단위라면, 양자화는 이미 전제된 것이라 생각함
Exo Labs의 token pre-fill 가속을 DGX Spark로 돌릴 수 있는지도 궁금함
Spark 2대와 Mac Studio 2대를 조합하면 M5 Ultra 2대와 비슷한 추론 속도를 낼 수 있을까 하는 의문임
최근 실시간 시계 그리기 대회에서 우승한 모델이 바로 이거 아닌가 하는 생각임