Kimi K2 1T 모델이 2대의 512GB M3 Ultra에서 실행됨
(twitter.com/awnihannun)- Kimi K2 1T 모델이 512GB 메모리를 가진 M3 Ultra 칩 두 대에서 구동된 사례
- 트위터 게시물에서 해당 모델의 실행 환경과 하드웨어 구성이 언급됨
- 1T 규모의 모델을 상용 맥 하드웨어에서 실행했다는 점이 주목됨
- 고성능 Apple Silicon 기반 AI 연산의 가능성을 보여주는 예시
- 대형 언어모델의 로컬 실행 한계 확장을 시사하는 기술적 시도
트위터 게시 내용
- 게시물은 Kimi K2 1T 모델이 두 대의 M3 Ultra(각각 512GB 메모리) 에서 실행되었다고 명시
- 추가적인 성능 수치나 결과에 대한 설명은 언급 없음
- 해당 트윗 외에 추가 맥락이나 세부 기술 정보는 제공되지 않음
Hacker News 의견들
- Kimi K2는 정말 이상한 모델임
Opus 4.5나 5.2-Pro보다 똑똑하진 않지만, 글쓰기 스타일이 매우 독특하고 사람과 대화하듯 직설적인 톤을 가짐
이메일처럼 짧은 글을 쓸 때는 현존 최고 수준이고, 대화 중 실수를 지적하거나 헛소리를 바로잡는 데 주저하지 않음
다른 모델과는 전혀 다르게 학습된 느낌이라, 데이터 분석보다는 에디팅에 훨씬 유용함
그래서 실제로 Kimi 구독을 결제해서 쓰고 있음- 나도 같은 생각임. 짧은 커뮤니케이션에서는 Kimi K2가 독보적임
감정 지능(emotional intelligence) 이 뛰어나서 메시지의 뉘앙스나 의도를 잘 읽고, 사회적 맥락까지 고려해 문장을 다듬어줌
Moonshot이 어떻게 학습시켰는지 모르겠지만, 이 부분은 정말 주목할 만함
EQ-bench에서 감정 지능 평가 1위를 차지했는데, 내 체감과 정확히 일치함 - 내가 좋아하는 AI 벤치마크인 Clocks 테스트를 꾸준히 잘 통과하는 유일한 모델임
- 내가 틀렸을 때 솔직하게 지적해주는 유일한 모델임
“재현 가능한 예시를 제공하라”는 식으로 말하는 챗봇을 보는 건 신기한 경험임
참고로 Kagi에서도 Kimi K2를 사용할 수 있음 - Sonnet 4.5도 비슷하게 사용자에게 반박하곤 하지만, 대부분은 맥락 부족 때문에 생기는 오해임
Kimi K2는 이런 부분에서 얼마나 정확한지 궁금함
결국 모델의 핵심은 지시 따르기(instruction following) 아닌가 하는 생각이 듦 - 이런 특성 덕분에 EQ-bench 점수가 높은 것도 당연함
- 나도 같은 생각임. 짧은 커뮤니케이션에서는 Kimi K2가 독보적임
- Kimi K2는 정말 인상적인 모델임
지나치게 아첨하지 않는 태도 덕분에 논리 검증용으로 유용함
예전 ChatGPT 모델들은 뭐든 칭찬했지만, Kimi는 요청하면 지능이나 조상까지 의심할 만큼 가차 없이 비판함- 요청하면 진짜로 roast 모드로 돌입함. 집중력 유지에 도움이 됨
- 예전에 Tesla 안에서 Grok을 켜놨다가 음성 인식이 오작동해서 난감했던 적이 있음
그 모델도 Kimi처럼 전혀 아첨하지 않는 성격이었음
- M3 Ultra 512GB 모델이 $9,499임
Apple 공식 링크- 리퍼비시 제품은 이 링크에서 $8,070에 구매 가능함
기프트카드로 추가 10% 할인도 가능함
- 리퍼비시 제품은 이 링크에서 $8,070에 구매 가능함
- 이 구성의 리눅스 버전이 있는지 궁금함
RDNA 지원 얘기는 들었지만, 하드웨어 의존적인지(ConnectX나 Apple Thunderbolt 필요) 아니면 일반 10G NIC로도 가능한지 모르겠음- 프로덕션 수준의 성능을 내려면 RDNA 호환 하드웨어가 필요함
다만 vLLM은 일반 이더넷 기반 멀티 노드 클러스터도 지원함
- 프로덕션 수준의 성능을 내려면 RDNA 호환 하드웨어가 필요함
- 항상 그렇듯, 성능 주장은 맥락 길이나 prefill 조건을 명시하지 않아 오해를 부름
긴 컨텍스트를 쓰면 답변 기다리는 데 몇 분 걸릴 수도 있음 - 이런 장비를 몇 대 사고 싶긴 하지만, 감가상각을 생각하면 아직 시기상조 같음
몇 년 안에 훨씬 저렴해질 것 같음- 구매 전에는 실제 속도 벤치마크를 꼭 확인해야 함
“작동한다”는 말만 믿으면 안 되고, 긴 컨텍스트 상황에서의 처리 속도는 완전히 다름 - 개인적으로는 이런 장비를 사는 게 경제적으로 맞지 않다고 봄
같은 금액으로 클라우드 사용량을 훨씬 많이 확보할 수 있음
게다가 24/7로 돌리지 않으니 효율이 떨어짐
오픈소스 모델은 Groq이나 Cerebras 같은 초저지연 서비스로 돌리는 게 훨씬 편함 - 로컬 모델을 돌리는 이유는 프라이버시 때문이지, 비용이나 지연 시간 때문은 아님
- 다음 업데이트 때는 M5 변형 칩이 탑재되길 기대함
- RAM 가격이 안정될 때까지 기다리는 게 좋을 듯함
- 구매 전에는 실제 속도 벤치마크를 꼭 확인해야 함
- 요즘 어떤 벤치마크가 유효한지 궁금함
Cursor에서 여러 모델을 테스트하지만, Deepseek v3.2나 Kimi K2는 포맷 문제로 잘 안 되고, 다른 모델들도 빠져 있음
특히 C++이나 Rust 같은 비웹 분야 벤치마크가 궁금함 - 이 모델이 4bit 양자화(quant) 버전임을 언급해야 함. 그래도 인상적임
- Kimi K2는 애초에 4bit 최적화를 목표로 설계된 모델임
- 파라미터 수가 조 단위라면, 양자화는 이미 전제된 것이라 생각함
- Exo Labs의 token pre-fill 가속을 DGX Spark로 돌릴 수 있는지도 궁금함
Spark 2대와 Mac Studio 2대를 조합하면 M5 Ultra 2대와 비슷한 추론 속도를 낼 수 있을까 하는 의문임 - 최근 실시간 시계 그리기 대회에서 우승한 모델이 바로 이거 아닌가 하는 생각임