31P by xguru | ★ favorite | 댓글 6개
  • 애플 실리콘 맥에서 로컬 AI 모델을 구동하는 추론 엔진으로, Apple의 MLX 프레임워크 기반 네이티브 Metal 컴퓨트 커널 활용
  • Ollama 대비 최대 4.2배 빠른 추론 속도 - Phi-4 Mini 14B 기준 180 tok/s(Ollama 56 tok/s 대비 3.2배), Qwen3.5-9B 기준 108 tok/s(Ollama 41 tok/s 대비 2.6배)
  • 캐시된 상태에서 TTFT 0.08초(Kimi-Linear-48B 기준), 대부분 모델에서 0.1~0.3초 수준
  • 17개 도구 호출 파서 내장 및 모델명 기반 자동 감지 — 4bit 양자화 모델이 깨진 도구 호출을 텍스트로 출력해도 자동으로 구조화된 형식으로 복구
  • 16GB MacBook Air(Qwen3.5-4B, 160 tok/s)부터 256GB Mac Studio Ultra(DeepSeek V4 Flash 158B, 31 tok/s, 1M 컨텍스트)까지 RAM별 최적 모델 매핑 제공
    • 16GB MacBook Air/Pro: Qwen3.5-4B 4bit → 2.4GB RAM 사용, 160 tok/s, 채팅·코딩·도구 호출 가능
    • 24GB MacBook Pro: Qwen3.5-9B 4bit → 5.1GB, 108 tok/s, 범용 모델
    • 32GB Mac Mini/Studio: Qwen3.5-27B 4bit(15.3GB, 39 tok/s), Nemotron-Nano 30B 4bit(18GB, 141 tok/s, 100% 도구 호출), Qwen3.6-35B-A3B 4bit(20GB, 95 tok/s, 256 MoE expert, 262K 컨텍스트)
    • 48~64GB: Qwen3.5-35B-A3B 8bit → 37GB, 83 tok/s, 스마트+빠름의 최적 균형
    • 96GB+: Qwen3.5-122B mxfp4 → 65GB, 57 tok/s, 프론티어급 지능
    • 128GB+: DeepSeek V4 Flash 158B-A13B 2-bit DQ → 91GB, 56 tok/s, day-0 프론티어 MoE
    • 192~256GB: Qwen3.5-122B 8bit(130GB, 44 tok/s) 또는 DeepSeek V4 Flash 8-bit(136GB, 31 tok/s, 1M 컨텍스트)
    • 4bit는 메모리 절약(대부분 권장), 8bit는 고품질 추론, mxfp4는 고품질 4bit 포맷
  • chain-of-thought 모델의 추론 과정을 별도 reasoning_content 필드로 분리하는 추론 분리 기능 - Qwen3, DeepSeek-R1, MiniMax, GPT-OSS 포맷 지원
  • 표준 트랜스포머용 KV 캐시 트리밍과 Qwen3.5 하이브리드 아키텍처용 DeltaNet 상태 스냅샷(~0.1ms 복원)으로 멀티턴 대화 TTFT 2~5배 개선, 별도 플래그 없이 항상 활성화
  • 로컬 프리필이 느린 대규모 컨텍스트 요청을 GPT-5, Claude 등 클라우드 LLM으로 자동 전환하는 스마트 클라우드 라우팅 지원
  • OpenAI API 드롭인 대체 — Cursor, Claude Code, Aider, LangChain, PydanticAI, smolagents, Hermes Agent, Open WebUI 등 OpenAI 호환 앱이면 localhost:8000/v1로 즉시 연동
  • Vision(Gemma 4, Qwen-VL), Audio(TTS/STT), Embeddings, Gradio Chat UI, 스키마 제약 JSON 생성 등 멀티모달 및 옵션 확장 지원
  • TurboQuant V-cache(86% 메모리 절감), KV 캐시 양자화, 프리필 청킹, tool logits bias 등 다양한 최적화 기법 내장
  • 모델+에이전트 하네스 호환성을 측정하는 MHI(Model-Harness Index) 제공 — Qwopus 27B가 MHI 92로 최고 점수
  • Speculative Decode(1.5~2.3배), EAGLE-3(3~6.5배), ReDrafter(1.4~1.5배) 등 추가 가속 기법이 로드맵에 포함
  • Apache 2.0 라이선스
GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기

댓글과 토론

128GB MBP에 저걸 실제로 사용하는 분들이 있을까요? (의견이 궁금해서)
대략 800만원쯤 하던데, 1년정도 지나면 수지타산이 맞을까 싶기도..
또 생각해보면, local AI 쓴다고 해도 구독 요금제도 같이 쓸것 같네요 ㅎ

M5 Max 128gb 쓰는 중인데 codex deepseek kimi 다 구독하고 API 돈내고 쓰는 중입니다ㅋㅋ 로컬 모델은 128gb 맥북에서 조차 사실상 유용하게 쓰려면 Qwen 3.6 27b 정도가 거의 유일해요. 다른 비슷한 파라미터 모델들은 성능이 떨어지고 122B 모델 같은건 올라가기만 한다 뿐이지 써먹을 수준으로 돌아가진 않더라구요

속도 수치도 인상적이지만, 개인적으로는 OpenAI API 호환, 도구 호출 파서, reasoning 분리 쪽이 더 눈에 들어오네요.

로컬 모델을 개발 도구나 백엔드 에이전트 흐름에 붙여보면 순수 추론 속도만큼이나 모델별 응답 포맷 차이, 깨진 tool call 복구, 긴 컨텍스트에서의 TTFT가 실제 사용성을 많이 좌우하더군요. 그런 면에서 “빠른 로컬 추론 엔진”보다 “에이전트 하네스에 안정적으로 붙는 로컬 엔진”에 가까워 보입니다.

벤치마크는 동일 조건에서 재현해봐야겠지만, Apple Silicon에서 이 정도 로컬 개발 루프가 가능해지면 프로토타입이나 내부 도구 실험 비용은 꽤 낮아질 것 같습니다. MHI처럼 모델-하네스 호환성을 따로 보려는 시도도 흥미롭네요.

omlx 와 비교하면 성능이 어떨지 궁금하네요

개인적으로 antirez/ds4 로 deepseek4 돌려보고 있는데, 속도는 ds4 쪽이 조금 더 빠르다고 나오긴 하네요.
ds4 는 128gb 전용이라 좀 애매한데, 그 외 모델에선 좋을거 같아요.

최근에 HuggingFace CEO가 Qwen3.6 27B 로 비행기에서 코딩해보니 Opus 수준이라고 한 트윗이 꽤 인기였는데, 이거에다 3.6 27B 올려봐야 겠어요
https://x.com/julien_c/status/2047647522173104145

한국어 성능이 어떨지 궁금하네요.. 96gb짜리 쓰고 있는데 유료 llm보다 성능이 떨어지겠죠..?

gemini cli 정도만 되도 좋을 것 같네요 ㅎㅎ