16P by xguru 12시간전 | ★ favorite | 댓글 3개
  • 애플 실리콘 맥에서 로컬 AI 모델을 구동하는 추론 엔진으로, Apple의 MLX 프레임워크 기반 네이티브 Metal 컴퓨트 커널 활용
  • Ollama 대비 최대 4.2배 빠른 추론 속도 - Phi-4 Mini 14B 기준 180 tok/s(Ollama 56 tok/s 대비 3.2배), Qwen3.5-9B 기준 108 tok/s(Ollama 41 tok/s 대비 2.6배)
  • 캐시된 상태에서 TTFT 0.08초(Kimi-Linear-48B 기준), 대부분 모델에서 0.1~0.3초 수준
  • 17개 도구 호출 파서 내장 및 모델명 기반 자동 감지 — 4bit 양자화 모델이 깨진 도구 호출을 텍스트로 출력해도 자동으로 구조화된 형식으로 복구
  • 16GB MacBook Air(Qwen3.5-4B, 160 tok/s)부터 256GB Mac Studio Ultra(DeepSeek V4 Flash 158B, 31 tok/s, 1M 컨텍스트)까지 RAM별 최적 모델 매핑 제공
    • 16GB MacBook Air/Pro: Qwen3.5-4B 4bit → 2.4GB RAM 사용, 160 tok/s, 채팅·코딩·도구 호출 가능
    • 24GB MacBook Pro: Qwen3.5-9B 4bit → 5.1GB, 108 tok/s, 범용 모델
    • 32GB Mac Mini/Studio: Qwen3.5-27B 4bit(15.3GB, 39 tok/s), Nemotron-Nano 30B 4bit(18GB, 141 tok/s, 100% 도구 호출), Qwen3.6-35B-A3B 4bit(20GB, 95 tok/s, 256 MoE expert, 262K 컨텍스트)
    • 48~64GB: Qwen3.5-35B-A3B 8bit → 37GB, 83 tok/s, 스마트+빠름의 최적 균형
    • 96GB+: Qwen3.5-122B mxfp4 → 65GB, 57 tok/s, 프론티어급 지능
    • 128GB+: DeepSeek V4 Flash 158B-A13B 2-bit DQ → 91GB, 56 tok/s, day-0 프론티어 MoE
    • 192~256GB: Qwen3.5-122B 8bit(130GB, 44 tok/s) 또는 DeepSeek V4 Flash 8-bit(136GB, 31 tok/s, 1M 컨텍스트)
    • 4bit는 메모리 절약(대부분 권장), 8bit는 고품질 추론, mxfp4는 고품질 4bit 포맷
  • chain-of-thought 모델의 추론 과정을 별도 reasoning_content 필드로 분리하는 추론 분리 기능 - Qwen3, DeepSeek-R1, MiniMax, GPT-OSS 포맷 지원
  • 표준 트랜스포머용 KV 캐시 트리밍과 Qwen3.5 하이브리드 아키텍처용 DeltaNet 상태 스냅샷(~0.1ms 복원)으로 멀티턴 대화 TTFT 2~5배 개선, 별도 플래그 없이 항상 활성화
  • 로컬 프리필이 느린 대규모 컨텍스트 요청을 GPT-5, Claude 등 클라우드 LLM으로 자동 전환하는 스마트 클라우드 라우팅 지원
  • OpenAI API 드롭인 대체 — Cursor, Claude Code, Aider, LangChain, PydanticAI, smolagents, Hermes Agent, Open WebUI 등 OpenAI 호환 앱이면 localhost:8000/v1로 즉시 연동
  • Vision(Gemma 4, Qwen-VL), Audio(TTS/STT), Embeddings, Gradio Chat UI, 스키마 제약 JSON 생성 등 멀티모달 및 옵션 확장 지원
  • TurboQuant V-cache(86% 메모리 절감), KV 캐시 양자화, 프리필 청킹, tool logits bias 등 다양한 최적화 기법 내장
  • 모델+에이전트 하네스 호환성을 측정하는 MHI(Model-Harness Index) 제공 — Qwopus 27B가 MHI 92로 최고 점수
  • Speculative Decode(1.5~2.3배), EAGLE-3(3~6.5배), ReDrafter(1.4~1.5배) 등 추가 가속 기법이 로드맵에 포함
  • Apache 2.0 라이선스

omlx 와 비교하면 성능이 어떨지 궁금하네요

개인적으로 antirez/ds4 로 deepseek4 돌려보고 있는데, 속도는 ds4 쪽이 조금 더 빠르다고 나오긴 하네요.
ds4 는 128gb 전용이라 좀 애매한데, 그 외 모델에선 좋을거 같아요.

최근에 HuggingFace CEO가 Qwen3.6 27B 로 비행기에서 코딩해보니 Opus 수준이라고 한 트윗이 꽤 인기였는데, 이거에다 3.6 27B 올려봐야 겠어요
https://x.com/julien_c/status/2047647522173104145

한국어 성능이 어떨지 궁금하네요.. 96gb짜리 쓰고 있는데 유료 llm보다 성능이 떨어지겠죠..?

gemini cli 정도만 되도 좋을 것 같네요 ㅎㅎ