# Ollama, 이제 애플 실리콘에서 MLX 기반으로 구동

> Clean Markdown view of GeekNews topic #28049. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=28049](https://news.hada.io/topic?id=28049)
- GeekNews Markdown: [https://news.hada.io/topic/28049.md](https://news.hada.io/topic/28049.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2026-03-31T18:09:19+09:00
- Updated: 2026-03-31T18:09:19+09:00
- Original source: [ollama.com](https://ollama.com/blog/mlx)
- Points: 5
- Comments: 1

## Summary

Ollama가 **Apple MLX 프레임워크 기반**으로 돌아가는 프리뷰 버전을 공개했습니다. Apple Silicon의 통합 메모리를 제대로 활용하면서 **첫 토큰 생성 시간과 디코드 속도 모두 개선**되었는데요. M5 시리즈에서 Qwen3.5-35B 모델 기준 **134 tok/s 디코드**를 기록했습니다. NVIDIA의 **NVFP4 양자화**도 지원해 정확도를 유지하면서 메모리 사용량을 줄였고, 캐시 재사용 정책도 똑똑해졌습니다. Mac에서 로컬 LLM을 돌리는 분이라면 체감 차이가 클 테니, 32GB 이상 통합 메모리 Mac에서 **Ollama 0.19**로 업데이트해보세요. 2배 이상 빨라졌다는 후기가 많네요.

## Topic Body

- **Apple MLX 프레임워크**를 기반으로 한 Ollama의 프리뷰 버전이 공개, Apple Silicon의 **통합 메모리 아키텍처**를 활용한 성능 향상 제공  
- M5 시리즈 칩의 **GPU Neural Accelerator**를 통해 **TTFT(첫 토큰 생성 시간)** 과 **토큰 생성 속도**가 모두 개선됨  
- **NVFP4 형식** 지원으로 모델 정확도를 유지하면서 **메모리 대역폭과 저장소 요구량**을 줄이고, NVIDIA Model Optimizer로 최적화된 모델 실행 가능  
- **캐시 재사용 및 스마트 캐시 정책**으로 대화 간 메모리 효율과 응답 속도를 높이고, 공유 프롬프트의 캐시 히트율을 향상  
- 향후 더 많은 모델과 **커스텀 모델 가져오기 기능**을 추가해 지원 아키텍처를 확장할 계획임  
  
---  
  
### Apple Silicon에서 MLX 기반으로 구동되는 Ollama 프리뷰  
- **Apple의 MLX 프레임워크**를 기반으로 한 Ollama의 새로운 프리뷰 버전이 공개됨  
  - macOS에서 개인 비서(OpenClaw)나 코딩 에이전트(Claude Code, OpenCode, Codex 등)를 더 빠르게 실행 가능  
  - Apple Silicon의 **통합 메모리 아키텍처**를 활용해 성능 향상  
- ## Apple Silicon에서의 성능 향상  
  - Ollama는 Apple의 **MLX 머신러닝 프레임워크** 위에서 동작하며, M5, M5 Pro, M5 Max 칩의 **GPU Neural Accelerator**를 활용해 **TTFT(첫 토큰 생성 시간)** 과 **토큰 생성 속도**를 모두 가속  
  - 2026년 3월 29일 테스트에서 Alibaba의 **Qwen3.5-35B-A3B 모델**(`NVFP4` 양자화)과 이전 Ollama 구현(`Q4_K_M`)을 비교  
  - Ollama 0.19 버전은 `int4` 실행 시 **1851 token/s 프리필**, **134 token/s 디코드** 성능을 기록  
- ## NVFP4 지원  
  - NVIDIA의 **NVFP4 형식**을 지원해 **모델 정확도 유지**와 함께 **메모리 대역폭 및 저장소 요구량 감소** 달성  
  - NVFP4를 사용하는 추론 환경과 **생산 환경 간 결과 일치성** 확보  
  - NVIDIA의 **Model Optimizer**로 최적화된 모델 실행 가능  
  - Ollama 연구 및 하드웨어 파트너의 설계·용도에 따라 다른 정밀도(precision)도 추가 예정  
- ## 캐시 시스템 개선  
  - **캐시 재사용**으로 대화 간 메모리 사용량을 줄이고, 공유 시스템 프롬프트 사용 시 캐시 히트율 향상  
  - **지능형 체크포인트**를 도입해 프롬프트 처리량 감소 및 응답 속도 향상  
  - **스마트 캐시 제거 정책**으로 오래된 브랜치가 삭제되어도 공유 프리픽스(prefix)가 더 오래 유지  
- ## 시작 방법  
  - [Ollama 0.19 다운로드](https://ollama.com/download) 가능  
  - 새로운 **Qwen3.5-35B-A3B 모델**을 코딩 작업에 맞게 샘플링 파라미터로 튜닝  
  - 32GB 이상의 **통합 메모리**를 가진 Mac 필요  
  - 실행 예시:  
    - Claude Code: `ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4`  
    - OpenClaw: `ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4`  
    - 모델 대화: `ollama run qwen3.5:35b-a3b-coding-nvfp4`  
- ## 향후 계획  
  - 더 많은 모델 지원 예정  
  - 지원 아키텍처 기반의 **커스텀 모델 가져오기 기능** 추가 예정  
  - 지원 아키텍처 목록을 지속적으로 확장  
- ## 감사 인사  
  - **MLX 기여자 팀**의 가속화 프레임워크 개발  
  - **NVIDIA 팀**의 NVFP4 양자화, 모델 최적화, MLX CUDA 지원, Ollama 최적화 및 테스트  
  - **GGML 및 llama.cpp 팀**의 로컬 프레임워크 및 커뮤니티 구축  
  - **Alibaba Qwen 팀**의 오픈소스 모델 제공 및 협력

## Comments


### Comment 54224

- Author: neo
- Created: 2026-03-31T18:09:19+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47582482) 
- 내가 만든 ["apfel"](https://github.com/Arthur-Ficial/apfel)은 Apple의 **온디바이스 로컬 foundation model**을 위한 CLI임  
  4k 컨텍스트 제한과 색상 묘사조차 막는 **과도한 가드레일**이 있긴 하지만, 외부 호출 없이 bash 스크립트에서 바로 쓸 수 있다는 점이 정말 강력하게 느껴짐
  - 솔직히 Apple이 이런 상태로 제품을 출시했다는 게 믿기지 않음  
    나도 기대했는데 써보니 **실망감**이 컸음. 이제 Apple이 Gemini 쪽으로 완전히 방향을 튼 것 같아 오히려 다행이라 생각함
  - 멋진 프로젝트임. 혹시 **Homebrew 배포 계획**도 있는지 궁금함

- **온디바이스 LLM**이 미래라고 생각함  
  보안이 강화되고, 데이터센터 대비 전력 소모가 적으며, 추론 수요 문제도 완화할 수 있음. 대부분의 사용자는 최첨단 모델 성능까지는 필요하지 않음
  - 보안성은 높지만, 공급 효율은 오히려 악화될 수 있음  
    데이터센터는 GPU **배칭(batch)** 과 높은 활용률 덕분에 개인 PC보다 거의 100배 가까이 효율적임
  - 기업 입장에서는 여전히 중앙화된 **데이터센터 모델**이 합리적일 수 있음  
    다만 로컬 모델이 간단한 요청을 처리하고, 복잡한 건 클라우드로 넘기는 **하이브리드 접근**이 유망해 보임
  - 최근 M4 MBP에 **llama.cpp**를 설치해 로컬 모델을 실험 중임  
    ChatGPT 스타일 인터페이스가 내장되어 있어 빠른 테스트에 유용함. 16GB RAM에서도 꽤 괜찮은 모델들이 돌아감  
    예를 들어 Qwen 3.5 9B는 검열이 심하지만, **Uncensored 버전**은 반대로 너무 자유로워서 균형 잡기가 흥미로움
  - SSD 오프로딩으로도 **SOTA 모델**을 소비자용 PC에서 돌릴 수 있음  
    다만 SSD 대역폭이 병목이라 캐시용 RAM이 많을수록 좋음. 응답을 기다릴 여유가 있다면 충분히 실용적임
  - 5년째 디지털 저널링을 하며 이런 흐름을 예상했음  
    최근 Qwen 3.5 4B와 27B를 조합해 **graphRAG 앱**을 만들었는데, 소규모 태스크와 질문 응답을 분리하니 꽤 잘 작동함  
    MLX를 사용했는데, 엔티티 추출을 **배치 처리**할 때 훨씬 빠르게 느껴졌음

- Mac에서의 **Ollama 추론**이 MLX 덕분에 크게 개선된 게 반가움  
  특히 [omlx.ai](https://omlx.ai/)의 **SSD KV 캐싱** 기능이 게임 체인저였음  
  세션이 메모리에서 사라져도 다시 프리필할 필요가 없고, M5 Max의 빠른 프리필 속도 덕분에 생성에 더 많은 시간을 쓸 수 있게 됨

- M2 Max 96GB에서 **qwen 70b 4-bit**를 llama.cpp로 돌리고 있음  
  일상 작업에는 충분히 안정적임. Ollama가 예전엔 llama.cpp를 셸로 호출했는데, 이제 **MLX 네이티브 전환**으로 메모리 효율이 좋아질 듯함  
  큰 모델에서 gguf 경로와 비교해볼 생각임
  - 초당 **토큰 생성 속도**가 얼마나 되는지 궁금함
  - 초기 론칭 때 GGUF 모델 일부를 덮어써서 Apple Silicon 외 플랫폼에서 다운로드가 막혔었음. 곧 수정되길 바람

- 왜 아직도 **Ollama**를 쓰는지 의문임  
  **Lemonade**나 llama.cpp가 더 최적화되어 있고 사용성도 비슷함

- Mac 수준의 성능으로 로컬 모델을 돌릴 수 있는 **비맥(非Mac) 대안**이 있는지 궁금함
  - 비슷한 수준은 아님. PC에서는 5090급 GPU가 필요하지만, **비용 대비 토큰 효율**이나 전력 효율 모두 Apple Silicon이 훨씬 우수함

- 최신 **MLX 추론 엔진 optiq**과 비교했을 때 어떤지 궁금함  
  optiq은 [Turboquantization](https://mlx-optiq.pages.dev/)을 지원함

- **llama.cpp와 MLX**의 성능 비교가 궁금함
  - MLX가 약간 더 빠르지만 RAM 사용량이 조금 많음  
    그래도 대부분의 경우엔 **속도 향상**이 더 가치 있음

- **16GB RAM**만으로 MacOS에서 로컬 LLM으로 **Claude Code**를 편하게 돌릴 수 있는 날을 기다리고 있음
  - 현재는 최소 32GB가 필요하다고 들었는데, 실제로 얼마나 가까워졌는지 궁금함