Ollama, 이제 애플 실리콘에서 MLX 기반으로 구동

(ollama.com)

3P by GN⁺ 11시간전 | ★ favorite | 댓글 1개

Apple MLX 프레임워크를 기반으로 한 Ollama의 프리뷰 버전이 공개, Apple Silicon의 통합 메모리 아키텍처를 활용한 성능 향상 제공
M5 시리즈 칩의 GPU Neural Accelerator를 통해 TTFT(첫 토큰 생성 시간) 과 토큰 생성 속도가 모두 개선됨
NVFP4 형식 지원으로 모델 정확도를 유지하면서 메모리 대역폭과 저장소 요구량을 줄이고, NVIDIA Model Optimizer로 최적화된 모델 실행 가능
캐시 재사용 및 스마트 캐시 정책으로 대화 간 메모리 효율과 응답 속도를 높이고, 공유 프롬프트의 캐시 히트율을 향상
향후 더 많은 모델과 커스텀 모델 가져오기 기능을 추가해 지원 아키텍처를 확장할 계획임

Apple Silicon에서 MLX 기반으로 구동되는 Ollama 프리뷰

Apple의 MLX 프레임워크를 기반으로 한 Ollama의 새로운 프리뷰 버전이 공개됨
- macOS에서 개인 비서(OpenClaw)나 코딩 에이전트(Claude Code, OpenCode, Codex 등)를 더 빠르게 실행 가능
- Apple Silicon의 통합 메모리 아키텍처를 활용해 성능 향상
Apple Silicon에서의 성능 향상
- Ollama는 Apple의 MLX 머신러닝 프레임워크 위에서 동작하며, M5, M5 Pro, M5 Max 칩의 GPU Neural Accelerator를 활용해 TTFT(첫 토큰 생성 시간) 과 토큰 생성 속도를 모두 가속
- 2026년 3월 29일 테스트에서 Alibaba의 Qwen3.5-35B-A3B 모델(NVFP4 양자화)과 이전 Ollama 구현(Q4_K_M)을 비교
- Ollama 0.19 버전은 int4 실행 시 1851 token/s 프리필, 134 token/s 디코드 성능을 기록
NVFP4 지원
- NVIDIA의 NVFP4 형식을 지원해 모델 정확도 유지와 함께 메모리 대역폭 및 저장소 요구량 감소 달성
- NVFP4를 사용하는 추론 환경과 생산 환경 간 결과 일치성 확보
- NVIDIA의 Model Optimizer로 최적화된 모델 실행 가능
- Ollama 연구 및 하드웨어 파트너의 설계·용도에 따라 다른 정밀도(precision)도 추가 예정
캐시 시스템 개선
- 캐시 재사용으로 대화 간 메모리 사용량을 줄이고, 공유 시스템 프롬프트 사용 시 캐시 히트율 향상
- 지능형 체크포인트를 도입해 프롬프트 처리량 감소 및 응답 속도 향상
- 스마트 캐시 제거 정책으로 오래된 브랜치가 삭제되어도 공유 프리픽스(prefix)가 더 오래 유지
시작 방법
- Ollama 0.19 다운로드 가능
- 새로운 Qwen3.5-35B-A3B 모델을 코딩 작업에 맞게 샘플링 파라미터로 튜닝
- 32GB 이상의 통합 메모리를 가진 Mac 필요
- 실행 예시:
  - Claude Code: ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
  - OpenClaw: ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4
  - 모델 대화: ollama run qwen3.5:35b-a3b-coding-nvfp4
향후 계획
- 더 많은 모델 지원 예정
- 지원 아키텍처 기반의 커스텀 모델 가져오기 기능 추가 예정
- 지원 아키텍처 목록을 지속적으로 확장
감사 인사
- MLX 기여자 팀의 가속화 프레임워크 개발
- NVIDIA 팀의 NVFP4 양자화, 모델 최적화, MLX CUDA 지원, Ollama 최적화 및 테스트
- GGML 및 llama.cpp 팀의 로컬 프레임워크 및 커뮤니티 구축
- Alibaba Qwen 팀의 오픈소스 모델 제공 및 협력

▲

GN⁺ 11시간전 [-]

Hacker News 의견들

내가 만든 "apfel"은 Apple의 온디바이스 로컬 foundation model을 위한 CLI임
4k 컨텍스트 제한과 색상 묘사조차 막는 과도한 가드레일이 있긴 하지만, 외부 호출 없이 bash 스크립트에서 바로 쓸 수 있다는 점이 정말 강력하게 느껴짐
- 솔직히 Apple이 이런 상태로 제품을 출시했다는 게 믿기지 않음
  나도 기대했는데 써보니 실망감이 컸음. 이제 Apple이 Gemini 쪽으로 완전히 방향을 튼 것 같아 오히려 다행이라 생각함
- 멋진 프로젝트임. 혹시 Homebrew 배포 계획도 있는지 궁금함
온디바이스 LLM이 미래라고 생각함
보안이 강화되고, 데이터센터 대비 전력 소모가 적으며, 추론 수요 문제도 완화할 수 있음. 대부분의 사용자는 최첨단 모델 성능까지는 필요하지 않음
- 보안성은 높지만, 공급 효율은 오히려 악화될 수 있음
  데이터센터는 GPU 배칭(batch) 과 높은 활용률 덕분에 개인 PC보다 거의 100배 가까이 효율적임
- 기업 입장에서는 여전히 중앙화된 데이터센터 모델이 합리적일 수 있음
  다만 로컬 모델이 간단한 요청을 처리하고, 복잡한 건 클라우드로 넘기는 하이브리드 접근이 유망해 보임
- 최근 M4 MBP에 llama.cpp를 설치해 로컬 모델을 실험 중임
  ChatGPT 스타일 인터페이스가 내장되어 있어 빠른 테스트에 유용함. 16GB RAM에서도 꽤 괜찮은 모델들이 돌아감
  예를 들어 Qwen 3.5 9B는 검열이 심하지만, Uncensored 버전은 반대로 너무 자유로워서 균형 잡기가 흥미로움
- SSD 오프로딩으로도 SOTA 모델을 소비자용 PC에서 돌릴 수 있음
  다만 SSD 대역폭이 병목이라 캐시용 RAM이 많을수록 좋음. 응답을 기다릴 여유가 있다면 충분히 실용적임
- 5년째 디지털 저널링을 하며 이런 흐름을 예상했음
  최근 Qwen 3.5 4B와 27B를 조합해 graphRAG 앱을 만들었는데, 소규모 태스크와 질문 응답을 분리하니 꽤 잘 작동함
  MLX를 사용했는데, 엔티티 추출을 배치 처리할 때 훨씬 빠르게 느껴졌음
Mac에서의 Ollama 추론이 MLX 덕분에 크게 개선된 게 반가움
특히 omlx.ai의 SSD KV 캐싱 기능이 게임 체인저였음
세션이 메모리에서 사라져도 다시 프리필할 필요가 없고, M5 Max의 빠른 프리필 속도 덕분에 생성에 더 많은 시간을 쓸 수 있게 됨
M2 Max 96GB에서 qwen 70b 4-bit를 llama.cpp로 돌리고 있음
일상 작업에는 충분히 안정적임. Ollama가 예전엔 llama.cpp를 셸로 호출했는데, 이제 MLX 네이티브 전환으로 메모리 효율이 좋아질 듯함
큰 모델에서 gguf 경로와 비교해볼 생각임
- 초당 토큰 생성 속도가 얼마나 되는지 궁금함
- 초기 론칭 때 GGUF 모델 일부를 덮어써서 Apple Silicon 외 플랫폼에서 다운로드가 막혔었음. 곧 수정되길 바람
왜 아직도 Ollama를 쓰는지 의문임
Lemonade나 llama.cpp가 더 최적화되어 있고 사용성도 비슷함
Mac 수준의 성능으로 로컬 모델을 돌릴 수 있는 비맥(非Mac) 대안이 있는지 궁금함
- 비슷한 수준은 아님. PC에서는 5090급 GPU가 필요하지만, 비용 대비 토큰 효율이나 전력 효율 모두 Apple Silicon이 훨씬 우수함
최신 MLX 추론 엔진 optiq과 비교했을 때 어떤지 궁금함
optiq은 Turboquantization을 지원함
llama.cpp와 MLX의 성능 비교가 궁금함
- MLX가 약간 더 빠르지만 RAM 사용량이 조금 많음
  그래도 대부분의 경우엔 속도 향상이 더 가치 있음
16GB RAM만으로 MacOS에서 로컬 LLM으로 Claude Code를 편하게 돌릴 수 있는 날을 기다리고 있음
- 현재는 최소 32GB가 필요하다고 들었는데, 실제로 얼마나 가까워졌는지 궁금함

답변달기

Ollama, 이제 애플 실리콘에서 MLX 기반으로 구동

Apple Silicon에서 MLX 기반으로 구동되는 Ollama 프리뷰

Apple Silicon에서의 성능 향상

NVFP4 지원

캐시 시스템 개선

시작 방법

향후 계획

감사 인사

Hacker News 의견들