3P by GN⁺ 11시간전 | ★ favorite | 댓글 1개
  • Apple MLX 프레임워크를 기반으로 한 Ollama의 프리뷰 버전이 공개, Apple Silicon의 통합 메모리 아키텍처를 활용한 성능 향상 제공
  • M5 시리즈 칩의 GPU Neural Accelerator를 통해 TTFT(첫 토큰 생성 시간)토큰 생성 속도가 모두 개선됨
  • NVFP4 형식 지원으로 모델 정확도를 유지하면서 메모리 대역폭과 저장소 요구량을 줄이고, NVIDIA Model Optimizer로 최적화된 모델 실행 가능
  • 캐시 재사용 및 스마트 캐시 정책으로 대화 간 메모리 효율과 응답 속도를 높이고, 공유 프롬프트의 캐시 히트율을 향상
  • 향후 더 많은 모델과 커스텀 모델 가져오기 기능을 추가해 지원 아키텍처를 확장할 계획임

Apple Silicon에서 MLX 기반으로 구동되는 Ollama 프리뷰

  • Apple의 MLX 프레임워크를 기반으로 한 Ollama의 새로운 프리뷰 버전이 공개됨
    • macOS에서 개인 비서(OpenClaw)나 코딩 에이전트(Claude Code, OpenCode, Codex 등)를 더 빠르게 실행 가능
    • Apple Silicon의 통합 메모리 아키텍처를 활용해 성능 향상
  • Apple Silicon에서의 성능 향상

    • Ollama는 Apple의 MLX 머신러닝 프레임워크 위에서 동작하며, M5, M5 Pro, M5 Max 칩의 GPU Neural Accelerator를 활용해 TTFT(첫 토큰 생성 시간)토큰 생성 속도를 모두 가속
    • 2026년 3월 29일 테스트에서 Alibaba의 Qwen3.5-35B-A3B 모델(NVFP4 양자화)과 이전 Ollama 구현(Q4_K_M)을 비교
    • Ollama 0.19 버전은 int4 실행 시 1851 token/s 프리필, 134 token/s 디코드 성능을 기록
  • NVFP4 지원

    • NVIDIA의 NVFP4 형식을 지원해 모델 정확도 유지와 함께 메모리 대역폭 및 저장소 요구량 감소 달성
    • NVFP4를 사용하는 추론 환경과 생산 환경 간 결과 일치성 확보
    • NVIDIA의 Model Optimizer로 최적화된 모델 실행 가능
    • Ollama 연구 및 하드웨어 파트너의 설계·용도에 따라 다른 정밀도(precision)도 추가 예정
  • 캐시 시스템 개선

    • 캐시 재사용으로 대화 간 메모리 사용량을 줄이고, 공유 시스템 프롬프트 사용 시 캐시 히트율 향상
    • 지능형 체크포인트를 도입해 프롬프트 처리량 감소 및 응답 속도 향상
    • 스마트 캐시 제거 정책으로 오래된 브랜치가 삭제되어도 공유 프리픽스(prefix)가 더 오래 유지
  • 시작 방법

    • Ollama 0.19 다운로드 가능
    • 새로운 Qwen3.5-35B-A3B 모델을 코딩 작업에 맞게 샘플링 파라미터로 튜닝
    • 32GB 이상의 통합 메모리를 가진 Mac 필요
    • 실행 예시:
      • Claude Code: ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
      • OpenClaw: ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4
      • 모델 대화: ollama run qwen3.5:35b-a3b-coding-nvfp4
  • 향후 계획

    • 더 많은 모델 지원 예정
    • 지원 아키텍처 기반의 커스텀 모델 가져오기 기능 추가 예정
    • 지원 아키텍처 목록을 지속적으로 확장
  • 감사 인사

    • MLX 기여자 팀의 가속화 프레임워크 개발
    • NVIDIA 팀의 NVFP4 양자화, 모델 최적화, MLX CUDA 지원, Ollama 최적화 및 테스트
    • GGML 및 llama.cpp 팀의 로컬 프레임워크 및 커뮤니티 구축
    • Alibaba Qwen 팀의 오픈소스 모델 제공 및 협력
Hacker News 의견들
  • 내가 만든 "apfel"은 Apple의 온디바이스 로컬 foundation model을 위한 CLI임
    4k 컨텍스트 제한과 색상 묘사조차 막는 과도한 가드레일이 있긴 하지만, 외부 호출 없이 bash 스크립트에서 바로 쓸 수 있다는 점이 정말 강력하게 느껴짐

    • 솔직히 Apple이 이런 상태로 제품을 출시했다는 게 믿기지 않음
      나도 기대했는데 써보니 실망감이 컸음. 이제 Apple이 Gemini 쪽으로 완전히 방향을 튼 것 같아 오히려 다행이라 생각함
    • 멋진 프로젝트임. 혹시 Homebrew 배포 계획도 있는지 궁금함
  • 온디바이스 LLM이 미래라고 생각함
    보안이 강화되고, 데이터센터 대비 전력 소모가 적으며, 추론 수요 문제도 완화할 수 있음. 대부분의 사용자는 최첨단 모델 성능까지는 필요하지 않음

    • 보안성은 높지만, 공급 효율은 오히려 악화될 수 있음
      데이터센터는 GPU 배칭(batch) 과 높은 활용률 덕분에 개인 PC보다 거의 100배 가까이 효율적임
    • 기업 입장에서는 여전히 중앙화된 데이터센터 모델이 합리적일 수 있음
      다만 로컬 모델이 간단한 요청을 처리하고, 복잡한 건 클라우드로 넘기는 하이브리드 접근이 유망해 보임
    • 최근 M4 MBP에 llama.cpp를 설치해 로컬 모델을 실험 중임
      ChatGPT 스타일 인터페이스가 내장되어 있어 빠른 테스트에 유용함. 16GB RAM에서도 꽤 괜찮은 모델들이 돌아감
      예를 들어 Qwen 3.5 9B는 검열이 심하지만, Uncensored 버전은 반대로 너무 자유로워서 균형 잡기가 흥미로움
    • SSD 오프로딩으로도 SOTA 모델을 소비자용 PC에서 돌릴 수 있음
      다만 SSD 대역폭이 병목이라 캐시용 RAM이 많을수록 좋음. 응답을 기다릴 여유가 있다면 충분히 실용적임
    • 5년째 디지털 저널링을 하며 이런 흐름을 예상했음
      최근 Qwen 3.5 4B와 27B를 조합해 graphRAG 앱을 만들었는데, 소규모 태스크와 질문 응답을 분리하니 꽤 잘 작동함
      MLX를 사용했는데, 엔티티 추출을 배치 처리할 때 훨씬 빠르게 느껴졌음
  • Mac에서의 Ollama 추론이 MLX 덕분에 크게 개선된 게 반가움
    특히 omlx.aiSSD KV 캐싱 기능이 게임 체인저였음
    세션이 메모리에서 사라져도 다시 프리필할 필요가 없고, M5 Max의 빠른 프리필 속도 덕분에 생성에 더 많은 시간을 쓸 수 있게 됨

  • M2 Max 96GB에서 qwen 70b 4-bit를 llama.cpp로 돌리고 있음
    일상 작업에는 충분히 안정적임. Ollama가 예전엔 llama.cpp를 셸로 호출했는데, 이제 MLX 네이티브 전환으로 메모리 효율이 좋아질 듯함
    큰 모델에서 gguf 경로와 비교해볼 생각임

    • 초당 토큰 생성 속도가 얼마나 되는지 궁금함
    • 초기 론칭 때 GGUF 모델 일부를 덮어써서 Apple Silicon 외 플랫폼에서 다운로드가 막혔었음. 곧 수정되길 바람
  • 왜 아직도 Ollama를 쓰는지 의문임
    Lemonade나 llama.cpp가 더 최적화되어 있고 사용성도 비슷함

  • Mac 수준의 성능으로 로컬 모델을 돌릴 수 있는 비맥(非Mac) 대안이 있는지 궁금함

    • 비슷한 수준은 아님. PC에서는 5090급 GPU가 필요하지만, 비용 대비 토큰 효율이나 전력 효율 모두 Apple Silicon이 훨씬 우수함
  • 최신 MLX 추론 엔진 optiq과 비교했을 때 어떤지 궁금함
    optiq은 Turboquantization을 지원함

  • llama.cpp와 MLX의 성능 비교가 궁금함

    • MLX가 약간 더 빠르지만 RAM 사용량이 조금 많음
      그래도 대부분의 경우엔 속도 향상이 더 가치 있음
  • 16GB RAM만으로 MacOS에서 로컬 LLM으로 Claude Code를 편하게 돌릴 수 있는 날을 기다리고 있음

    • 현재는 최소 32GB가 필요하다고 들었는데, 실제로 얼마나 가까워졌는지 궁금함