10P by GN⁺ 1일전 | ★ favorite | 댓글 1개
  • Apple Silicon 기반 Mac mini에서 OllamaGemma 4 모델을 자동 실행하고 메모리에 지속 유지하도록 구성하는 절차 정리
  • Homebrew, Launch Agent, 환경 변수를 이용해 재부팅 후에도 모델이 자동 로드되며, 8B 모델은 약 9.6GB 메모리로 안정적 동작
  • Ollama v0.19 이상MLX 백엔드NVFP4 포맷을 지원해 Apple 및 NVIDIA 환경에서 추론 성능 향상
  • 26B 모델은 메모리 점유가 높아 비추천되며, 8B 모델이 실사용에 적합
  • 로컬 API를 통해 OpenAI 호환 Chat Completion 요청이 가능하며, Mac mini에서 지속적 LLM 서비스 환경 구축에 유용함

사전 준비

  • Apple Silicon (M1~M5) 기반 Mac mini 필요
  • Gemma 4 (8B) 모델 구동을 위해 최소 16GB 통합 메모리 권장
  • Homebrew가 설치된 macOS 환경 필요

Step 1 — Ollama 설치

  • Homebrew cask를 이용해 Ollama macOS 앱 설치

    brew install --cask ollama-app
    
  • 설치 후 /Applications/Ollama.app, /opt/homebrew/bin/ollamaCLI 배치

  • 자동 업데이트 및 MLX 백엔드 포함

Step 2 — Ollama 실행 및 확인

  • Ollama 앱 실행

    open -a Ollama
    
  • 메뉴 막대에 아이콘 표시 후 서버 초기화 대기

  • 실행 상태 확인

    ollama list
    

Step 3 — Gemma 4 모델 다운로드

  • 모델 다운로드

    ollama pull gemma4
    
  • 9.6GB 다운로드 후 ollama list로 확인

  • 26B 모델은 24GB 메모리 대부분을 점유해 시스템 응답 저하 발생

    • 기본 8B (Q4_K_M 양자화) 모델 사용 권장

Step 4 — 모델 테스트 및 GPU 가속 확인

  • 모델 테스트

    ollama run gemma4:latest "Hello, what model are you?"
    
  • GPU 가속 상태 확인

    ollama ps
    
    • 예시: CPU/GPU 비율 14%/86%

Step 5 — 자동 실행 및 모델 유지 설정

  • 5a. Ollama 앱 자동 실행

    • 메뉴 막대 아이콘 클릭 → Launch at Login 활성화
    • 또는 System Settings > General > Login Items에서 수동 추가
  • 5b. Gemma 4 자동 프리로드

    • Ollama 시작 후 모델을 자동 로드하고 5분마다 유지하도록 Launch Agent 생성

      cat << 'EOF' > ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
      ...
      EOF
      
    • 에이전트 로드

      launchctl load ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
      
    • 5분마다 빈 프롬프트를 보내 모델을 메모리에 유지

  • 5c. 모델 무기한 유지

    • 기본적으로 5분 비활성 시 모델 언로드됨

    • 무기한 유지 설정

      launchctl setenv OLLAMA_KEEP_ALIVE "-1"
      
    • 재부팅 후에도 유지하려면 ~/.zshrc에 추가

Step 6 — 설정 검증

  • Ollama 서버 실행 확인

    ollama list
    
  • 모델 메모리 로드 상태 확인

    ollama ps
    
  • Launch Agent 등록 확인

    launchctl list | grep ollama
    
  • 예상 출력 예시

    gemma4:latest ... 9.6 GB 14%/86% CPU/GPU 4096 Forever
    

API 접근

유용한 명령어

명령어 설명
ollama list 다운로드된 모델 목록
ollama ps 실행 중인 모델 및 메모리 사용량
ollama run gemma4:latest 대화형 실행
ollama stop gemma4:latest 모델 언로드
ollama pull gemma4:latest 최신 버전 업데이트
ollama rm gemma4:latest 모델 삭제

Ollama 제거 및 자동 실행 해제

launchctl unload ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
rm ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
brew uninstall --cask ollama-app

Ollama v0.19+ 주요 개선점 (2026년 3월 31일)

  • MLX 백엔드 (Apple Silicon)

    • Apple MLX 프레임워크를 자동 사용하여 추론 속도 향상
    • M5 계열 칩은 GPU Neural Accelerator 추가 가속 지원
    • M4 이하 칩도 MLX 기반 일반 속도 향상 적용
  • NVFP4 포맷 (NVIDIA)

    • NVFP4 형식을 통해 정확도를 유지하면서 메모리 대역폭과 저장 공간 절감
    • NVIDIA 모델 최적화 도구로 생성된 모델과 호환
  • 캐싱 개선 (코딩 및 에이전트 작업)

    • 메모리 사용량 감소: 대화 간 캐시 재사용으로 효율 향상
    • 지능형 체크포인트: 프롬프트 처리량 감소 및 응답 속도 향상
    • 스마트 캐시 제거: 공통 프리픽스 유지로 분기 작업 효율 개선

추가 메모

  • Gemma 4 (8B) 모델은 약 9.6GB 메모리 사용
    • 24GB Mac mini에서 약 14GB 여유 확보 가능
  • 26B 모델은 약 17GB 사용으로 시스템 스왑 및 응답 저하 발생
    • 8B 모델이 안정적 성능 제공

참고 링크

Hacker News 의견들
  • 처음으로 open weight 모델을 출시 직후 써보는 사람이라면, 초기 구현과 양자화(quantization)에 항상 버그가 있다는 점을 알아야 함
    각 프로젝트가 출시일에 맞춰 지원하려고 서두르기 때문에 결과가 올바르지 않을 수 있음
    이미 tokenizer 구현에서 여러 문제가 발견되고 있고, imatrix를 사용하는 양자화도 문제가 될 수 있음
    앞으로 몇 주간 “툴 호출이 안 돼서 모델이 엉망이다” 같은 글이 많이 올라올 것임. 사실은 깨진 구현체를 쓴 사람들이 그런 것임
    cutting-edge 모델을 쓰려면 추론 엔진을 자주 업데이트하고, 양자화 버전도 바뀔 때마다 다시 다운로드할 준비가 되어 있어야 함
    출시일에 맞추려는 경쟁 때문에 “출력 토큰이 나오면 바로 배포”하는 식으로 진행되므로, 정확성 검증은 나중 문제임

    • 리눅스와 4090 환경에서 어떤 inference engine을 써야 하는지 궁금함
      툴 호출이 안 되는 문제를 자주 겪는데, 이게 모델 문제인지 ollama 문제인지 모르겠음
  • Mac mini를 사서 로컬로 모델을 돌릴까 고민 중임
    나는 Claude를 주로 개발 작업과 홈랩 프로젝트에 쓰고 있는데, 오픈 모델이 그 정도로 쓸 만한지, 아니면 월 20달러 구독을 유지하는 게 나은지 알고 싶음

    • 작은 작업에는 괜찮지만 Claude처럼 쓰기엔 실망할 가능성이 큼
      하드웨어를 사서 직접 호스팅하기 전에, 호스팅 서비스에서 먼저 써보는 걸 추천함. 모델의 한계를 미리 체감할 수 있음
    • 나는 llama 유출 때부터 오픈 모델을 써왔음. 점점 좋아지고 있고, 인터넷 없이 로컬에서 지식 덩어리를 돌릴 수 있다는 게 멋짐
      하지만 기대치를 낮춰야 함. 벤치마크가 뭐라 하든 Sonnet이나 Opus와는 비교 불가임
    • OpenRouter 크레딧 10달러만 써서 직접 테스트해보는 게 제일 좋음. 내 경험상 아직은 많이 부족하지만 가끔 확인해보는 재미는 있음
    • gpt-oss-20B는 에이전트 성능이 꽤 괜찮았지만, Claude Code 유료 모델과는 비교 불가임. 120B는 훨씬 낫다는 얘기는 들었음
  • MacBook Pro M4 (36GB) 로 LM Studio에서 open code 프런트엔드로 테스트했는데, 툴 호출이 계속 실패해서 qwen으로 돌아감
    비슷한 환경에서 성공한 사람 있는지 궁금함

    • 툴 호출 실패는 추론 엔진 구현이나 양자화 문제임. 며칠 후 업데이트 후 다시 시도해보길 권함. 이런 건 모든 오픈 모델 출시 때마다 생기는 일임
    • 나는 M5 (32GB) 에서 LM Studio 실행 시 컴퓨터가 멈춰서 재부팅해야 했음
      하지만 gemma-4-26B-A4B-it-GGUF:Q4_K_M은 llama.cpp에서 잘 돌아갔음. 속도(초당 38토큰)와 품질 모두 인상적이었음
    • 나도 같은 문제를 겪었음. LM Studio의 Q_8 버전에서 명령을 계속 반복하는 루프 모드에 빠짐
    • 다른 사람들 말로는 메인과 런타임 버전을 모두 업데이트해야 한다고 함
    • Ubuntu 서버(charmbracelet/crush)에서도 툴 호출 실패를 확인했음
  • Claude Sonnet 4.5를 대체할 오픈 모델을 찾고 있음
    Ollama Cloud나 OpenRouter.ai 모델 중 대체 가능한 게 있는지 궁금함
    벤치마크보다 실제 개발자들의 사용 경험을 듣고 싶음

    • 결론적으로 Sonnet과 Opus를 대체할 모델은 없음. GPT Codex 계열도 여전히 훌륭함
      MiniMax, GLM, Qwen, Kimi 등을 써봤지만 복잡한 작업에서는 모두 한계가 큼
    • GLM5KimiK2.5는 Sonnet에 꽤 근접한 대체재라고 느낌
  • M5 Air (32GB, 10코어) 에서 oMLX 빌드로 돌려본 사람 있는지 궁금함. 툴 호출까지 되는지 알고 싶음

    • v0.3.2 릴리스는 부분 지원 상태임. 텍스트 생성은 되지만 특수 토큰 처리는 미완성임
      개인적으로 툴 호출과 <|channel> thinking 지원을 추가하는 테스트를 진행 중임
    • 누군가 Gemma 4 E4B를 MLX에서 구동했다고 들었음 (링크)
  • “Gemma 4 12B”용 단계가 중간에 26B로 바뀌는 게 이상함
    또 ollama ps에서 “14%/86% CPU/GPU”로 표시되는데, 이건 GPU 성능이 나쁘다는 뜻 아닌가?

    • Mac mini는 CPU와 GPU가 메모리를 공유하므로, 그 비율은 무시해도 될 듯함
  • 로컬에서 26B 모델을 돌리는 건 인상적이지만, 지연(latency) 이 커서 채팅 외 작업은 힘듦
    우리는 이미지 생성 작업을 로컬 추론에서 API 호출로 바꿨음. 콜드 스타트와 생성 시간이 너무 길었음
    로컬은 실험용으로는 좋지만, 정시 실행이 필요한 프로덕션 워크로드에는 여전히 API가 유리함
    다만 프라이버시 민감한 데이터를 다룰 때는 로컬 세팅이 매우 유용함

  • 왜 이렇게 많은 사람들이 Ollama를 쓰는지 궁금함. 써봤는데 너무 단순화된 느낌이었음
    요즘은 Unsloth Studio가 초보자에게 더 좋은 기본값 같음

    • Ollama는 그냥 ollama pull 한 줄이면 모델을 받을 수 있어서 접근성이 좋음
      Hugging Face에서 모델 이름과 버전을 직접 찾아야 하는 복잡함이 없음
      하지만 더 깊이 들어가려면 결국 서버 구조를 배워야 함
    • Ollama는 초기에 first-mover advantage를 가졌음. 당시 llama.cpp를 직접 빌드하는 게 장벽이었음
      지금은 LM Studio를 더 추천함. Unsloth Studio는 어떤 점이 다른지 궁금함
    • 왜 사람들이 LMStudio를 더 언급하지 않는지 모르겠음. 나는 몇 달 전부터 옮겼는데 훨씬 낫다고 느낌
    • Ollama의 인기는 광고 효과 덕분임. Reddit과 Discord 등에서 ‘llama.cpp의 쉬운 프런트엔드’라고 홍보했음
      진짜 이기려면 Ollama를 지우고 llama.cpp로 직접 가야 함
    • 나는 반대로 묻고 싶음 — Ollama가 뭐가 문제인지?
      16GB GPU로도 잘 돌아가고, 다른 프런트엔드 실험용 백엔드로 쓰기에도 충분히 괜찮음
  • 이 모델을 로컬 코딩에 쓸 수 있는지, 어떤 IDE나 harness가 호환되는지 궁금함

    • 대부분의 harness는 OpenAI 호환 API 엔드포인트를 지정하면 로컬 코딩이 가능함
      다만 Codex 최신 버전은 llama.cpp와 API 호환성 문제가 있음
      나는 Pi를 선호함. 미니멀하고 확장성이 좋음. Claude Code나 OpenCode 등도 많이 쓰임
    • 툴 호출을 지원해야 하고, 많은 양자화 gguf는 그걸 지원하지 않음
      나는 이를 해결하기 위해 Petsitter라는 프록시를 만들어, 추론 엔진과 harness 사이에서 기능을 에뮬레이션함
      GitHub 링크
      Ollama 위에 Petsitter를 두고, 그 위에 에이전트 harness를 얹으면 됨
      Ollama 최신 버전은 이미 "completion", "vision", "audio", "tools", "thinking"을 지원함
  • 어젯밤에 이 모델을 쓰려면 Ollama v0.20 프리릴리스를 설치해야 했음. 그래서 현재 가이드가 정확한지 의문임