Mac mini에서 Ollama과 Gemma 4 26B 모델 설정 요약 (2026년 4월 기준)

(gist.github.com/greenstevester)

33P by GN⁺ 2달전 | ★ favorite | 댓글 1개

Apple Silicon 기반 Mac mini에서 Ollama와 Gemma 4 모델을 자동 실행하고 메모리에 지속 유지하도록 구성하는 절차 정리
Homebrew, Launch Agent, 환경 변수를 이용해 재부팅 후에도 모델이 자동 로드되며, 8B 모델은 약 9.6GB 메모리로 안정적 동작
Ollama v0.19 이상은 MLX 백엔드와 NVFP4 포맷을 지원해 Apple 및 NVIDIA 환경에서 추론 성능 향상
26B 모델은 메모리 점유가 높아 비추천되며, 8B 모델이 실사용에 적합
로컬 API를 통해 OpenAI 호환 Chat Completion 요청이 가능하며, Mac mini에서 지속적 LLM 서비스 환경 구축에 유용함

사전 준비

Apple Silicon (M1~M5) 기반 Mac mini 필요
Gemma 4 (8B) 모델 구동을 위해 최소 16GB 통합 메모리 권장
Homebrew가 설치된 macOS 환경 필요

Step 1 — Ollama 설치

Homebrew cask를 이용해 Ollama macOS 앱 설치
```
brew install --cask ollama-app
```
설치 후 /Applications/에 Ollama.app, /opt/homebrew/bin/ollama에 CLI 배치
자동 업데이트 및 MLX 백엔드 포함

Step 2 — Ollama 실행 및 확인

Ollama 앱 실행
```
open -a Ollama
```
메뉴 막대에 아이콘 표시 후 서버 초기화 대기
실행 상태 확인
```
ollama list
```

Step 3 — Gemma 4 모델 다운로드

모델 다운로드
```
ollama pull gemma4
```
약 9.6GB 다운로드 후 ollama list로 확인
26B 모델은 24GB 메모리 대부분을 점유해 시스템 응답 저하 발생
- 기본 8B (Q4_K_M 양자화) 모델 사용 권장

Step 4 — 모델 테스트 및 GPU 가속 확인

모델 테스트

ollama run gemma4:latest "Hello, what model are you?"

GPU 가속 상태 확인
```
ollama ps
```
- 예시: CPU/GPU 비율 14%/86%

Step 5 — 자동 실행 및 모델 유지 설정

5a. Ollama 앱 자동 실행
- 메뉴 막대 아이콘 클릭 → Launch at Login 활성화
- 또는 System Settings > General > Login Items에서 수동 추가
5b. Gemma 4 자동 프리로드
- Ollama 시작 후 모델을 자동 로드하고 5분마다 유지하도록 Launch Agent 생성
```
cat << 'EOF' > ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
...
EOF
```
- 에이전트 로드
```
launchctl load ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
```
- 5분마다 빈 프롬프트를 보내 모델을 메모리에 유지
5c. 모델 무기한 유지
- 기본적으로 5분 비활성 시 모델 언로드됨
- 무기한 유지 설정
```
launchctl setenv OLLAMA_KEEP_ALIVE "-1"
```
- 재부팅 후에도 유지하려면 ~/.zshrc에 추가

Step 6 — 설정 검증

Ollama 서버 실행 확인
```
ollama list
```
모델 메모리 로드 상태 확인
```
ollama ps
```
Launch Agent 등록 확인
```
launchctl list | grep ollama
```

예상 출력 예시

gemma4:latest ... 9.6 GB 14%/86% CPU/GPU 4096 Forever

API 접근

로컬 API 엔드포인트: http://localhost:11434

OpenAI 호환 Chat Completion 예시

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4:latest",
    "messages": [{"role": "user", "content": "Hello"}]
  }'

유용한 명령어

명령어	설명
`ollama list`	다운로드된 모델 목록
`ollama ps`	실행 중인 모델 및 메모리 사용량
`ollama run gemma4:latest`	대화형 실행
`ollama stop gemma4:latest`	모델 언로드
`ollama pull gemma4:latest`	최신 버전 업데이트
`ollama rm gemma4:latest`	모델 삭제

Ollama 제거 및 자동 실행 해제

launchctl unload ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
rm ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
brew uninstall --cask ollama-app

Ollama v0.19+ 주요 개선점 (2026년 3월 31일)

MLX 백엔드 (Apple Silicon)
- Apple MLX 프레임워크를 자동 사용하여 추론 속도 향상
- M5 계열 칩은 GPU Neural Accelerator 추가 가속 지원
- M4 이하 칩도 MLX 기반 일반 속도 향상 적용
NVFP4 포맷 (NVIDIA)
- NVFP4 형식을 통해 정확도를 유지하면서 메모리 대역폭과 저장 공간 절감
- NVIDIA 모델 최적화 도구로 생성된 모델과 호환
캐싱 개선 (코딩 및 에이전트 작업)
- 메모리 사용량 감소: 대화 간 캐시 재사용으로 효율 향상
- 지능형 체크포인트: 프롬프트 처리량 감소 및 응답 속도 향상
- 스마트 캐시 제거: 공통 프리픽스 유지로 분기 작업 효율 개선

추가 메모

Gemma 4 (8B) 모델은 약 9.6GB 메모리 사용
- 24GB Mac mini에서 약 14GB 여유 확보 가능
26B 모델은 약 17GB 사용으로 시스템 스왑 및 응답 저하 발생
- 8B 모델이 안정적 성능 제공

참고 링크

▲

GN⁺ 2달전 [-]

Hacker News 의견들

처음으로 open weight 모델을 출시 직후 써보는 사람이라면, 초기 구현과 양자화(quantization)에 항상 버그가 있다는 점을 알아야 함
각 프로젝트가 출시일에 맞춰 지원하려고 서두르기 때문에 결과가 올바르지 않을 수 있음
이미 tokenizer 구현에서 여러 문제가 발견되고 있고, imatrix를 사용하는 양자화도 문제가 될 수 있음
앞으로 몇 주간 “툴 호출이 안 돼서 모델이 엉망이다” 같은 글이 많이 올라올 것임. 사실은 깨진 구현체를 쓴 사람들이 그런 것임
cutting-edge 모델을 쓰려면 추론 엔진을 자주 업데이트하고, 양자화 버전도 바뀔 때마다 다시 다운로드할 준비가 되어 있어야 함
출시일에 맞추려는 경쟁 때문에 “출력 토큰이 나오면 바로 배포”하는 식으로 진행되므로, 정확성 검증은 나중 문제임
- 리눅스와 4090 환경에서 어떤 inference engine을 써야 하는지 궁금함
  툴 호출이 안 되는 문제를 자주 겪는데, 이게 모델 문제인지 ollama 문제인지 모르겠음
Mac mini를 사서 로컬로 모델을 돌릴까 고민 중임
나는 Claude를 주로 개발 작업과 홈랩 프로젝트에 쓰고 있는데, 오픈 모델이 그 정도로 쓸 만한지, 아니면 월 20달러 구독을 유지하는 게 나은지 알고 싶음
- 작은 작업에는 괜찮지만 Claude처럼 쓰기엔 실망할 가능성이 큼
  하드웨어를 사서 직접 호스팅하기 전에, 호스팅 서비스에서 먼저 써보는 걸 추천함. 모델의 한계를 미리 체감할 수 있음
- 나는 llama 유출 때부터 오픈 모델을 써왔음. 점점 좋아지고 있고, 인터넷 없이 로컬에서 지식 덩어리를 돌릴 수 있다는 게 멋짐
  하지만 기대치를 낮춰야 함. 벤치마크가 뭐라 하든 Sonnet이나 Opus와는 비교 불가임
- OpenRouter 크레딧 10달러만 써서 직접 테스트해보는 게 제일 좋음. 내 경험상 아직은 많이 부족하지만 가끔 확인해보는 재미는 있음
- gpt-oss-20B는 에이전트 성능이 꽤 괜찮았지만, Claude Code 유료 모델과는 비교 불가임. 120B는 훨씬 낫다는 얘기는 들었음
MacBook Pro M4 (36GB) 로 LM Studio에서 open code 프런트엔드로 테스트했는데, 툴 호출이 계속 실패해서 qwen으로 돌아감
비슷한 환경에서 성공한 사람 있는지 궁금함
- 툴 호출 실패는 추론 엔진 구현이나 양자화 문제임. 며칠 후 업데이트 후 다시 시도해보길 권함. 이런 건 모든 오픈 모델 출시 때마다 생기는 일임
- 나는 M5 (32GB) 에서 LM Studio 실행 시 컴퓨터가 멈춰서 재부팅해야 했음
  하지만 gemma-4-26B-A4B-it-GGUF:Q4_K_M은 llama.cpp에서 잘 돌아갔음. 속도(초당 38토큰)와 품질 모두 인상적이었음
- 나도 같은 문제를 겪었음. LM Studio의 Q_8 버전에서 명령을 계속 반복하는 루프 모드에 빠짐
- 다른 사람들 말로는 메인과 런타임 버전을 모두 업데이트해야 한다고 함
- Ubuntu 서버(charmbracelet/crush)에서도 툴 호출 실패를 확인했음
Claude Sonnet 4.5를 대체할 오픈 모델을 찾고 있음
Ollama Cloud나 OpenRouter.ai 모델 중 대체 가능한 게 있는지 궁금함
벤치마크보다 실제 개발자들의 사용 경험을 듣고 싶음
- 결론적으로 Sonnet과 Opus를 대체할 모델은 없음. GPT Codex 계열도 여전히 훌륭함
  MiniMax, GLM, Qwen, Kimi 등을 써봤지만 복잡한 작업에서는 모두 한계가 큼
- GLM5와 KimiK2.5는 Sonnet에 꽤 근접한 대체재라고 느낌
M5 Air (32GB, 10코어) 에서 oMLX 빌드로 돌려본 사람 있는지 궁금함. 툴 호출까지 되는지 알고 싶음
- v0.3.2 릴리스는 부분 지원 상태임. 텍스트 생성은 되지만 특수 토큰 처리는 미완성임
  개인적으로 툴 호출과 <|channel> thinking 지원을 추가하는 테스트를 진행 중임
- 누군가 Gemma 4 E4B를 MLX에서 구동했다고 들었음 (링크)
“Gemma 4 12B”용 단계가 중간에 26B로 바뀌는 게 이상함
또 ollama ps에서 “14%/86% CPU/GPU”로 표시되는데, 이건 GPU 성능이 나쁘다는 뜻 아닌가?
- Mac mini는 CPU와 GPU가 메모리를 공유하므로, 그 비율은 무시해도 될 듯함
로컬에서 26B 모델을 돌리는 건 인상적이지만, 지연(latency) 이 커서 채팅 외 작업은 힘듦
우리는 이미지 생성 작업을 로컬 추론에서 API 호출로 바꿨음. 콜드 스타트와 생성 시간이 너무 길었음
로컬은 실험용으로는 좋지만, 정시 실행이 필요한 프로덕션 워크로드에는 여전히 API가 유리함
다만 프라이버시 민감한 데이터를 다룰 때는 로컬 세팅이 매우 유용함
왜 이렇게 많은 사람들이 Ollama를 쓰는지 궁금함. 써봤는데 너무 단순화된 느낌이었음
요즘은 Unsloth Studio가 초보자에게 더 좋은 기본값 같음
- Ollama는 그냥 ollama pull 한 줄이면 모델을 받을 수 있어서 접근성이 좋음
  Hugging Face에서 모델 이름과 버전을 직접 찾아야 하는 복잡함이 없음
  하지만 더 깊이 들어가려면 결국 서버 구조를 배워야 함
- Ollama는 초기에 first-mover advantage를 가졌음. 당시 llama.cpp를 직접 빌드하는 게 장벽이었음
  지금은 LM Studio를 더 추천함. Unsloth Studio는 어떤 점이 다른지 궁금함
- 왜 사람들이 LMStudio를 더 언급하지 않는지 모르겠음. 나는 몇 달 전부터 옮겼는데 훨씬 낫다고 느낌
- Ollama의 인기는 광고 효과 덕분임. Reddit과 Discord 등에서 ‘llama.cpp의 쉬운 프런트엔드’라고 홍보했음
  진짜 이기려면 Ollama를 지우고 llama.cpp로 직접 가야 함
- 나는 반대로 묻고 싶음 — Ollama가 뭐가 문제인지?
  16GB GPU로도 잘 돌아가고, 다른 프런트엔드 실험용 백엔드로 쓰기에도 충분히 괜찮음
이 모델을 로컬 코딩에 쓸 수 있는지, 어떤 IDE나 harness가 호환되는지 궁금함
- 대부분의 harness는 OpenAI 호환 API 엔드포인트를 지정하면 로컬 코딩이 가능함
  다만 Codex 최신 버전은 llama.cpp와 API 호환성 문제가 있음
  나는 Pi를 선호함. 미니멀하고 확장성이 좋음. Claude Code나 OpenCode 등도 많이 쓰임
- 툴 호출을 지원해야 하고, 많은 양자화 gguf는 그걸 지원하지 않음
  나는 이를 해결하기 위해 Petsitter라는 프록시를 만들어, 추론 엔진과 harness 사이에서 기능을 에뮬레이션함
  GitHub 링크
  Ollama 위에 Petsitter를 두고, 그 위에 에이전트 harness를 얹으면 됨
  Ollama 최신 버전은 이미 "completion", "vision", "audio", "tools", "thinking"을 지원함
어젯밤에 이 모델을 쓰려면 Ollama v0.20 프리릴리스를 설치해야 했음. 그래서 현재 가이드가 정확한지 의문임

답변달기

Mac mini에서 Ollama과 Gemma 4 26B 모델 설정 요약 (2026년 4월 기준)

사전 준비

Step 1 — Ollama 설치

Step 2 — Ollama 실행 및 확인

Step 3 — Gemma 4 모델 다운로드

Step 4 — 모델 테스트 및 GPU 가속 확인

Step 5 — 자동 실행 및 모델 유지 설정

5a. Ollama 앱 자동 실행

5b. Gemma 4 자동 프리로드

5c. 모델 무기한 유지

Step 6 — 설정 검증

API 접근

유용한 명령어

Ollama 제거 및 자동 실행 해제

Ollama v0.19+ 주요 개선점 (2026년 3월 31일)

MLX 백엔드 (Apple Silicon)

NVFP4 포맷 (NVIDIA)

캐싱 개선 (코딩 및 에이전트 작업)

추가 메모

참고 링크

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들