# Mac mini에서 Ollama과 Gemma 4 26B 모델 설정 요약 (2026년 4월 기준)

> Clean Markdown view of GeekNews topic #28205. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=28205](https://news.hada.io/topic?id=28205)
- GeekNews Markdown: [https://news.hada.io/topic/28205.md](https://news.hada.io/topic/28205.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-04-05T04:35:06+09:00
- Updated: 2026-04-05T04:35:06+09:00
- Original source: [gist.github.com/greenstevester](https://gist.github.com/greenstevester/fc49b4e60a4fef9effc79066c1033ae5)
- Points: 33
- Comments: 1

## Topic Body

- **Apple Silicon 기반 Mac mini**에서 **Ollama**와 **Gemma 4 모델**을 자동 실행하고 메모리에 지속 유지하도록 구성하는 절차 정리
- **Homebrew**, **Launch Agent**, **환경 변수**를 이용해 재부팅 후에도 모델이 자동 로드되며, **8B 모델**은 약 9.6GB 메모리로 안정적 동작
- **Ollama v0.19 이상**은 **MLX 백엔드**와 **NVFP4 포맷**을 지원해 Apple 및 NVIDIA 환경에서 추론 성능 향상
- **26B 모델**은 메모리 점유가 높아 비추천되며, **8B 모델**이 실사용에 적합
- 로컬 API를 통해 **OpenAI 호환 Chat Completion** 요청이 가능하며, Mac mini에서 **지속적 LLM 서비스 환경** 구축에 유용함

---

### 사전 준비
- **Apple Silicon (M1~M5)** 기반 Mac mini 필요
- **Gemma 4 (8B)** 모델 구동을 위해 최소 **16GB 통합 메모리** 권장
- **Homebrew**가 설치된 macOS 환경 필요

### Step 1 — Ollama 설치
- Homebrew cask를 이용해 Ollama macOS 앱 설치

  ```
  brew install --cask ollama-app
  ```
- 설치 후 `/Applications/`에 **Ollama.app**, `/opt/homebrew/bin/ollama`에 **CLI** 배치
- 자동 업데이트 및 **MLX 백엔드** 포함

### Step 2 — Ollama 실행 및 확인
- Ollama 앱 실행

  ```
  open -a Ollama
  ```
- 메뉴 막대에 아이콘 표시 후 서버 초기화 대기
- 실행 상태 확인

  ```
  ollama list
  ```

### Step 3 — Gemma 4 모델 다운로드
- 모델 다운로드

  ```
  ollama pull gemma4
  ```
- 약 **9.6GB** 다운로드 후 `ollama list`로 확인
- **26B 모델**은 24GB 메모리 대부분을 점유해 시스템 응답 저하 발생
  - 기본 **8B (Q4_K_M 양자화)** 모델 사용 권장

### Step 4 — 모델 테스트 및 GPU 가속 확인
- 모델 테스트

  ```
  ollama run gemma4:latest "Hello, what model are you?"
  ```
- GPU 가속 상태 확인

  ```
  ollama ps
  ```
  - 예시: CPU/GPU 비율 14%/86%

### Step 5 — 자동 실행 및 모델 유지 설정
- ## 5a. Ollama 앱 자동 실행
  - 메뉴 막대 아이콘 클릭 → **Launch at Login** 활성화
  - 또는 **System Settings > General > Login Items**에서 수동 추가
- ## 5b. Gemma 4 자동 프리로드
  - Ollama 시작 후 모델을 자동 로드하고 5분마다 유지하도록 Launch Agent 생성

    ```
    cat << 'EOF' > ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
    ...
    EOF
    ```
  - 에이전트 로드

    ```
    launchctl load ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
    ```
  - 5분마다 빈 프롬프트를 보내 모델을 **메모리에 유지**
- ## 5c. 모델 무기한 유지
  - 기본적으로 5분 비활성 시 모델 언로드됨
  - 무기한 유지 설정

    ```
    launchctl setenv OLLAMA_KEEP_ALIVE "-1"
    ```
  - 재부팅 후에도 유지하려면 `~/.zshrc`에 추가

### Step 6 — 설정 검증
- Ollama 서버 실행 확인

  ```
  ollama list
  ```
- 모델 메모리 로드 상태 확인

  ```
  ollama ps
  ```
- Launch Agent 등록 확인

  ```
  launchctl list | grep ollama
  ```
- 예상 출력 예시

  ```
  gemma4:latest ... 9.6 GB 14%/86% CPU/GPU 4096 Forever
  ```

### API 접근
- 로컬 API 엔드포인트: `http://localhost:11434`
- OpenAI 호환 Chat Completion 예시

  ```
  curl http://localhost:11434/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
      "model": "gemma4:latest",
      "messages": [{"role": "user", "content": "Hello"}]
    }'
  ```

### 유용한 명령어
| 명령어 | 설명 |
| --- | --- |
| `ollama list` | 다운로드된 모델 목록 |
| `ollama ps` | 실행 중인 모델 및 메모리 사용량 |
| `ollama run gemma4:latest` | 대화형 실행 |
| `ollama stop gemma4:latest` | 모델 언로드 |
| `ollama pull gemma4:latest` | 최신 버전 업데이트 |
| `ollama rm gemma4:latest` | 모델 삭제 |

### Ollama 제거 및 자동 실행 해제
```
launchctl unload ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
rm ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
brew uninstall --cask ollama-app
```

### Ollama v0.19+ 주요 개선점 (2026년 3월 31일)
- ## MLX 백엔드 (Apple Silicon)
  - **Apple MLX 프레임워크**를 자동 사용하여 추론 속도 향상
  - M5 계열 칩은 **GPU Neural Accelerator** 추가 가속 지원
  - M4 이하 칩도 MLX 기반 일반 속도 향상 적용
- ## NVFP4 포맷 (NVIDIA)
  - **NVFP4 형식**을 통해 정확도를 유지하면서 메모리 대역폭과 저장 공간 절감
  - NVIDIA 모델 최적화 도구로 생성된 모델과 호환
- ## 캐싱 개선 (코딩 및 에이전트 작업)
  - **메모리 사용량 감소**: 대화 간 캐시 재사용으로 효율 향상
  - **지능형 체크포인트**: 프롬프트 처리량 감소 및 응답 속도 향상
  - **스마트 캐시 제거**: 공통 프리픽스 유지로 분기 작업 효율 개선

### 추가 메모
- **Gemma 4 (8B)** 모델은 약 **9.6GB 메모리** 사용
  - 24GB Mac mini에서 약 14GB 여유 확보 가능
- **26B 모델**은 약 17GB 사용으로 시스템 스왑 및 응답 저하 발생
  - **8B 모델**이 안정적 성능 제공

### 참고 링크
- [Ollama MLX 블로그 (2026-03-31)](https://ollama.com/blog/mlx)
- [Ollama v0.20.0 릴리스 노트](https://github.com/ollama/ollama/releases/tag/v0.20.0)
- [Gemma 4 발표 — Google DeepMind](https://x.com/GoogleDeepMind/status/2039735449829203971)

## Comments


### Comment 54661

- Author: neo
- Created: 2026-04-05T04:35:06+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47624731) 
- 처음으로 **open weight 모델**을 출시 직후 써보는 사람이라면, 초기 구현과 양자화(quantization)에 항상 버그가 있다는 점을 알아야 함  
  각 프로젝트가 출시일에 맞춰 지원하려고 서두르기 때문에 결과가 올바르지 않을 수 있음  
  이미 tokenizer 구현에서 여러 문제가 발견되고 있고, imatrix를 사용하는 양자화도 문제가 될 수 있음  
  앞으로 몇 주간 “툴 호출이 안 돼서 모델이 엉망이다” 같은 글이 많이 올라올 것임. 사실은 **깨진 구현체**를 쓴 사람들이 그런 것임  
  cutting-edge 모델을 쓰려면 추론 엔진을 자주 업데이트하고, 양자화 버전도 바뀔 때마다 다시 다운로드할 준비가 되어 있어야 함  
  출시일에 맞추려는 경쟁 때문에 “출력 토큰이 나오면 바로 배포”하는 식으로 진행되므로, 정확성 검증은 나중 문제임
  - 리눅스와 4090 환경에서 어떤 **inference engine**을 써야 하는지 궁금함  
    툴 호출이 안 되는 문제를 자주 겪는데, 이게 모델 문제인지 ollama 문제인지 모르겠음  

- **Mac mini**를 사서 로컬로 모델을 돌릴까 고민 중임  
  나는 Claude를 주로 개발 작업과 홈랩 프로젝트에 쓰고 있는데, 오픈 모델이 그 정도로 쓸 만한지, 아니면 월 20달러 구독을 유지하는 게 나은지 알고 싶음
  - 작은 작업에는 괜찮지만 Claude처럼 쓰기엔 실망할 가능성이 큼  
    하드웨어를 사서 직접 호스팅하기 전에, **호스팅 서비스**에서 먼저 써보는 걸 추천함. 모델의 한계를 미리 체감할 수 있음  
  - 나는 **llama 유출** 때부터 오픈 모델을 써왔음. 점점 좋아지고 있고, 인터넷 없이 로컬에서 지식 덩어리를 돌릴 수 있다는 게 멋짐  
    하지만 기대치를 낮춰야 함. 벤치마크가 뭐라 하든 Sonnet이나 Opus와는 비교 불가임  
  - **OpenRouter** 크레딧 10달러만 써서 직접 테스트해보는 게 제일 좋음. 내 경험상 아직은 많이 부족하지만 가끔 확인해보는 재미는 있음  
  - **gpt-oss-20B**는 에이전트 성능이 꽤 괜찮았지만, Claude Code 유료 모델과는 비교 불가임. 120B는 훨씬 낫다는 얘기는 들었음  

- **MacBook Pro M4 (36GB)** 로 LM Studio에서 open code 프런트엔드로 테스트했는데, 툴 호출이 계속 실패해서 qwen으로 돌아감  
  비슷한 환경에서 성공한 사람 있는지 궁금함
  - 툴 호출 실패는 추론 엔진 구현이나 양자화 문제임. 며칠 후 업데이트 후 다시 시도해보길 권함. 이런 건 모든 오픈 모델 출시 때마다 생기는 일임  
  - 나는 **M5 (32GB)** 에서 LM Studio 실행 시 컴퓨터가 멈춰서 재부팅해야 했음  
    하지만 **gemma-4-26B-A4B-it-GGUF:Q4_K_M**은 llama.cpp에서 잘 돌아갔음. 속도(초당 38토큰)와 품질 모두 인상적이었음  
  - 나도 같은 문제를 겪었음. LM Studio의 Q_8 버전에서 명령을 계속 반복하는 **루프 모드**에 빠짐  
  - 다른 사람들 말로는 메인과 런타임 버전을 모두 업데이트해야 한다고 함  
  - Ubuntu 서버(charmbracelet/crush)에서도 툴 호출 실패를 확인했음  

- Claude Sonnet 4.5를 대체할 **오픈 모델**을 찾고 있음  
  [Ollama Cloud](https://ollama.com/search?c=cloud)나 OpenRouter.ai 모델 중 대체 가능한 게 있는지 궁금함  
  벤치마크보다 실제 개발자들의 사용 경험을 듣고 싶음
  - 결론적으로 **Sonnet과 Opus**를 대체할 모델은 없음. GPT Codex 계열도 여전히 훌륭함  
    MiniMax, GLM, Qwen, Kimi 등을 써봤지만 복잡한 작업에서는 모두 한계가 큼  
  - **GLM5**와 **KimiK2.5**는 Sonnet에 꽤 근접한 대체재라고 느낌  

- **M5 Air (32GB, 10코어)** 에서 oMLX 빌드로 돌려본 사람 있는지 궁금함. 툴 호출까지 되는지 알고 싶음  
  - [v0.3.2 릴리스](https://github.com/Yukon/omlx)는 부분 지원 상태임. 텍스트 생성은 되지만 특수 토큰 처리는 미완성임  
    개인적으로 툴 호출과 `<|channel>` thinking 지원을 추가하는 테스트를 진행 중임  
  - 누군가 **Gemma 4 E4B**를 MLX에서 구동했다고 들었음 ([링크](https://github.com/bolyki01/localllm-gemma4-mlx))  

- “Gemma 4 12B”용 단계가 중간에 26B로 바뀌는 게 이상함  
  또 ollama ps에서 “14%/86% CPU/GPU”로 표시되는데, 이건 GPU 성능이 나쁘다는 뜻 아닌가?
  - **Mac mini**는 CPU와 GPU가 메모리를 공유하므로, 그 비율은 무시해도 될 듯함  

- 로컬에서 26B 모델을 돌리는 건 인상적이지만, **지연(latency)** 이 커서 채팅 외 작업은 힘듦  
  우리는 이미지 생성 작업을 로컬 추론에서 API 호출로 바꿨음. 콜드 스타트와 생성 시간이 너무 길었음  
  로컬은 실험용으로는 좋지만, **정시 실행이 필요한 프로덕션 워크로드**에는 여전히 API가 유리함  
  다만 **프라이버시 민감한 데이터**를 다룰 때는 로컬 세팅이 매우 유용함  

- 왜 이렇게 많은 사람들이 **Ollama**를 쓰는지 궁금함. 써봤는데 너무 단순화된 느낌이었음  
  요즘은 **Unsloth Studio**가 초보자에게 더 좋은 기본값 같음
  - Ollama는 그냥 `ollama pull` 한 줄이면 모델을 받을 수 있어서 접근성이 좋음  
    Hugging Face에서 모델 이름과 버전을 직접 찾아야 하는 복잡함이 없음  
    하지만 더 깊이 들어가려면 결국 서버 구조를 배워야 함  
  - Ollama는 초기에 **first-mover advantage**를 가졌음. 당시 llama.cpp를 직접 빌드하는 게 장벽이었음  
    지금은 **LM Studio**를 더 추천함. Unsloth Studio는 어떤 점이 다른지 궁금함  
  - 왜 사람들이 **LMStudio**를 더 언급하지 않는지 모르겠음. 나는 몇 달 전부터 옮겼는데 훨씬 낫다고 느낌  
  - Ollama의 인기는 **광고 효과** 덕분임. Reddit과 Discord 등에서 ‘llama.cpp의 쉬운 프런트엔드’라고 홍보했음  
    진짜 이기려면 Ollama를 지우고 llama.cpp로 직접 가야 함  
  - 나는 반대로 묻고 싶음 — Ollama가 뭐가 문제인지?  
    16GB GPU로도 잘 돌아가고, 다른 프런트엔드 실험용 백엔드로 쓰기에도 충분히 괜찮음  

- 이 모델을 로컬 코딩에 쓸 수 있는지, 어떤 **IDE나 harness**가 호환되는지 궁금함
  - 대부분의 harness는 OpenAI 호환 API 엔드포인트를 지정하면 로컬 코딩이 가능함  
    다만 Codex 최신 버전은 llama.cpp와 **API 호환성** 문제가 있음  
    나는 **Pi**를 선호함. 미니멀하고 확장성이 좋음. Claude Code나 OpenCode 등도 많이 쓰임  
  - 툴 호출을 지원해야 하고, 많은 **양자화 gguf**는 그걸 지원하지 않음  
    나는 이를 해결하기 위해 **Petsitter**라는 프록시를 만들어, 추론 엔진과 harness 사이에서 기능을 에뮬레이션함  
    [GitHub 링크](https://github.com/day50-dev/Petsitter)  
    Ollama 위에 Petsitter를 두고, 그 위에 에이전트 harness를 얹으면 됨  
    Ollama 최신 버전은 이미 `"completion", "vision", "audio", "tools", "thinking"`을 지원함  

- 어젯밤에 이 모델을 쓰려면 **Ollama v0.20 프리릴리스**를 설치해야 했음. 그래서 현재 가이드가 정확한지 의문임