# Qwen3를 MacBook에서 실행하여 무료 Vibe 코딩하기

> Clean Markdown view of GeekNews topic #20652. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=20652](https://news.hada.io/topic?id=20652)
- GeekNews Markdown: [https://news.hada.io/topic/20652.md](https://news.hada.io/topic/20652.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2025-05-02T10:25:18+09:00
- Updated: 2025-05-02T10:25:18+09:00
- Original source: [localforge.dev](https://localforge.dev/blog/running-qwen3-macbook-mlx)
- Points: 18
- Comments: 3

## Summary

**MLX 라이브러리**를 사용하면 Mac에서 **Qwen3-30B-A3B-8bit 모델**을 로컬로 실행할 수 있습니다. Localforge를 통해 **에이전트 루프**를 구성하고, **ollama 기반 보조 모델**을 추가하여 효율적인 도구 사용이 가능합니다. Mac 사용자라면 직접 시도해볼 만한 프로젝트입니다. **Localforge, MLX, Qwen3**의 조합은 개인용 LLM 실험에 매우 유용합니다.

## Topic Body

- **MLX 라이브러리**를 활용해 Mac에서 직접 실행하여, 강력한 최신 Qwen3-30B-A3B-8bit 모델을 **로컬에서 서빙**  
- Localforge에서 이를 OpenAI API 방식으로 연동하여 **에이전트 루프**를 구성  
- **ollama 기반 보조 모델(Gemma3)을 추가 구성**하여 에이전트 보조 역할을 분리하여 효율적 도구 사용이 가능  
- 에이전트는 Localforge의 UI에서 설정 후 "LS 툴 실행", 웹사이트 생성, 스네이크 게임 자동 실행까지 수행  
- 이 모든 과정은 **무료이며 로컬에서 완전 자율적으로 작동 가능**, Mac 유저라면 직접 시도해볼 만한 프로젝트  
  
---  
  
### Qwen3를 Mac에서 로컬 실행하기  
  
- **목표:** 최신 Qwen3 모델을 Mac에서 실행하고 Localforge로 에이전트화하여 코딩 자동화를 실험  
- Qwen3는 Ollama 및 HuggingFace MLX 커뮤니티에 배포됨  
  - [Qwen3 on Ollama](https://ollama.com/library/qwen3)  
  - [Qwen3 on Huggingface MLX](https://huggingface.co/collections/mlx-community/qwen3-680ff3bcb446bdba2c45c7c4)  
- # 1단계: MLX 환경 설치  
  ```bash  
  pip install mlx  
  pip install mlx-lm  
  ```  
- # 2단계: 모델 서버 실행  
  ```bash  
  mlx_lm.server --model mlx-community/Qwen3-30B-A3B-8bit --trust-remote-code --port 8082  
  ```  
  - 모델을 자동 다운로드 후 8082 포트에서 API 서버로 구동  
  - 로그에 "Starting httpd..." 메시지가 나오면 정상 실행됨  
  
### Localforge 설정  
- 공식 사이트: [https://localforge.dev](https://localforge.dev)  
- 설치 후 설정에서 다음 구성 필요:  
- # 프로바이더 추가  
  - a) Ollama 프로바이더 (보조 모델)  
    - 이름: **LocalOllama**  
    - 타입: **ollama**  
    - 설치 필요: gemma3:latest 모델 (단순한 언어 처리에 적합)  
  - # b) Qwen3 프로바이더 (주 모델)  
    - 이름: **qwen3:mlx:30b**  
    - 타입: **openai**  
    - API 키: `"not-needed"`  
    - API URL: `http://127.0.0.1:8082/v1/`  
- # 에이전트 생성  
  - 이름: **qwen3-agent**  
  - 메인 모델: **qwen3:mlx:30b** (모델명: `mlx-community/Qwen3-30B-A3B-8bit`)  
  - 보조 모델: **LocalOllama** (모델명: `gemma3:latest`)  
  
### 결론  
  
- Mac에서 **무료로 대형 모델을 로컬에서 실행해 에이전트 기반 자동 코딩이 가능**  
- 모델 선택이나 시스템 프롬프트 튜닝을 통해 더 정교한 결과도 가능  
- **Localforge + MLX + Qwen3**는 **개인용 LLM 실험에 매우 유용**한 조합임

## Comments


### Comment 38119

- Author: ragingwind
- Created: 2025-05-02T20:19:37+09:00
- Points: 1

로컬에서 30b 면 아주 훌륭한데요? Qwen2.5-Coder 는 별로였는데 시도해볼만 하겠어요.

### Comment 38093

- Author: xguru
- Created: 2025-05-02T10:27:09+09:00
- Points: 1

[Qwen3 - 더 깊이 생각하고 더 빠르게 행동하는 차세대 언어 모델](https://news.hada.io/topic?id=20581)

### Comment 38092

- Author: neo
- Created: 2025-05-02T10:25:19+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=43856489) 
- Qwen3-30B-A3B 모델을 로컬에서 사용 중이며 매우 인상적임. GPT-4를 기다리던 사람들에게는 대안이 될 수 있을 것 같음. M3 Max에서 70 tok/s를 얻고 있어 매우 사용하기 좋음
  - 특히 0.6B 모델이 1B 이하 모델에서도 비중요한 작업에 유용하게 사용될 수 있다는 점이 인상적임
  - 전체적으로 매우 인상적이며, 현재 설정과 통합할 수 있는 방법을 평가 중임

- qwen3를 실행하고 ls 도구 호출을 하는 것은 "vibe coding"이 아님. 이는 로컬포지에 대한 광고처럼 보임
  - 실제로 자율적인 작업, 예를 들어 여러 파일을 읽고, 디렉토리를 탐색하며, 어디에 수정을 가해야 하는지를 파악하는 데는 잘 작동하지 않을 것 같음

- MLX와 MLX-LM에 대한 칭찬을 하고 싶음. Gemma 3 모델을 로컬에서 미세 조정하는 데 사용 중이며, Apple 개발자들이 만든 라이브러리와 도구들이 잘 구성되어 있음

- 우연히 Qwen3를 간단한 프롬프트로 루프에 빠뜨림
  - "mqtt 주제 라우팅을 위해 트라이를 사용하는 파이썬 데코레이터 생성"이라는 프롬프트 사용
  - phi4-reasoning은 작동하지만 코드에 버그가 있는 것 같음
  - phi4-mini-reasoning은 혼란스러워함
  - qwen3:30b는 루프에 빠지고 데코레이터를 잊어버림
  - mistral-small은 바로 핵심을 파악하고 코드가 정상적으로 보임
  - Copilot 모델을 정기적으로 사용 중이며, Claude 3.7과 Gemini는 테스트와 함께 사용 가능한 코드를 출력함. 그러나 로컬 모델은 아직 그 정도 능력이 없는 것 같음

- MCP와 함께 로컬 LLM이 작업을 협력하여 수행하거나, 컨텍스트를 압축하거나, 클라우드 에이전트와 협력할 수 있는 설정을 아는 사람 있음?
  - 새 M3 박스가 UI만 렌더링하고 클라우드 LLM이 코드베이스를 리팩토링하는 것은 어리석어 보임. 이들이 서로 작업을 조정할 수 있을 것 같음

- 로컬에서 실제 자율 에이전트를 실행하고 간단한 작업을 수행하는 빠른 튜토리얼을 공유하고 싶음
  - 올바른 MLX 설정이나 적절한 모델 버전을 찾는 중이지만, 이 접근 방식의 프레임워크는 견고함

- 로컬포지를 발견하게 되어 기쁨. 로컬포지에 대한 질문이 있음. 두 에이전트를 결합하여 이미지를 멀티모달 에이전트에 전달하여 html/css를 제공하고, 다른 에이전트가 나머지 코드를 작성할 수 있는지?
  - 게시물에서 Gemma3(멀티모달)과 Qwen3(비멀티모달)이 언급됨. 위와 같이 사용할 수 있는지?
  - 로컬포지가 프롬프트를 어느 에이전트로 라우팅할지 어떻게 아는지 궁금함

- 매우 인상적임. 유료 토큰 모델만큼 좋을 필요는 없음
  - 예를 들어, 지난달에 vibe coding에 최소 $300을 썼음. 이는 경쟁할 도구를 알고 싶기 때문이며, 사이드 프로젝트의 구현을 완료한 후 다른 프로그래밍 언어로 다시 작성하고 싶었기 때문임
  - 여기서 조금 쉬어도, 리퍼브된 Nvidia 노트북은 1년 내에 비용을 회수할 수 있을 것임. Ollama가 아직 전체 흐름을 처리하지 못하는 점은 실망스러움. 단일 명령어로 가능할 수 있음

- 좋아 보임. Google의 Gemma 3 27B와 함께 작업할 로컬 우선 AI 지원 IDE를 찾고 있었음
  - 로컬포지가 본인의 프로젝트임을 공개해야 한다고 생각함

- 로컬에서 모델을 실행하는 것이 이제 흥미로워지고 있음. 특히 30B-A3B 버전이 유망한 방향으로 보임. 16 GB VRAM에서는 아직 도달할 수 없지만 꽤 접근 가능함
  - 24/32 GB VRAM을 가진 새로운 Nvidia RTX 카드를 기대 중임. 몇 년 내에 GPT-4 수준에 도달할 수 있을 것 같음. 이는 여러 작업에 유용할 것임