Qwen3를 MacBook에서 실행하여 무료 Vibe 코딩하기
(localforge.dev)- MLX 라이브러리를 활용해 Mac에서 직접 실행하여, 강력한 최신 Qwen3-30B-A3B-8bit 모델을 로컬에서 서빙
- Localforge에서 이를 OpenAI API 방식으로 연동하여 에이전트 루프를 구성
- ollama 기반 보조 모델(Gemma3)을 추가 구성하여 에이전트 보조 역할을 분리하여 효율적 도구 사용이 가능
- 에이전트는 Localforge의 UI에서 설정 후 "LS 툴 실행", 웹사이트 생성, 스네이크 게임 자동 실행까지 수행
- 이 모든 과정은 무료이며 로컬에서 완전 자율적으로 작동 가능, Mac 유저라면 직접 시도해볼 만한 프로젝트
Qwen3를 Mac에서 로컬 실행하기
- 목표: 최신 Qwen3 모델을 Mac에서 실행하고 Localforge로 에이전트화하여 코딩 자동화를 실험
- Qwen3는 Ollama 및 HuggingFace MLX 커뮤니티에 배포됨
-
1단계: MLX 환경 설치
pip install mlx pip install mlx-lm
-
2단계: 모델 서버 실행
mlx_lm.server --model mlx-community/Qwen3-30B-A3B-8bit --trust-remote-code --port 8082
- 모델을 자동 다운로드 후 8082 포트에서 API 서버로 구동
- 로그에 "Starting httpd..." 메시지가 나오면 정상 실행됨
Localforge 설정
- 공식 사이트: https://localforge.dev
- 설치 후 설정에서 다음 구성 필요:
-
프로바이더 추가
- a) Ollama 프로바이더 (보조 모델)
- 이름: LocalOllama
- 타입: ollama
- 설치 필요: gemma3:latest 모델 (단순한 언어 처리에 적합)
-
b) Qwen3 프로바이더 (주 모델)
- 이름: qwen3:mlx:30b
- 타입: openai
- API 키:
"not-needed"
- API URL:
http://127.0.0.1:8082/v1/
- a) Ollama 프로바이더 (보조 모델)
-
에이전트 생성
- 이름: qwen3-agent
- 메인 모델: qwen3:mlx:30b (모델명:
mlx-community/Qwen3-30B-A3B-8bit
) - 보조 모델: LocalOllama (모델명:
gemma3:latest
)
결론
- Mac에서 무료로 대형 모델을 로컬에서 실행해 에이전트 기반 자동 코딩이 가능
- 모델 선택이나 시스템 프롬프트 튜닝을 통해 더 정교한 결과도 가능
- Localforge + MLX + Qwen3는 개인용 LLM 실험에 매우 유용한 조합임
Hacker News 의견
-
Qwen3-30B-A3B 모델을 로컬에서 사용 중이며 매우 인상적임. GPT-4를 기다리던 사람들에게는 대안이 될 수 있을 것 같음. M3 Max에서 70 tok/s를 얻고 있어 매우 사용하기 좋음
- 특히 0.6B 모델이 1B 이하 모델에서도 비중요한 작업에 유용하게 사용될 수 있다는 점이 인상적임
- 전체적으로 매우 인상적이며, 현재 설정과 통합할 수 있는 방법을 평가 중임
-
qwen3를 실행하고 ls 도구 호출을 하는 것은 "vibe coding"이 아님. 이는 로컬포지에 대한 광고처럼 보임
- 실제로 자율적인 작업, 예를 들어 여러 파일을 읽고, 디렉토리를 탐색하며, 어디에 수정을 가해야 하는지를 파악하는 데는 잘 작동하지 않을 것 같음
-
MLX와 MLX-LM에 대한 칭찬을 하고 싶음. Gemma 3 모델을 로컬에서 미세 조정하는 데 사용 중이며, Apple 개발자들이 만든 라이브러리와 도구들이 잘 구성되어 있음
-
우연히 Qwen3를 간단한 프롬프트로 루프에 빠뜨림
- "mqtt 주제 라우팅을 위해 트라이를 사용하는 파이썬 데코레이터 생성"이라는 프롬프트 사용
- phi4-reasoning은 작동하지만 코드에 버그가 있는 것 같음
- phi4-mini-reasoning은 혼란스러워함
- qwen3:30b는 루프에 빠지고 데코레이터를 잊어버림
- mistral-small은 바로 핵심을 파악하고 코드가 정상적으로 보임
- Copilot 모델을 정기적으로 사용 중이며, Claude 3.7과 Gemini는 테스트와 함께 사용 가능한 코드를 출력함. 그러나 로컬 모델은 아직 그 정도 능력이 없는 것 같음
-
MCP와 함께 로컬 LLM이 작업을 협력하여 수행하거나, 컨텍스트를 압축하거나, 클라우드 에이전트와 협력할 수 있는 설정을 아는 사람 있음?
- 새 M3 박스가 UI만 렌더링하고 클라우드 LLM이 코드베이스를 리팩토링하는 것은 어리석어 보임. 이들이 서로 작업을 조정할 수 있을 것 같음
-
로컬에서 실제 자율 에이전트를 실행하고 간단한 작업을 수행하는 빠른 튜토리얼을 공유하고 싶음
- 올바른 MLX 설정이나 적절한 모델 버전을 찾는 중이지만, 이 접근 방식의 프레임워크는 견고함
-
로컬포지를 발견하게 되어 기쁨. 로컬포지에 대한 질문이 있음. 두 에이전트를 결합하여 이미지를 멀티모달 에이전트에 전달하여 html/css를 제공하고, 다른 에이전트가 나머지 코드를 작성할 수 있는지?
- 게시물에서 Gemma3(멀티모달)과 Qwen3(비멀티모달)이 언급됨. 위와 같이 사용할 수 있는지?
- 로컬포지가 프롬프트를 어느 에이전트로 라우팅할지 어떻게 아는지 궁금함
-
매우 인상적임. 유료 토큰 모델만큼 좋을 필요는 없음
- 예를 들어, 지난달에 vibe coding에 최소 $300을 썼음. 이는 경쟁할 도구를 알고 싶기 때문이며, 사이드 프로젝트의 구현을 완료한 후 다른 프로그래밍 언어로 다시 작성하고 싶었기 때문임
- 여기서 조금 쉬어도, 리퍼브된 Nvidia 노트북은 1년 내에 비용을 회수할 수 있을 것임. Ollama가 아직 전체 흐름을 처리하지 못하는 점은 실망스러움. 단일 명령어로 가능할 수 있음
-
좋아 보임. Google의 Gemma 3 27B와 함께 작업할 로컬 우선 AI 지원 IDE를 찾고 있었음
- 로컬포지가 본인의 프로젝트임을 공개해야 한다고 생각함
-
로컬에서 모델을 실행하는 것이 이제 흥미로워지고 있음. 특히 30B-A3B 버전이 유망한 방향으로 보임. 16 GB VRAM에서는 아직 도달할 수 없지만 꽤 접근 가능함
- 24/32 GB VRAM을 가진 새로운 Nvidia RTX 카드를 기대 중임. 몇 년 내에 GPT-4 수준에 도달할 수 있을 것 같음. 이는 여러 작업에 유용할 것임