9P by GN⁺ 1일전 | ★ favorite | 댓글 3개
  • MLX 라이브러리를 활용해 Mac에서 직접 실행하여, 강력한 최신 Qwen3-30B-A3B-8bit 모델을 로컬에서 서빙
  • Localforge에서 이를 OpenAI API 방식으로 연동하여 에이전트 루프를 구성
  • ollama 기반 보조 모델(Gemma3)을 추가 구성하여 에이전트 보조 역할을 분리하여 효율적 도구 사용이 가능
  • 에이전트는 Localforge의 UI에서 설정 후 "LS 툴 실행", 웹사이트 생성, 스네이크 게임 자동 실행까지 수행
  • 이 모든 과정은 무료이며 로컬에서 완전 자율적으로 작동 가능, Mac 유저라면 직접 시도해볼 만한 프로젝트

Qwen3를 Mac에서 로컬 실행하기

  • 목표: 최신 Qwen3 모델을 Mac에서 실행하고 Localforge로 에이전트화하여 코딩 자동화를 실험
  • Qwen3는 Ollama 및 HuggingFace MLX 커뮤니티에 배포됨
  • 1단계: MLX 환경 설치

    pip install mlx  
    pip install mlx-lm  
    
  • 2단계: 모델 서버 실행

    mlx_lm.server --model mlx-community/Qwen3-30B-A3B-8bit --trust-remote-code --port 8082  
    
    • 모델을 자동 다운로드 후 8082 포트에서 API 서버로 구동
    • 로그에 "Starting httpd..." 메시지가 나오면 정상 실행됨

Localforge 설정

  • 공식 사이트: https://localforge.dev
  • 설치 후 설정에서 다음 구성 필요:
  • 프로바이더 추가

    • a) Ollama 프로바이더 (보조 모델)
      • 이름: LocalOllama
      • 타입: ollama
      • 설치 필요: gemma3:latest 모델 (단순한 언어 처리에 적합)
    • b) Qwen3 프로바이더 (주 모델)

  • 에이전트 생성

    • 이름: qwen3-agent
    • 메인 모델: qwen3:mlx:30b (모델명: mlx-community/Qwen3-30B-A3B-8bit)
    • 보조 모델: LocalOllama (모델명: gemma3:latest)

결론

  • Mac에서 무료로 대형 모델을 로컬에서 실행해 에이전트 기반 자동 코딩이 가능
  • 모델 선택이나 시스템 프롬프트 튜닝을 통해 더 정교한 결과도 가능
  • Localforge + MLX + Qwen3개인용 LLM 실험에 매우 유용한 조합임

로컬에서 30b 면 아주 훌륭한데요? Qwen2.5-Coder 는 별로였는데 시도해볼만 하겠어요.

Hacker News 의견
  • Qwen3-30B-A3B 모델을 로컬에서 사용 중이며 매우 인상적임. GPT-4를 기다리던 사람들에게는 대안이 될 수 있을 것 같음. M3 Max에서 70 tok/s를 얻고 있어 매우 사용하기 좋음

    • 특히 0.6B 모델이 1B 이하 모델에서도 비중요한 작업에 유용하게 사용될 수 있다는 점이 인상적임
    • 전체적으로 매우 인상적이며, 현재 설정과 통합할 수 있는 방법을 평가 중임
  • qwen3를 실행하고 ls 도구 호출을 하는 것은 "vibe coding"이 아님. 이는 로컬포지에 대한 광고처럼 보임

    • 실제로 자율적인 작업, 예를 들어 여러 파일을 읽고, 디렉토리를 탐색하며, 어디에 수정을 가해야 하는지를 파악하는 데는 잘 작동하지 않을 것 같음
  • MLX와 MLX-LM에 대한 칭찬을 하고 싶음. Gemma 3 모델을 로컬에서 미세 조정하는 데 사용 중이며, Apple 개발자들이 만든 라이브러리와 도구들이 잘 구성되어 있음

  • 우연히 Qwen3를 간단한 프롬프트로 루프에 빠뜨림

    • "mqtt 주제 라우팅을 위해 트라이를 사용하는 파이썬 데코레이터 생성"이라는 프롬프트 사용
    • phi4-reasoning은 작동하지만 코드에 버그가 있는 것 같음
    • phi4-mini-reasoning은 혼란스러워함
    • qwen3:30b는 루프에 빠지고 데코레이터를 잊어버림
    • mistral-small은 바로 핵심을 파악하고 코드가 정상적으로 보임
    • Copilot 모델을 정기적으로 사용 중이며, Claude 3.7과 Gemini는 테스트와 함께 사용 가능한 코드를 출력함. 그러나 로컬 모델은 아직 그 정도 능력이 없는 것 같음
  • MCP와 함께 로컬 LLM이 작업을 협력하여 수행하거나, 컨텍스트를 압축하거나, 클라우드 에이전트와 협력할 수 있는 설정을 아는 사람 있음?

    • 새 M3 박스가 UI만 렌더링하고 클라우드 LLM이 코드베이스를 리팩토링하는 것은 어리석어 보임. 이들이 서로 작업을 조정할 수 있을 것 같음
  • 로컬에서 실제 자율 에이전트를 실행하고 간단한 작업을 수행하는 빠른 튜토리얼을 공유하고 싶음

    • 올바른 MLX 설정이나 적절한 모델 버전을 찾는 중이지만, 이 접근 방식의 프레임워크는 견고함
  • 로컬포지를 발견하게 되어 기쁨. 로컬포지에 대한 질문이 있음. 두 에이전트를 결합하여 이미지를 멀티모달 에이전트에 전달하여 html/css를 제공하고, 다른 에이전트가 나머지 코드를 작성할 수 있는지?

    • 게시물에서 Gemma3(멀티모달)과 Qwen3(비멀티모달)이 언급됨. 위와 같이 사용할 수 있는지?
    • 로컬포지가 프롬프트를 어느 에이전트로 라우팅할지 어떻게 아는지 궁금함
  • 매우 인상적임. 유료 토큰 모델만큼 좋을 필요는 없음

    • 예를 들어, 지난달에 vibe coding에 최소 $300을 썼음. 이는 경쟁할 도구를 알고 싶기 때문이며, 사이드 프로젝트의 구현을 완료한 후 다른 프로그래밍 언어로 다시 작성하고 싶었기 때문임
    • 여기서 조금 쉬어도, 리퍼브된 Nvidia 노트북은 1년 내에 비용을 회수할 수 있을 것임. Ollama가 아직 전체 흐름을 처리하지 못하는 점은 실망스러움. 단일 명령어로 가능할 수 있음
  • 좋아 보임. Google의 Gemma 3 27B와 함께 작업할 로컬 우선 AI 지원 IDE를 찾고 있었음

    • 로컬포지가 본인의 프로젝트임을 공개해야 한다고 생각함
  • 로컬에서 모델을 실행하는 것이 이제 흥미로워지고 있음. 특히 30B-A3B 버전이 유망한 방향으로 보임. 16 GB VRAM에서는 아직 도달할 수 없지만 꽤 접근 가능함

    • 24/32 GB VRAM을 가진 새로운 Nvidia RTX 카드를 기대 중임. 몇 년 내에 GPT-4 수준에 도달할 수 있을 것 같음. 이는 여러 작업에 유용할 것임