3P by GN⁺ 18시간전 | ★ favorite | 댓글 1개
  • 로컬 LLM을 macOS에서 실행하는 방법과 추천 도구에 대한 설명
  • 로컬 LLM은 개인 컴퓨터에서 실행 가능한 인공지능 언어 모델로, 데이터 프라이버시를 유지하며 실험적 기술 탐구를 가능하게 함
  • 다양한 오픈 웨이트 모델을 활용해 텍스트 요약 및 개인적인 기록 용도로 유용하고, 창의성이나 사고 능력은 없음
  • macOS에서 실행 가능한 두 가지 주요 도구는 llama.cppLM Studio로, 각각 오픈소스와 사용자 친화적 UI를 제공
  • 모델 선택 시 메모리 용량, 런타임, 양자화 수준, 비전 및 추론 능력을 고려해야 함
  • 로컬 LLM 실행은 프라이버시 보호와 기술적 호기심 충족에 기여하며, 소규모 모델은 대규모 모델의 대안으로 실험적 가치를 제공

서론: LLM에 대한 개인적 관점과 활용 방식

  • 본 글은 macOS에서 로컬 LLM(Local Large Language Model) 을 직접 설치하고 실험하는 경험을 다룸
  • 필자는 LLM에 대해 회의적이지만, 새로운 기술을 실험하는 것을 좋아해 직접 다운로드하여 사용해 봄
  • LLM의 기능은 고급 자동완성 정도로 보는 시선과, 마치 감정과 권리를 가진 존재처럼 여기는 주장 사이에 위치함
  • 실제로는 다음 단어 예측에 기반을 두고 있으나, 복잡한 비의도적 행동(비유발적 능력) 이 나타남
  • 창의성이나 자의식은 없으며, 미래에 더 진보된 기계가 나올 수는 있으나 현재 기술 수준이 이에 도달하지 못함

LLM의 주된 활용 예시

  • 텍스트 요약, 인터넷 정보 제공, 단순 의학 정보 제공 등에서 활용도가 높음
  • 필자의 경우 브레인-덤핑(생각 털어놓기) 용으로 사용하며, 대화 상대가 필요할 때 유용함
  • 답변 자체에는 집중하지 않고, 단순히 기록용으로만 활용함
  • 인공지능에 지나치게 감정이입(의인화)하지 않는 것이 중요함
  • 시스템 프롬프트를 활용해 모델의 응답 행동을 조절 가능하지만, 굳이 신경 쓰지 않는 편임

생산성 및 신뢰성 고민

  • LLM이 ‘생산성’을 향상시킨다는 주장에 동의하지 않음
  • 답변 신뢰성 문제(헛소리, 환각 현상)로 인해 반드시 팩트 체크 필요함
  • 쉽게 검증하기 어려운 질문은 피하는 것이 정보 오염 방지에 도움

로컬 LLM 사용 이유

  • 기술 실험의 즐거움과, 컴퓨터가 로컬에서 자연어로 반응하는 경험의 신기함을 느낌
  • 내 컴퓨터에서만 실행될 때, 프라이버시민감 정보 보호 측면에서 장점이 있음
    • AI 서비스 업체들이 사용자의 데이터를 별도로 저장, 트레이닝에 활용하는 경우가 많음
  • 상업 AI 기업에 대한 불신, 윤리적 문제, 과도한 홍보, 환경 파괴, 저작권 침해 등의 문제로 로컬 오픈 소스 모델을 선호함

macOS에서 LLM 실행 방법

  • macOS에서 실행 가능한 두 가지 주요 도구는 llama.cppLM Studio
  • 1. llama.cpp (오픈 소스)

    • Georgi Gerganov가 개발
    • 다양하고 상세한 설정 옵션 제공, 여러 플랫폼 지원, 모델 다운로드 및 간단한 웹 UI 제공
    • 예시:
      • llama-server -hf ggml-org/gemma-3-4b-it-qat-GGUF 명령으로 추천 모델: Gemma 3 4B QAT 실행 가능
      • 브라우저에서 http://127.0.0.1:8080 접속 시 ChatGPT 비슷한 최소 UI 제공, 실험에 적합함
  • 2. LM Studio (클로즈드 소스, 쉬운 사용)

    • 직관적이고 고급 UI 제공, 모델 탐색/다운로드/대화 관리 기능, 모델 실행 가능 여부 안내 포함
    • 너무 큰 모델을 로드해 시스템이 다운되는 것을 방지하는 가드레일(안전장치) 내장
    • macOS에서 llama.cpp와 Apple의 MLX 엔진 두 런타임 사용 지원
      • MLX는 속도는 더 빠르나 세부 설정은 축소됨
    • 주요 활용 팁:
      • 대화 도중 모델 교체 가능
      • 대화 브랜치 생성 및 다양한 실험 가능
      • 사용자 메시지와 어시스턴트 메시지 모두 수정 가능
      • 시스템 프롬프트 프리셋 생성 및 재사용 지원
      • 대화 맥락창이 초과될 때의 처리 방법 설정 가능(앞뒤 메시지 유지 등 기본 설정 제공)

좋은 LLM 모델 선택 기준

  • 모델 크기: 디스크 용량보다 메모리(RAM) 가 주요 제약 조건
    • 16GB RAM 환경에서는 12GB 이하 모델 권장, 초과 시 시스템 불안정 발생 가능
    • 큰 모델일수록 느려지고, 메모리 부족 시 시스템 전체 불안정 가능성 있음
  • 런타임 선택:
    • llama.cpp 및 LM Studio의 기본 런타임은 GGUF 포맷 모델 필요
    • LM Studio의 MLX 런타임은 MLX 전용 모델 필요
    • GGUF 모델은 다양한 플랫폼에서 안정적이며 설정 옵션 풍부
    • MLX 모델은 Apple Silicon에서 약간 더 빠른 성능 제공
  • 양자화 (Quantization): 모델 성능과 메모리 효율성의 균형
    • LLM 대부분은 16비트 정밀도로 트레이닝됨
    • 4비트 등 더 낮은 비트로 양자화하여도 일정 수준까지 성능 손실 작음; 일반적으로 Q4가 적합
    • 커널별 복잡한 양자화 표기(Q4_K_M 등)가 존재하지만, 초심자는 기본값 사용 추천
  • 비전 모델: 이미지 처리 가능 모델
    • 일부 모델은 이미지 입력을 토크나이즈하여 분석(텍스트 읽기, 오브젝트 인식, 감정/스타일 추정 등)
    • 단순 OCR은 가능하나, 전문 OCR 도구보다 신뢰성은 떨어짐
  • 추론 능력: 일부 모델은 답변 생성 전 사고 과정 포함
    • 일부 모델은 답변 생성 전 추론 과정을 추가, 일반 모델 대비 ‘생각’ 기능 강화
    • 소규모 추론 특화 모델이 중대형 일반 모델을 능가할 수 있음 (벤치마크 반영)
    • 추론형은 답변까지 시간이 오래 걸리고, 더 빠르게 컨텍스트 창을 채움
  • 도구 사용: 외부 도구 호출 가능
    • 툴 호출 토큰을 사용해 시스템 프롬프트로 지정된 MCP(도구 서버)의 기능을 활용 가능
    • LM Studio에서는 도구 추가 및 관리가 쉬움, 툴 호출이 보안 위협(데이터 유출 공격) 가능성 있어 기본으로 사용자 확인 필요
    • 기본적으로 JavaScript MCP(Deno 기반) 탑재, 복잡한 연산/데이터 분석/랜덤 생성 등 자동화 가능
    • 웹 검색 MCP 추가 시 실시간 검색 결과 반영 가능, 세계 지식 한정 모델의 확장 사용 가능
    • 장기 기억력 요구 시 Obsidian용 MCP 등 다양한 확장 서버 활용 가능
      • 단, MCP 도입 시 컨텍스트를 빠르게 채우므로 꼭 필요한 경우만 활성화 필요
  • Agents
    • 에이전트(Agent)는 반복적으로 도구를 사용하는 모델 구조 의미
    • 추론과 도구 사용 능력을 겸비한 모델이 보편적으로 에이전트로 분류됨
    • 완벽하지 않으나 도전적이고 흥미로운 개념 제공

추천 모델 및 활용 팁

  • LM Studio 내장 UI에서 런타임, 양자화, 모델 특성, 크기 등을 쉽게 비교 및 탐색 가능
  • llama.cpp의 경우 Hugging Face에서 GGUF 모델 섹션 활용 가능
  • 능력치를 모두 충족하는 모델은 많지 않으므로 다양한 모델을 다운로드해 실험 추천
  • 추천 모델 목록:
    • Gemma 3 12B QAT: 비전 지능 강점, 빠르고 좋은 텍스트 생성
    • Qwen3 4B 2507 Thinking: 소형, 속도/품질 우수, 추론형·일반형 두 종류
    • GPT-OSS 20B: 현존 최고 성능, 3단계 추론 지원, 속도 느리지만 역량 최고
    • Phi-4 (14B) : 예전에는 선호, 지금도 추론+일반 버전 존재

마무리 및 활용 팁

  • 소형 모델이 대규모 최신 모델을 완전히 대체하진 못해도, 로컬 실행의 유용함은 분명함
  • 로컬 테스트로 알고리듬 동작 이해 및 약점 보완 역량 향상에 도움됨
  • LM Studio는 맥락 창 사용량을 실시간 표시함
    • 맥락이 가득 차기 직전에 대화 내용을 요약하게 하면 중요한 정보 유지에 효과적임
  • 로컬 LLM은 개인용 ‘컴퓨터 속 디지털 지니(Genie)’ 같은 존재로 생각하고, 즐거운 실험 경험을 기대함
Hacker News 의견
  • 나도 마법처럼 10GB 정도의 파일만 다운로드하면 노트북에서 텍스트 요약, 질문 답변, 심지어 간단한 추론까지 되는 게 신기함. 중요한 건 모델 크기와 RAM의 균형임. 16GB 머신에서는 12B~20B 정도가 한계에 가까움. 하지만 이런 모델들은 실제로 Apple의 Neural Engine(ANE)을 사용하지 않고 GPU에서 Metal을 통해 돌아감. Core ML은 커스텀 런타임엔 아직 그다지 좋지 않고, Apple이 ANE에 대한 저수준 개발자 액세스도 제공하지 않음. 또한 메모리 대역폭과 SRAM 관련 이슈도 있음. 언젠가 Apple이 Core ML 최적화로 transformer 워크로드를 ANE로 잘 매핑하길 바람

    • Apple이 새로운 CEO가 필요하다고 계속 느껴왔음. 내가 Apple을 이끌었다면 로컬 LLM을 적극적으로 도입하고 Nvidia 용으로 설계된 모델도 최적화하는 추론 엔진을 만들었을 거임. 서버급 Apple Silicon 프로세서를 판매하고 GPU 스펙도 개방해서 모두가 직접 활용할 수 있게 했을 것임. Apple은 너무 안전한 길만 가는 것 같음. Tim Cook은 COO로서 훌륭하지만 여전히 그 방식대로 회사를 운영하는 중임. 이제 COO가 아니라 혁신가가 필요하다고 생각함

    • 리버스 엔지니어링 정보(Asahi Linux에서 ANE에 직접 접근 가능한 사례 등)를 보면 M1/M2의 Apple Neural Engine은 INT8 또는 FP16 값의 statically scheduled MADD에만 최적화되어 있음. 최신 로컬 모델들은 더 강하게 양자화되다 보니, 모델 값이 FP16/INT8로 패딩될 때 메모리 대역폭이 낭비됨. 반면 GPU는 입력을 빠르게 디양자화하고 레지스터에 패딩해서 매트릭스 유닛에 공급할 수 있으니 메모리 대역폭이 효율적으로 사용됨. 그래도 NPU/ANE는 프롬프트 전처리 등에는 유용할 수 있음. 이 부분은 토큰 생성보다 연산 처리에 제한이 있어서, 전력 사용을 낮추고 쿨링 제한도 피할 수 있음. 추가 정보: Whisper.cpp Pull Request, 옛날 ANE 정보, tinygrad의 자세한 정리. M3/M4는 아직 Asahi 지원이 없어서 앞으로 어떻게 될지는 미지수임. M3 시리즈도 M2와 성능 차이가 크지 않은 걸로 보임

    • ANE에서 transformer 워크로드가 잘 돌아가길 바란다면 모델을 변환할 수 있는 도구가 이미 있음.<br>TensorFlow, PyTorch 등에서 만든 모델을 Core ML로 변환하는 방법: CoreML Tools Docs

    • 나도 Apple Neural Engine이 로컬 LLM과 연동되지 않는 부분이 흥미로웠음. Apple, AMD, Intel 모두 llama.cpp에서 NPU 지원을 제대로 못하고 있는 듯함. 왜 그런지 궁금함

    • GLM 4.5 Air와 gpt-oss-120b 모두 꽤 쓸 만하게 돌리고 있음. 특히 GPT OSS의 지연 시간이 괜찮음. 128GB M4 맥북 기준임. 지금은 굉장히 강력하지만 곧 평범해질 거임. 이런 모델들이 이제는 최첨단 모델들에 근접해가고 있음

  • 지금까지는 로컬 LLM이 ChatGPT(2022년 초기 버전)처럼 너무 제한적이라, 정말 쓸만한 활용처를 찾지 못했음. 커뮤니티에서 어떤 유용한 사용 사례가 있었는지 궁금함. 예시로 Sun Tzu 인터뷰를 로컬 LLM이 지어냈다던데, 이런 한계가 마음에 걸림. 그래서 실제로 어디에 쓸 수 있을지 궁금함

    • 여러 LLM을 써봤지만, 48GB 이상의 Macbook에서 Gemma3:27b가 개인 일기나 민감한 데이터를 분석할 때 최고 수준임. 중국산 모델은 인생 조언이 너무 코믹함. 예를 들어 Deepseek에 고민을 상담했더니, 유교식 인생 설계를 해주었음. Gemma는 훨씬 서구적임

    • 로컬 LLM은 주로 사실 기반이 아닌 자동화용으로 많이 씀. 예를 들어 분류, 요약, 검색, 맞춤법 검사 등. 내가 원하는 언어나 일상 개념을 이해해야 하지만, 인간 역사나 프로그래밍 언어, 건강 같은 방대한 정보가 다 필요하진 않음. 직접 LLM을 프롬프트하지 않아도 OS나 앱이 필요할 때마다 LLM을 자동으로 사용하게 할 수 있음

    • Obsidian에 내 감정, 생각, 한 일 등 다 기록함. 이런 내밀한 노트를 클라우드에 올리고 싶지 않기 때문에 chromeDB로 관리하면서 LLM으로 대화함. 요즘은 거절 여부가 제거된 abliterated 모델도 사용 중임(transformers 거절 제거). 업무에서도 사용함. 금융 데이터 작업을 자동화하는 mcp를 만들었고, 로컬에서 모델을 돌리니까 정보 유출 걱정 없음

    • 인터넷이 잘 안 되거나 자주 끊기는 환경에서도 쓸 수 있음. 최첨단이 아닌 LLM이라도 없는 것보단 훨씬 나음. 예로, 인터넷이 폭풍 때문에 끊겼을 때 필요한 안전 지침을 로컬 LLM에서 바로 얻을 수 있음

    • 로컬 모델은 앱 프로토타입을 만들거나 개발 초기에 사용함.<br>첫째, 개발비용이 확실히 절감됨. 둘째, 성능 한계 때문에 컴포지션을 더 신중하게 조합해야 해서 도움이 됨. 어느 정도 쓸 만한 로컬 모델(gpt-oss, qwen3 등)로 업무 흐름을 설계해두면, 나중에 클라우드 모델(gpt-5-mini 등)로 교체할 때 바로 성능이 업그레이드됨. 물론 모든 문서를 클라우드 모델의 컨텍스트 윈도에 넣고 좋은 결과가 나오면 로컬 모델 제약을 감수할 필요가 없긴 함. 하지만 장기적으로 보면 태스크를 나눠서 로컬에서 돌리는 게 더 저렴하고 더 빠를 수도 있음

  • Hermes Mistral을 돌려봤는데 처음부터 환각(hallucination)이 심했음. 최근에 오디오 드림 저널을 개인적으로 Obsidian 폴더에 보관하고 있음. Whisper로 .wav 파일을 받아서 텍스트 변환하고, 로컬 LLM으로 구두점과 문단만 손보려고 했음. 아무것도 추가하지 말고, 가독성만 개선해달라고 했더니, Hermes가 뜬금없이 손자병법에 대해 Sun Tzu와 인터뷰를 지어내기 시작함. 프로세스를 중단하자 미안하다고 하면서 왜 Sun Tzu 이야기가 나왔는지도 설명 못함. 계속 이렇게 이상한 환각을 잡아내려면 그냥 내가 직접 편집하는 게 나음. 이런 로그릭이 로컬 LLM을 활용하려는 거의 모든 분야에 적용됨. 언젠가 개선되길 바람

    • 정확성이나 ‘정답’이라는 게 컴퓨터에선 논리만 정확하면 쉬울 거라 생각했었음. 오히려 독창성, 창의성이 힘들고 비논리적이라 어려울 거라 예상했지만, 오히려 AI들이 엉뚱한 걸 너무 잘 지어내는 능력이 더 많이 보여서 당황스러움. 결국 우리가 AI에게 인간 커뮤니케이션을 학습시켰으니 당연한 결과일 수도 있음. Reddit 같은 데이터를 학습 소스로 넣은 게 최선은 아니었던 듯함. Reddit을 넣으면 Reddit이 나오는 셈임
  • 최첨단 LLM을 폰이나 노트북에서 직접 돌리는 시대는 아직 멀었다고 봄. 당장 눈앞에는 집에 AI 서버 박스를 두고 LLM을 돌리는 쪽이 현실적으로 보임. 얇은 클라이언트(노트북 등)는 이 박스에 접속하고, 필요하면 로컬에서도 작은 모델로 적절히 처리함. Apple이 Mac Pro로 이런 전략을 이어가면 자연스러울 듯. 1~2만 달러짜리 집 LLM 박스도 충분히 수긍할 수 있음

    • 지금 512GB 메모리의 Mac Studio(약 1만 달러)에서 최신 오픈 소스 모델을 돌릴 수 있음. 예시로 Qwen3-Coder-480B-A35B-Instruct가 4bit에서 초당 24토큰 속도로 작동하는 영상, Deep Seek V3 0324가 4비트에서 초당 20토큰을 보여줌. 두 대의 Mac Studio를 MLX로 묶어서 더 큰 모델도 실행 가능. 671B 8비트 DeepSeek R1 예시

    • Mac Pro는 큰 케이스 비용만큼 너무 비싸서 실용적이지 않다고 봄. Studio가 더 합리적임. Nvidia, AMD도 데스크탑 폼펙터에 대량 고대역폭 GPU 메모리를 곧 지원할 예정임. 노트북이나 다른 디바이스에서 집의 LLM 서버에 접속해서, 로컬에서 배터리 걱정 없이 사용하면 완벽할 것임

    • 내 경우 AMD 395+로 docker 컨테이너 여러 개를 돌리며 다양한 앱을 운영하고 있음. Qwen Code, GPT OSS 120b 모델을 주로 사용 중임. 새로운 세대가 곧 출시되면 비싼 가격이어도 업그레이드할 예정임. 그만한 가치가 있음

    • 1~2만 달러 가격은 대부분에게 터무니없이 비쌈. 실리콘밸리 연봉이면 가능하겠지만, 훨씬 저렴한 Apple Vision Pro조차 판매가 저조했음

    • gpt-oss-120b가 훨씬 적은 메모리만으로도 더 좋은 성능을 내지 않음? 128GB 메모리 기준 4천 달러짜리 맥 스튜디오만으로도 충분히 돌릴 수 있음

  • 주제와 상관없지만, 첫 번째 단락 'opinions'의 웨이브 효과 텍스트가 인상 깊었음

    • 고마움. 전체 게시글의 핵심이 바로 그 부분이었음
  • 나는 로컬 LLM이 미래라고 생각함. 시간이 지날수록 계속 발전할 것임. 작년 수준의 모델만 도 배포된다면 굳이 chatgpt, anthropic, 기타 클라우드 서비스를 쓸 이유가 없음. 모든 일을 해결하는 대형 모델이 필요하지도 않음. 각각 작업에 따라 작은 모델을 여러 개 불러서 쓰는 상상이 현실이 됨. 더 이상 진입 장벽(모트)은 없음

    • 로컬 LLM 성능은 앞으로도 좋아지겠지만, 일반인이 쓰기 실용적인 시점이 언제 올지는 확신하기 어렵다고 봄. 로컬 모델의 추론, 코딩 능력은 비약적으로 발전했지만 그 이유는 훈련 데이터 개선(RLHF, DPO, CoT 등)과 기술력에서 나옴. 그래도 진짜 중요한 건 거대한 풀 프리시전 파라미터 셋의 순수 통계적 출력으로 환각을 최소화하는 건데, 이 모델과 일반 소비자 사이엔 하드웨어 격차가 엄청남. 적어도 10년 이상은 더 걸릴 듯함

    • 나는 안전하고 프라이빗한 클라우드 컴퓨팅이야말로 미래라고 봄

  • 로컬 LLM 사용 관련 블로그나 글에는 반드시 어떤 하드웨어에서 테스트했는지 언급해줘야 함

    • 좋은 의견임, 빠른 메모 추가하겠음
  • LM Studio에 한 표. 구성이 다양하게 준비되어 있어서 내 맥북이 할 수 있는 일, 설정 방법 등 직관적으로 익힐 수 있음. 1~2시간 좋은 경험임

    • cli 툴과 openai 호환 서버도 기본 포함되어 있음. 모델을 불러와 endpoint를 열어서 로컬 스크립트에도 사용할 수 있음. 채팅 인터페이스로 먼저 파악하고, 그 이후 프로그램적으로 확장 가능함
  • 나는 16GB Mac Mini에서 임의로 모델 받아서 돌려 보는 취미가 있는데, 글쓴이의 모델 추천 리스트가 정말 도움이 됨. 각 크기별로 4~5개만 남겨서 써보는데 이게 가장 효율적임

  • Mozilla-Ocho/llamafile도 참고하면 도움 됨