macOS에서 로컬 LLM 실험하기

▲

GN⁺ 8달전 | parent | ★ favorite | on: macOS에서 로컬 LLM 실험하기(blog.6nok.org)

Hacker News 의견

나도 마법처럼 10GB 정도의 파일만 다운로드하면 노트북에서 텍스트 요약, 질문 답변, 심지어 간단한 추론까지 되는 게 신기함. 중요한 건 모델 크기와 RAM의 균형임. 16GB 머신에서는 12B~20B 정도가 한계에 가까움. 하지만 이런 모델들은 실제로 Apple의 Neural Engine(ANE)을 사용하지 않고 GPU에서 Metal을 통해 돌아감. Core ML은 커스텀 런타임엔 아직 그다지 좋지 않고, Apple이 ANE에 대한 저수준 개발자 액세스도 제공하지 않음. 또한 메모리 대역폭과 SRAM 관련 이슈도 있음. 언젠가 Apple이 Core ML 최적화로 transformer 워크로드를 ANE로 잘 매핑하길 바람
- Apple이 새로운 CEO가 필요하다고 계속 느껴왔음. 내가 Apple을 이끌었다면 로컬 LLM을 적극적으로 도입하고 Nvidia 용으로 설계된 모델도 최적화하는 추론 엔진을 만들었을 거임. 서버급 Apple Silicon 프로세서를 판매하고 GPU 스펙도 개방해서 모두가 직접 활용할 수 있게 했을 것임. Apple은 너무 안전한 길만 가는 것 같음. Tim Cook은 COO로서 훌륭하지만 여전히 그 방식대로 회사를 운영하는 중임. 이제 COO가 아니라 혁신가가 필요하다고 생각함
- 리버스 엔지니어링 정보(Asahi Linux에서 ANE에 직접 접근 가능한 사례 등)를 보면 M1/M2의 Apple Neural Engine은 INT8 또는 FP16 값의 statically scheduled MADD에만 최적화되어 있음. 최신 로컬 모델들은 더 강하게 양자화되다 보니, 모델 값이 FP16/INT8로 패딩될 때 메모리 대역폭이 낭비됨. 반면 GPU는 입력을 빠르게 디양자화하고 레지스터에 패딩해서 매트릭스 유닛에 공급할 수 있으니 메모리 대역폭이 효율적으로 사용됨. 그래도 NPU/ANE는 프롬프트 전처리 등에는 유용할 수 있음. 이 부분은 토큰 생성보다 연산 처리에 제한이 있어서, 전력 사용을 낮추고 쿨링 제한도 피할 수 있음. 추가 정보: Whisper.cpp Pull Request, 옛날 ANE 정보, tinygrad의 자세한 정리. M3/M4는 아직 Asahi 지원이 없어서 앞으로 어떻게 될지는 미지수임. M3 시리즈도 M2와 성능 차이가 크지 않은 걸로 보임
- ANE에서 transformer 워크로드가 잘 돌아가길 바란다면 모델을 변환할 수 있는 도구가 이미 있음.<br>TensorFlow, PyTorch 등에서 만든 모델을 Core ML로 변환하는 방법: CoreML Tools Docs
- 나도 Apple Neural Engine이 로컬 LLM과 연동되지 않는 부분이 흥미로웠음. Apple, AMD, Intel 모두 llama.cpp에서 NPU 지원을 제대로 못하고 있는 듯함. 왜 그런지 궁금함
- GLM 4.5 Air와 gpt-oss-120b 모두 꽤 쓸 만하게 돌리고 있음. 특히 GPT OSS의 지연 시간이 괜찮음. 128GB M4 맥북 기준임. 지금은 굉장히 강력하지만 곧 평범해질 거임. 이런 모델들이 이제는 최첨단 모델들에 근접해가고 있음
지금까지는 로컬 LLM이 ChatGPT(2022년 초기 버전)처럼 너무 제한적이라, 정말 쓸만한 활용처를 찾지 못했음. 커뮤니티에서 어떤 유용한 사용 사례가 있었는지 궁금함. 예시로 Sun Tzu 인터뷰를 로컬 LLM이 지어냈다던데, 이런 한계가 마음에 걸림. 그래서 실제로 어디에 쓸 수 있을지 궁금함
- 여러 LLM을 써봤지만, 48GB 이상의 Macbook에서 Gemma3:27b가 개인 일기나 민감한 데이터를 분석할 때 최고 수준임. 중국산 모델은 인생 조언이 너무 코믹함. 예를 들어 Deepseek에 고민을 상담했더니, 유교식 인생 설계를 해주었음. Gemma는 훨씬 서구적임
- 로컬 LLM은 주로 사실 기반이 아닌 자동화용으로 많이 씀. 예를 들어 분류, 요약, 검색, 맞춤법 검사 등. 내가 원하는 언어나 일상 개념을 이해해야 하지만, 인간 역사나 프로그래밍 언어, 건강 같은 방대한 정보가 다 필요하진 않음. 직접 LLM을 프롬프트하지 않아도 OS나 앱이 필요할 때마다 LLM을 자동으로 사용하게 할 수 있음
- Obsidian에 내 감정, 생각, 한 일 등 다 기록함. 이런 내밀한 노트를 클라우드에 올리고 싶지 않기 때문에 chromeDB로 관리하면서 LLM으로 대화함. 요즘은 거절 여부가 제거된 abliterated 모델도 사용 중임(transformers 거절 제거). 업무에서도 사용함. 금융 데이터 작업을 자동화하는 mcp를 만들었고, 로컬에서 모델을 돌리니까 정보 유출 걱정 없음
- 인터넷이 잘 안 되거나 자주 끊기는 환경에서도 쓸 수 있음. 최첨단이 아닌 LLM이라도 없는 것보단 훨씬 나음. 예로, 인터넷이 폭풍 때문에 끊겼을 때 필요한 안전 지침을 로컬 LLM에서 바로 얻을 수 있음
- 로컬 모델은 앱 프로토타입을 만들거나 개발 초기에 사용함.<br>첫째, 개발비용이 확실히 절감됨. 둘째, 성능 한계 때문에 컴포지션을 더 신중하게 조합해야 해서 도움이 됨. 어느 정도 쓸 만한 로컬 모델(gpt-oss, qwen3 등)로 업무 흐름을 설계해두면, 나중에 클라우드 모델(gpt-5-mini 등)로 교체할 때 바로 성능이 업그레이드됨. 물론 모든 문서를 클라우드 모델의 컨텍스트 윈도에 넣고 좋은 결과가 나오면 로컬 모델 제약을 감수할 필요가 없긴 함. 하지만 장기적으로 보면 태스크를 나눠서 로컬에서 돌리는 게 더 저렴하고 더 빠를 수도 있음
Hermes Mistral을 돌려봤는데 처음부터 환각(hallucination)이 심했음. 최근에 오디오 드림 저널을 개인적으로 Obsidian 폴더에 보관하고 있음. Whisper로 .wav 파일을 받아서 텍스트 변환하고, 로컬 LLM으로 구두점과 문단만 손보려고 했음. 아무것도 추가하지 말고, 가독성만 개선해달라고 했더니, Hermes가 뜬금없이 손자병법에 대해 Sun Tzu와 인터뷰를 지어내기 시작함. 프로세스를 중단하자 미안하다고 하면서 왜 Sun Tzu 이야기가 나왔는지도 설명 못함. 계속 이렇게 이상한 환각을 잡아내려면 그냥 내가 직접 편집하는 게 나음. 이런 로그릭이 로컬 LLM을 활용하려는 거의 모든 분야에 적용됨. 언젠가 개선되길 바람
- 정확성이나 ‘정답’이라는 게 컴퓨터에선 논리만 정확하면 쉬울 거라 생각했었음. 오히려 독창성, 창의성이 힘들고 비논리적이라 어려울 거라 예상했지만, 오히려 AI들이 엉뚱한 걸 너무 잘 지어내는 능력이 더 많이 보여서 당황스러움. 결국 우리가 AI에게 인간 커뮤니케이션을 학습시켰으니 당연한 결과일 수도 있음. Reddit 같은 데이터를 학습 소스로 넣은 게 최선은 아니었던 듯함. Reddit을 넣으면 Reddit이 나오는 셈임
최첨단 LLM을 폰이나 노트북에서 직접 돌리는 시대는 아직 멀었다고 봄. 당장 눈앞에는 집에 AI 서버 박스를 두고 LLM을 돌리는 쪽이 현실적으로 보임. 얇은 클라이언트(노트북 등)는 이 박스에 접속하고, 필요하면 로컬에서도 작은 모델로 적절히 처리함. Apple이 Mac Pro로 이런 전략을 이어가면 자연스러울 듯. 1~2만 달러짜리 집 LLM 박스도 충분히 수긍할 수 있음
- 지금 512GB 메모리의 Mac Studio(약 1만 달러)에서 최신 오픈 소스 모델을 돌릴 수 있음. 예시로 Qwen3-Coder-480B-A35B-Instruct가 4bit에서 초당 24토큰 속도로 작동하는 영상, Deep Seek V3 0324가 4비트에서 초당 20토큰을 보여줌. 두 대의 Mac Studio를 MLX로 묶어서 더 큰 모델도 실행 가능. 671B 8비트 DeepSeek R1 예시
- Mac Pro는 큰 케이스 비용만큼 너무 비싸서 실용적이지 않다고 봄. Studio가 더 합리적임. Nvidia, AMD도 데스크탑 폼펙터에 대량 고대역폭 GPU 메모리를 곧 지원할 예정임. 노트북이나 다른 디바이스에서 집의 LLM 서버에 접속해서, 로컬에서 배터리 걱정 없이 사용하면 완벽할 것임
- 내 경우 AMD 395+로 docker 컨테이너 여러 개를 돌리며 다양한 앱을 운영하고 있음. Qwen Code, GPT OSS 120b 모델을 주로 사용 중임. 새로운 세대가 곧 출시되면 비싼 가격이어도 업그레이드할 예정임. 그만한 가치가 있음
- 1~2만 달러 가격은 대부분에게 터무니없이 비쌈. 실리콘밸리 연봉이면 가능하겠지만, 훨씬 저렴한 Apple Vision Pro조차 판매가 저조했음
- gpt-oss-120b가 훨씬 적은 메모리만으로도 더 좋은 성능을 내지 않음? 128GB 메모리 기준 4천 달러짜리 맥 스튜디오만으로도 충분히 돌릴 수 있음
주제와 상관없지만, 첫 번째 단락 'opinions'의 웨이브 효과 텍스트가 인상 깊었음
- 고마움. 전체 게시글의 핵심이 바로 그 부분이었음
나는 로컬 LLM이 미래라고 생각함. 시간이 지날수록 계속 발전할 것임. 작년 수준의 모델만 도 배포된다면 굳이 chatgpt, anthropic, 기타 클라우드 서비스를 쓸 이유가 없음. 모든 일을 해결하는 대형 모델이 필요하지도 않음. 각각 작업에 따라 작은 모델을 여러 개 불러서 쓰는 상상이 현실이 됨. 더 이상 진입 장벽(모트)은 없음
- 로컬 LLM 성능은 앞으로도 좋아지겠지만, 일반인이 쓰기 실용적인 시점이 언제 올지는 확신하기 어렵다고 봄. 로컬 모델의 추론, 코딩 능력은 비약적으로 발전했지만 그 이유는 훈련 데이터 개선(RLHF, DPO, CoT 등)과 기술력에서 나옴. 그래도 진짜 중요한 건 거대한 풀 프리시전 파라미터 셋의 순수 통계적 출력으로 환각을 최소화하는 건데, 이 모델과 일반 소비자 사이엔 하드웨어 격차가 엄청남. 적어도 10년 이상은 더 걸릴 듯함
- 나는 안전하고 프라이빗한 클라우드 컴퓨팅이야말로 미래라고 봄
로컬 LLM 사용 관련 블로그나 글에는 반드시 어떤 하드웨어에서 테스트했는지 언급해줘야 함
- 좋은 의견임, 빠른 메모 추가하겠음
LM Studio에 한 표. 구성이 다양하게 준비되어 있어서 내 맥북이 할 수 있는 일, 설정 방법 등 직관적으로 익힐 수 있음. 1~2시간 좋은 경험임
- cli 툴과 openai 호환 서버도 기본 포함되어 있음. 모델을 불러와 endpoint를 열어서 로컬 스크립트에도 사용할 수 있음. 채팅 인터페이스로 먼저 파악하고, 그 이후 프로그램적으로 확장 가능함
나는 16GB Mac Mini에서 임의로 모델 받아서 돌려 보는 취미가 있는데, 글쓴이의 모델 추천 리스트가 정말 도움이 됨. 각 크기별로 4~5개만 남겨서 써보는데 이게 가장 효율적임
Mozilla-Ocho/llamafile도 참고하면 도움 됨