CanIRun.ai — 내 컴퓨터에서 AI 모델을 실행

▲

GN⁺ 2달전 | parent | ★ favorite | on: CanIRun.ai — 내 컴퓨터에서 AI 모델을 실행할 수 있을까?(canirun.ai)

Hacker News 의견들

지난 2년간 로컬 모델 실험에 엄청난 시간을 쏟았음
작은 모델, 예를 들어 qwen3.5:9b 같은 경우 로컬 툴 사용이나 정보 추출, 임베디드 애플리케이션에 아주 적합했음
코딩용으로는 Google Antigravity, gemini-cli, 혹은 Anthropic Claude 같은 클라우드 기반 도구가 더 효율적이었음
Emacs와 Claude Code를 로컬로 설정해 100시간 넘게 실험했지만, 일반 사용자에게는 추천하지 않음
대신 작고 실용적인 로컬 임베디드 모델을 잘 다루는 것이 가장 달콤한 지점이라 생각함
- qwen3.5:9b를 강력히 추천함
  이 모델은 작지만 멀티모달 추론 능력이 뛰어나며, 내부 사고 체계(CoT)가 안정적임
  특히 VRAM과 컨텍스트 크기 간의 새로운 트레이드오프 구조가 인상적임 — 100K 토큰을 1.5GB VRAM으로 처리 가능해 RTX 3060에서도 긴 대화나 문서 처리가 가능함
- 나는 qwen3.5를 로컬 툴용으로 써봤는데 결과가 별로였음
  GPT-OSS-120B로는 잘 되던 디스코드 챗봇이 Qwen에서는 툴 호출을 흉내만 내고 실행하지 않는 문제가 있었음
  결국 이미지는 Qwen으로, 일반 대화는 GPT로 처리하도록 분리함
- qwen3.5 9b를 써봤는데 환각(hallucination) 비율이 높았음
  로컬 코드 리포 탐색 중 30~50%의 결과가 잘못된 파일명이나 함수명을 만들어냄
  KimiK2로 검증해보니 대부분 틀렸음. 작은 모델은 좋지만 신뢰도에는 주의가 필요함
- 작은 모델을 실제 워크플로에 어떻게 통합하는지 궁금함
  M4 MacBook Pro(128GB RAM)에서 ollama로 실험 중인데, 아직 만족스러운 흐름을 못 찾았음
- 큰 모델로 계획 수립, 작은 로컬 모델로 코드 작성하는 조합이 괜찮은지 궁금함
  Claude Code나 Codex 의존도를 줄이고 싶음
이 사이트는 모델의 메모리 대역폭과 크기를 기준으로 성능을 추정하는 듯함
하지만 MoE 모델(GPT-OSS-20B 등)은 모든 파라미터를 매 토큰마다 쓰지 않기 때문에, 같은 하드웨어에서도 더 빠르게 토큰을 생성할 수 있음
GPT-OSS-20B는 3.6B 활성 파라미터를 가지므로 3~4B 밀집 모델과 비슷한 속도를 내지만, VRAM은 전체 20B 모델 크기를 요구함
지능 면에서는 약 8.5B 밀집 모델 수준으로 평가됨
- 실제로 내 Strix Halo 노트북에서 테스트한 모델들의 성능이 예측보다 훨씬 좋았음
  MoE 모델의 경우 활성 파라미터만을 기준으로 메모리 대역폭을 계산해야 함
- 이 계산이 전체 컨텍스트 크기를 기준으로 한 것 같음
  하지만 실제 사용에서는 더 작은 컨텍스트로 충분한 경우가 많음
  llama.cpp의 llama-fit-params가 이런 상황에서 유용함
- 문서에서도 이 점을 명확히 설명함
  Mixtral 8x7B 같은 MoE 모델은 46.7B 중 약 12.9B만 활성화됨
  즉, 큰 모델의 품질과 작은 모델의 속도를 동시에 얻을 수 있지만, 전체 모델은 여전히 메모리에 상주해야 함
  canirun.ai 문서
- 다만 약간의 부정확함이 있음
  토큰 생성 속도는 비슷하지만 prefill 속도는 큰 MoE가 더 느림
  또한 speculative decoding을 사용할 경우, 작은 밀집 모델은 최대 3배 속도 향상이 가능하지만 MoE 모델은 거의 이득이 없음
TFA나 llmfit 같은 시도는 좋지만, 내 하드웨어에서 어떤 모델이 가장 품질이 좋은지 찾기 어렵다는 점이 답답함
예를 들어 Qwen 3.5 27B Q6 @ 100k 컨텍스트가 잘 작동하지만, 추천 목록에는 구버전 Qwen 2.5가 우선됨
나는 tok/s 50 이상이면 충분하므로, 품질 기준으로 정렬할 수 있으면 좋겠음
- 질문이 너무 포괄적임
  예를 들어 “8GB VRAM, 32GB RAM에서 t/s ≥ 30, context ≥ 32K로 고품질 코딩용 오픈 모델”이라면 Qwen2.5-Coder-7B-Instruct
  “24GB VRAM, 32GB RAM에서 웹 리서치용”이라면 Qwen3-30B-A3B-Instruct-2507
  “40GB VRAM, 128GB RAM에서 RAG 임베딩용”이라면 Qwen3-Embedding-8B
  즉, 하드웨어별 구체적 모델 추천이 필요함
- 로컬 실행의 비용 대비 효율($/Mtok)이 궁금함
  전기료를 제외하면 거의 무료지만, 속도와 품질이 떨어짐
  혹시 단순히 데이터 프라이버시 때문에 로컬을 선호하는 것인지 궁금함
- 이 문제는 정말 어렵고, 나도 1년 넘게 연구 중임
  여러 기기와 모델을 동시에 고려해 품질과 자원 배분을 최적화하려다 보니 복잡도가 폭발함
  결국 지금은 단순히 가장 큰 quant 모델을 고르는 방식으로 타협 중임
- LLM은 결국 특수 계산기일 뿐임
  일반 계산기처럼 정확해야 하는 건 아니고, 모델 제작자와 사용자의 목표가 다르기 때문에 원하는 결과를 예측하기 어려움
이건 단순히 llmfit의 웹 버전으로 보임
llmfit GitHub 링크
- 맞음. 하지만 llmfit은 시스템 리소스를 자동 감지하므로 훨씬 유용함
- 링크 공유 고마움. 실제로 웹사이트보다 훨씬 쓸모 있음
  내 M2 Max MBP(96GB RAM)에서도 대부분의 로컬 LLM이 잘 돌아간다고 나옴
  생각보다 로컬 실행 가능 모델이 많아서 놀랐음
Docker나 Python보다 가벼운 대안으로 Rust+Wasm 스택을 추천함
LlamaEdge 프로젝트
내 RTX 6000 Pro Max-Q(96GB VRAM)를 잘 인식했지만, UI에서는 4GB로 표시됨
또한 양자화 모델을 고려하지 않고 풀 해상도 모델만 보여줌
개선이 필요함
모바일 GPU 목록이 부족하고, CPU 메모리 공유나 KV 캐시 오프로딩 같은 전략을 이해하지 못함
내 시스템은 Arc 750(2GB 공유 RAM)로 표시되지만 실제로는 RTX1000 Ada(6GB GDDR6)임
Qwen3 Coder Next, Devstral Small, Qwen3.5 4B 등은 거의 실시간으로 잘 작동함
더 큰 모델은 느리지만 토큰 부족 문제는 없음
멋진 아이디어임
다만 M3 Ultra(256GB RAM) 사용자인데 옵션이 192GB까지만 있음
모델을 선택하고 프로세서별 성능 비교도 가능했으면 좋겠음
- 아쉽게도 Apple이 512GiB 모델을 단종시킴
내 브라우저가 하드웨어 정보를 웹사이트에 자동 제공한다는 걸 처음 알았음
- 실제로는 완전히 정확하지 않음
  사이트는 내가 iPhone 19 Pro라고 인식하지만 실제로는 iPhone SE 1세대임
- 최신 Librewolf에서는 WebGL 접근 권한을 요청함
  그걸로 하드웨어를 감지하는 듯함
- 이런 정보는 브라우저 지문 추적(fingerprinting) 에 자주 사용됨
  프라이버시 중심 브라우저는 무작위 정보를 제공함
- 항공사들이 OS별로 가격을 다르게 책정하는 것도 이런 방식일 거라 생각함
M4와 M5 칩 간 성능 차이가 전혀 없는 것처럼 보이는 점이 이상함
메모리 크기도 큰 모델 성능에 영향을 주지 않는 듯함
전체적으로 실제 데이터가 아닌 추정치 기반으로 보이므로, “ESTIMATE” 표시가 필요함
- 실제 초기 테스트에서는 M5 Max가 성능 향상을 보였음
  참고: Apple M5 Max 관련 영상