지난 2년간 로컬 모델 실험에 엄청난 시간을 쏟았음
작은 모델, 예를 들어 qwen3.5:9b 같은 경우 로컬 툴 사용이나 정보 추출, 임베디드 애플리케이션에 아주 적합했음
코딩용으로는 Google Antigravity, gemini-cli, 혹은 Anthropic Claude 같은 클라우드 기반 도구가 더 효율적이었음
Emacs와 Claude Code를 로컬로 설정해 100시간 넘게 실험했지만, 일반 사용자에게는 추천하지 않음
대신 작고 실용적인 로컬 임베디드 모델을 잘 다루는 것이 가장 달콤한 지점이라 생각함
qwen3.5:9b를 강력히 추천함
이 모델은 작지만 멀티모달 추론 능력이 뛰어나며, 내부 사고 체계(CoT)가 안정적임
특히 VRAM과 컨텍스트 크기 간의 새로운 트레이드오프 구조가 인상적임 — 100K 토큰을 1.5GB VRAM으로 처리 가능해 RTX 3060에서도 긴 대화나 문서 처리가 가능함
나는 qwen3.5를 로컬 툴용으로 써봤는데 결과가 별로였음
GPT-OSS-120B로는 잘 되던 디스코드 챗봇이 Qwen에서는 툴 호출을 흉내만 내고 실행하지 않는 문제가 있었음
결국 이미지는 Qwen으로, 일반 대화는 GPT로 처리하도록 분리함
qwen3.5 9b를 써봤는데 환각(hallucination) 비율이 높았음
로컬 코드 리포 탐색 중 30~50%의 결과가 잘못된 파일명이나 함수명을 만들어냄
KimiK2로 검증해보니 대부분 틀렸음. 작은 모델은 좋지만 신뢰도에는 주의가 필요함
작은 모델을 실제 워크플로에 어떻게 통합하는지 궁금함
M4 MacBook Pro(128GB RAM)에서 ollama로 실험 중인데, 아직 만족스러운 흐름을 못 찾았음
큰 모델로 계획 수립, 작은 로컬 모델로 코드 작성하는 조합이 괜찮은지 궁금함
Claude Code나 Codex 의존도를 줄이고 싶음
이 사이트는 모델의 메모리 대역폭과 크기를 기준으로 성능을 추정하는 듯함
하지만 MoE 모델(GPT-OSS-20B 등)은 모든 파라미터를 매 토큰마다 쓰지 않기 때문에, 같은 하드웨어에서도 더 빠르게 토큰을 생성할 수 있음
GPT-OSS-20B는 3.6B 활성 파라미터를 가지므로 3~4B 밀집 모델과 비슷한 속도를 내지만, VRAM은 전체 20B 모델 크기를 요구함
지능 면에서는 약 8.5B 밀집 모델 수준으로 평가됨
실제로 내 Strix Halo 노트북에서 테스트한 모델들의 성능이 예측보다 훨씬 좋았음
MoE 모델의 경우 활성 파라미터만을 기준으로 메모리 대역폭을 계산해야 함
이 계산이 전체 컨텍스트 크기를 기준으로 한 것 같음
하지만 실제 사용에서는 더 작은 컨텍스트로 충분한 경우가 많음
llama.cpp의 llama-fit-params가 이런 상황에서 유용함
문서에서도 이 점을 명확히 설명함
Mixtral 8x7B 같은 MoE 모델은 46.7B 중 약 12.9B만 활성화됨
즉, 큰 모델의 품질과 작은 모델의 속도를 동시에 얻을 수 있지만, 전체 모델은 여전히 메모리에 상주해야 함 canirun.ai 문서
다만 약간의 부정확함이 있음
토큰 생성 속도는 비슷하지만 prefill 속도는 큰 MoE가 더 느림
또한 speculative decoding을 사용할 경우, 작은 밀집 모델은 최대 3배 속도 향상이 가능하지만 MoE 모델은 거의 이득이 없음
TFA나 llmfit 같은 시도는 좋지만, 내 하드웨어에서 어떤 모델이 가장 품질이 좋은지 찾기 어렵다는 점이 답답함
예를 들어 Qwen 3.5 27B Q6 @ 100k 컨텍스트가 잘 작동하지만, 추천 목록에는 구버전 Qwen 2.5가 우선됨
나는 tok/s 50 이상이면 충분하므로, 품질 기준으로 정렬할 수 있으면 좋겠음
질문이 너무 포괄적임
예를 들어 “8GB VRAM, 32GB RAM에서 t/s ≥ 30, context ≥ 32K로 고품질 코딩용 오픈 모델”이라면 Qwen2.5-Coder-7B-Instruct
“24GB VRAM, 32GB RAM에서 웹 리서치용”이라면 Qwen3-30B-A3B-Instruct-2507
“40GB VRAM, 128GB RAM에서 RAG 임베딩용”이라면 Qwen3-Embedding-8B
즉, 하드웨어별 구체적 모델 추천이 필요함
로컬 실행의 비용 대비 효율($/Mtok)이 궁금함
전기료를 제외하면 거의 무료지만, 속도와 품질이 떨어짐
혹시 단순히 데이터 프라이버시 때문에 로컬을 선호하는 것인지 궁금함
이 문제는 정말 어렵고, 나도 1년 넘게 연구 중임
여러 기기와 모델을 동시에 고려해 품질과 자원 배분을 최적화하려다 보니 복잡도가 폭발함
결국 지금은 단순히 가장 큰 quant 모델을 고르는 방식으로 타협 중임
LLM은 결국 특수 계산기일 뿐임
일반 계산기처럼 정확해야 하는 건 아니고, 모델 제작자와 사용자의 목표가 다르기 때문에 원하는 결과를 예측하기 어려움
링크 공유 고마움. 실제로 웹사이트보다 훨씬 쓸모 있음
내 M2 Max MBP(96GB RAM)에서도 대부분의 로컬 LLM이 잘 돌아간다고 나옴
생각보다 로컬 실행 가능 모델이 많아서 놀랐음
Docker나 Python보다 가벼운 대안으로 Rust+Wasm 스택을 추천함 LlamaEdge 프로젝트
내 RTX 6000 Pro Max-Q(96GB VRAM)를 잘 인식했지만, UI에서는 4GB로 표시됨
또한 양자화 모델을 고려하지 않고 풀 해상도 모델만 보여줌
개선이 필요함
모바일 GPU 목록이 부족하고, CPU 메모리 공유나 KV 캐시 오프로딩 같은 전략을 이해하지 못함
내 시스템은 Arc 750(2GB 공유 RAM)로 표시되지만 실제로는 RTX1000 Ada(6GB GDDR6)임
Qwen3 Coder Next, Devstral Small, Qwen3.5 4B 등은 거의 실시간으로 잘 작동함
더 큰 모델은 느리지만 토큰 부족 문제는 없음
멋진 아이디어임
다만 M3 Ultra(256GB RAM) 사용자인데 옵션이 192GB까지만 있음
모델을 선택하고 프로세서별 성능 비교도 가능했으면 좋겠음
아쉽게도 Apple이 512GiB 모델을 단종시킴
내 브라우저가 하드웨어 정보를 웹사이트에 자동 제공한다는 걸 처음 알았음
실제로는 완전히 정확하지 않음
사이트는 내가 iPhone 19 Pro라고 인식하지만 실제로는 iPhone SE 1세대임
최신 Librewolf에서는 WebGL 접근 권한을 요청함
그걸로 하드웨어를 감지하는 듯함
이런 정보는 브라우저 지문 추적(fingerprinting) 에 자주 사용됨
프라이버시 중심 브라우저는 무작위 정보를 제공함
항공사들이 OS별로 가격을 다르게 책정하는 것도 이런 방식일 거라 생각함
M4와 M5 칩 간 성능 차이가 전혀 없는 것처럼 보이는 점이 이상함
메모리 크기도 큰 모델 성능에 영향을 주지 않는 듯함
전체적으로 실제 데이터가 아닌 추정치 기반으로 보이므로, “ESTIMATE” 표시가 필요함
Hacker News 의견들
지난 2년간 로컬 모델 실험에 엄청난 시간을 쏟았음
작은 모델, 예를 들어 qwen3.5:9b 같은 경우 로컬 툴 사용이나 정보 추출, 임베디드 애플리케이션에 아주 적합했음
코딩용으로는 Google Antigravity, gemini-cli, 혹은 Anthropic Claude 같은 클라우드 기반 도구가 더 효율적이었음
Emacs와 Claude Code를 로컬로 설정해 100시간 넘게 실험했지만, 일반 사용자에게는 추천하지 않음
대신 작고 실용적인 로컬 임베디드 모델을 잘 다루는 것이 가장 달콤한 지점이라 생각함
이 모델은 작지만 멀티모달 추론 능력이 뛰어나며, 내부 사고 체계(CoT)가 안정적임
특히 VRAM과 컨텍스트 크기 간의 새로운 트레이드오프 구조가 인상적임 — 100K 토큰을 1.5GB VRAM으로 처리 가능해 RTX 3060에서도 긴 대화나 문서 처리가 가능함
GPT-OSS-120B로는 잘 되던 디스코드 챗봇이 Qwen에서는 툴 호출을 흉내만 내고 실행하지 않는 문제가 있었음
결국 이미지는 Qwen으로, 일반 대화는 GPT로 처리하도록 분리함
로컬 코드 리포 탐색 중 30~50%의 결과가 잘못된 파일명이나 함수명을 만들어냄
KimiK2로 검증해보니 대부분 틀렸음. 작은 모델은 좋지만 신뢰도에는 주의가 필요함
M4 MacBook Pro(128GB RAM)에서 ollama로 실험 중인데, 아직 만족스러운 흐름을 못 찾았음
Claude Code나 Codex 의존도를 줄이고 싶음
이 사이트는 모델의 메모리 대역폭과 크기를 기준으로 성능을 추정하는 듯함
하지만 MoE 모델(GPT-OSS-20B 등)은 모든 파라미터를 매 토큰마다 쓰지 않기 때문에, 같은 하드웨어에서도 더 빠르게 토큰을 생성할 수 있음
GPT-OSS-20B는 3.6B 활성 파라미터를 가지므로 3~4B 밀집 모델과 비슷한 속도를 내지만, VRAM은 전체 20B 모델 크기를 요구함
지능 면에서는 약 8.5B 밀집 모델 수준으로 평가됨
MoE 모델의 경우 활성 파라미터만을 기준으로 메모리 대역폭을 계산해야 함
하지만 실제 사용에서는 더 작은 컨텍스트로 충분한 경우가 많음
llama.cpp의 llama-fit-params가 이런 상황에서 유용함
Mixtral 8x7B 같은 MoE 모델은 46.7B 중 약 12.9B만 활성화됨
즉, 큰 모델의 품질과 작은 모델의 속도를 동시에 얻을 수 있지만, 전체 모델은 여전히 메모리에 상주해야 함
canirun.ai 문서
토큰 생성 속도는 비슷하지만 prefill 속도는 큰 MoE가 더 느림
또한 speculative decoding을 사용할 경우, 작은 밀집 모델은 최대 3배 속도 향상이 가능하지만 MoE 모델은 거의 이득이 없음
TFA나 llmfit 같은 시도는 좋지만, 내 하드웨어에서 어떤 모델이 가장 품질이 좋은지 찾기 어렵다는 점이 답답함
예를 들어 Qwen 3.5 27B Q6 @ 100k 컨텍스트가 잘 작동하지만, 추천 목록에는 구버전 Qwen 2.5가 우선됨
나는 tok/s 50 이상이면 충분하므로, 품질 기준으로 정렬할 수 있으면 좋겠음
예를 들어 “8GB VRAM, 32GB RAM에서 t/s ≥ 30, context ≥ 32K로 고품질 코딩용 오픈 모델”이라면 Qwen2.5-Coder-7B-Instruct
“24GB VRAM, 32GB RAM에서 웹 리서치용”이라면 Qwen3-30B-A3B-Instruct-2507
“40GB VRAM, 128GB RAM에서 RAG 임베딩용”이라면 Qwen3-Embedding-8B
즉, 하드웨어별 구체적 모델 추천이 필요함
전기료를 제외하면 거의 무료지만, 속도와 품질이 떨어짐
혹시 단순히 데이터 프라이버시 때문에 로컬을 선호하는 것인지 궁금함
여러 기기와 모델을 동시에 고려해 품질과 자원 배분을 최적화하려다 보니 복잡도가 폭발함
결국 지금은 단순히 가장 큰 quant 모델을 고르는 방식으로 타협 중임
일반 계산기처럼 정확해야 하는 건 아니고, 모델 제작자와 사용자의 목표가 다르기 때문에 원하는 결과를 예측하기 어려움
이건 단순히 llmfit의 웹 버전으로 보임
llmfit GitHub 링크
내 M2 Max MBP(96GB RAM)에서도 대부분의 로컬 LLM이 잘 돌아간다고 나옴
생각보다 로컬 실행 가능 모델이 많아서 놀랐음
Docker나 Python보다 가벼운 대안으로 Rust+Wasm 스택을 추천함
LlamaEdge 프로젝트
내 RTX 6000 Pro Max-Q(96GB VRAM)를 잘 인식했지만, UI에서는 4GB로 표시됨
또한 양자화 모델을 고려하지 않고 풀 해상도 모델만 보여줌
개선이 필요함
모바일 GPU 목록이 부족하고, CPU 메모리 공유나 KV 캐시 오프로딩 같은 전략을 이해하지 못함
내 시스템은 Arc 750(2GB 공유 RAM)로 표시되지만 실제로는 RTX1000 Ada(6GB GDDR6)임
Qwen3 Coder Next, Devstral Small, Qwen3.5 4B 등은 거의 실시간으로 잘 작동함
더 큰 모델은 느리지만 토큰 부족 문제는 없음
멋진 아이디어임
다만 M3 Ultra(256GB RAM) 사용자인데 옵션이 192GB까지만 있음
모델을 선택하고 프로세서별 성능 비교도 가능했으면 좋겠음
내 브라우저가 하드웨어 정보를 웹사이트에 자동 제공한다는 걸 처음 알았음
사이트는 내가 iPhone 19 Pro라고 인식하지만 실제로는 iPhone SE 1세대임
그걸로 하드웨어를 감지하는 듯함
프라이버시 중심 브라우저는 무작위 정보를 제공함
M4와 M5 칩 간 성능 차이가 전혀 없는 것처럼 보이는 점이 이상함
메모리 크기도 큰 모델 성능에 영향을 주지 않는 듯함
전체적으로 실제 데이터가 아닌 추정치 기반으로 보이므로, “ESTIMATE” 표시가 필요함
참고: Apple M5 Max 관련 영상