whichllm - 내 하드웨어에서 실제로 돌아가고 최고 성능을 내는 로컬 LLM 찾기
(github.com/Andyyyy64)- 파라미터 수가 아닌 실측 벤치마크 기반으로 사용자 하드웨어에 맞는 로컬 LLM을 자동 추천하는 CLI 도구
- GPU/CPU/RAM을 자동 감지하고 HuggingFace 모델 중 시스템에 맞는 상위 모델을 랭킹으로 제시
- NVIDIA, AMD, Apple Silicon, CPU-only 모두 지원
- VRAM에 맞는 가장 큰 모델이 아니라, 그 중 실제로 가장 좋은 모델을 골라주는 것이 핵심 목표
- 예: RTX 4090 시뮬레이션 시 32B 모델이 들어가도, 신세대인 27B 모델(Qwen3.6-27B)을 1위로 추천
- 다중 벤치마크 병합 채점: LiveBench, Artificial Analysis, Aider, multimodal/vision, Chatbot Arena ELO, Open LLM Leaderboard를 통합해 0–100 점수 산출
- 최신 모델 인식(Recency-aware): 오래된 리더보드는 모델 계보를 따라 감점, 2024년 모델이 구버전 점수로 현세대 모델을 추월하지 못하도록 차단
- 근거 등급화 5단계 -
direct/variant/base_model/line_interp/self_reported로 태그 후 신뢰도 디스카운트- 업로더의 허위 자체 보고와 작은 포크가 큰 베이스 점수를 빌려오는 크로스 패밀리 상속도 차단
- 파라미터가 패밀리 dominant member에서 2배 이상 차이나면 상속 거부
- 아키텍처 인식 VRAM/속도 추정 - VRAM은 가중치 + GQA KV 캐시 + 활성화 + 오버헤드, 속도는 대역폭 바운드에 MoE active vs total 분리와 통합 메모리 vs PCIe 부분 오프로드 반영
whichllm run한 줄로 모델 다운로드와 채팅까지 즉시 실행 가능한 원커맨드 워크플로우 지원uv로 격리 환경 생성, 의존성 설치, 모델 다운로드, 대화형 채팅까지 자동 처리- GGUF / AWQ / GPTQ / FP16 / BF16 모든 포맷 지원
- 하드웨어 플래닝 명령
whichllm --gpu "RTX 5090"- 임의 GPU 시뮬레이션으로 구매 전 확인whichllm plan "llama 3 70b"- 특정 모델에 필요한 GPU 역방향 조회whichllm upgrade "RTX 4090" "RTX 5090" "H100"- 현재 머신과 후보 GPU 비교
- Ollama 연동:
whichllm --top 1 --json | jq -r '.models[0].model_id'형태로 파이프라인 구성 가능 - 코드 스니펫 출력:
whichllm snippet "qwen 7b"로llama_cpp.Llama.from_pretrained호출부터 채팅 완성까지 복붙 가능한 Python 코드 제공 - MIT 라이선스
GeekNews Weekly에 포함된 글입니다.
에디터 코멘트 보기
댓글과 토론
저는 이렇게 5개를 추천하네요. 3개가 Qwen 이군요.
Qwen/Qwen3-Next-80B-A3B-Instruct
Qwen/Qwen3.6-27B
deepseek-ai/DeepSeek-V4-Flash
openai/gpt-oss-120b
Qwen/Qwen3-235B-A22B
╭────────────────────────────────────────────────────── Hardware Info ───────────────────────────────────────────────────────╮
│ GPU 0: Strix Halo [Radeon Graphics / Radeon 8050S Graphics / Radeon 8060S Graphics] — shared memory — BW: 256 GB/s │
│ CPU: AMD RYZEN AI MAX+ 395 w/ Radeon 8060S — 16 cores (AVX2, AVX-512) │
│ RAM: 117.5 GB │
│ Disk free: 174.1 GB │
│ OS: linux │
╰────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯
Recommended Models
┏━━━━━┳━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━┳━━━━━━━━┳━━━━━━━━━━━━┳━━━━━━━━━━━┳━━━━━━━┳━━━━━━━━━━┓
┃ # ┃ Model ┃ Params ┃ Quant ┃ Published ┃ Downloads ┃ Score ┃ License ┃
┡━━━━━╇━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━╇━━━━━━━━╇━━━━━━━━━━━━╇━━━━━━━━━━━╇━━━━━━━╇━━━━━━━━━━┩
│ 1 │ Qwen/Qwen3-Next-80B-A3B-Instruct │ 81.3B │ Q6_K │ 2025-09-09 │ 336.2K │ 94.9 │ apache-… │
│ │ │ (3.0B… │ │ │ │ │ │
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤
│ 2 │ openai/gpt-oss-120b │ 120.4B │ Q6_K │ 2025-08-04 │ 4.7M │ 91.9 │ apache-… │
│ │ │ (5.1B… │ │ │ │ │ │
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤
│ 3 │ Qwen/Qwen3.6-27B │ 27.8B │ Q3_K_M │ 2026-04-21 │ 3.6M │ 85.1 │ apache-… │
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤
│ 4 │ Qwen/Qwen3-30B-A3B │ 30.0B │ Q6_K │ 2025-04-27 │ 1.7M │ 83.5 │ apache-… │
│ │ │ (3.0B… │ │ │ │ │ │
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤
│ 5 │ google/gemma-4-26B-A4B-it │ 26.5B │ Q6_K │ 2026-03-11 │ 8.7M │ 81.2 │ apache-… │
│ │ │ (3.8B… │ │ │ │ │ │
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤
│ 6 │ openai/gpt-oss-20b │ 21.5B │ Q6_K │ 2025-08-04 │ 7.6M │ 77.9 │ apache-… │
│ │ │ (3.6B… │ │ │ │ │ │
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤
│ 7 │ zai-org/GLM-4.7-Flash │ 31.2B │ Q6_K │ 2026-01-19 │ 742.3K │ 77.2 │ mit │
│ │ │ (12.0… │ │ │ │ │ │
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤
│ 8 │ zai-org/GLM-4.5-Air │ 110.5B │ Q6_K │ 2025-07-20 │ 384.2K │ 75.6 │ mit │
│ │ │ (12.0… │ │ │ │ │ │
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤
│ 9 │ meta-llama/Llama-4-Scout-17B-16E-Instruct │ 109.0B │ Q5_K_M │ 2025-04-02 │ 391.1K │ 74.7 │ other │
│ │ │ (17.0… │ │ │ │ │ │
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤
│ 10 │ Qwen/Qwen3-32B │ 32.0B │ Q5_K_M │ 2025-04-27 │ 7.0M │ 73.9 │ apache-… │
└─────┴───────────────────────────────────────────┴────────┴────────┴────────────┴───────────┴───────┴──────────┘
Top pick confidence: High (direct benchmark, gap +2.9)
Benchmark reference: 2026-05 curated snapshot; live AA / LiveBench / Aider merged when reachable.