whichllm - 내 하드웨어에서 실제로 돌아가고 최고 성능을 내는 로컬 LLM 찾기

xguru · 2026-05-18T10:06:01+09:00

파라미터 수가 아닌 실측 벤치마크 기반으로 사용자 하드웨어에 맞는 로컬 LLM을 자동 추천하는 CLI 도구 GPU/CPU/RAM을 자동 감지하고 HuggingFace 모델 중 시스템에 맞는 상위 모델을 랭킹으로 제시 NVIDIA, AMD, Apple Silicon, CPU-only 모두 지원 VRAM에 맞는 가장 큰 모델이 아니라, 그 중 실제로 가장 좋은 모델을 골라주는 것이 핵심 목표 예: RTX 4090 시뮬레이션 시 32B 모델이 들어가도, 신세대인 27B 모델(Qwen3.6-27B)을 1위로 추천 다중 벤치마크 병합 채점: LiveBench, Artificial Analysis, Aider, multimodal/vision, Chatbot Arena ELO, Open LLM Leaderboard를 통합해 0–100 점수 산출 최신 모델 인식(Recency-aware): 오래된 리더보드는 모델 계보를 따라 감점, 2024년 모델이 구버전 점수로 현세대 모델을 추월하지 못하도록 차단 근거 등급화 5단계 - direct / variant / base_model / line_interp / self_reported로 태그 후 신뢰도 디스카운트 업로더의 허위 자체 보고와 작은 포크가 큰 베이스 점수를 빌려오는 크로스 패밀리 상속도 차단 파라미터가 패밀리 dominant member에서 2배 이상 차이나면 상속 거부 아키텍처 인식 VRAM/속도 추정 - VRAM은 가중치 + GQA KV 캐시 + 활성화 + 오버헤드, 속도는 대역폭 바운드에 MoE active vs total 분리와 통합 메모리 vs PCIe 부분 오프로드 반영 whichllm run 한 줄로 모델 다운로드와 채팅까지 즉시 실행 가능한 원커맨드 워크플로우 지원 uv로 격리 환경 생성, 의존성 설치, 모델 다운로드, 대화형 채팅까지 자동 처리 GGUF / AWQ / GPTQ / FP16 / BF16 모든 포맷 지원 하드웨어 플래닝 명령 whichllm --gpu "RTX 5090" - 임의 GPU 시뮬레이션으로 구매 전 확인 whichllm plan "llama 3 70b" - 특정 모델에 필요한 GPU 역방향 조회 whichllm upgrade "RTX 4090" "RTX 5090" "H100" - 현재 머신과 후보 GPU 비교 Ollama 연동: whichllm --top 1 --json | jq -r '.models[0].model_id' 형태로 파이프라인 구성 가능 코드 스니펫 출력: whichllm snippet "qwen 7b"로 llama_cpp.Llama.from_pretrained 호출부터 채팅 완성까지 복붙 가능한 Python 코드 제공 MIT 라이선스

(github.com/Andyyyy64)

71P by xguru 1달전 | ★ favorite | 댓글 3개

파라미터 수가 아닌 실측 벤치마크 기반으로 사용자 하드웨어에 맞는 로컬 LLM을 자동 추천하는 CLI 도구
GPU/CPU/RAM을 자동 감지하고 HuggingFace 모델 중 시스템에 맞는 상위 모델을 랭킹으로 제시
- NVIDIA, AMD, Apple Silicon, CPU-only 모두 지원
VRAM에 맞는 가장 큰 모델이 아니라, 그 중 실제로 가장 좋은 모델을 골라주는 것이 핵심 목표
- 예: RTX 4090 시뮬레이션 시 32B 모델이 들어가도, 신세대인 27B 모델(Qwen3.6-27B)을 1위로 추천
다중 벤치마크 병합 채점: LiveBench, Artificial Analysis, Aider, multimodal/vision, Chatbot Arena ELO, Open LLM Leaderboard를 통합해 0–100 점수 산출
최신 모델 인식(Recency-aware): 오래된 리더보드는 모델 계보를 따라 감점, 2024년 모델이 구버전 점수로 현세대 모델을 추월하지 못하도록 차단
근거 등급화 5단계 - direct / variant / base_model / line_interp / self_reported로 태그 후 신뢰도 디스카운트
- 업로더의 허위 자체 보고와 작은 포크가 큰 베이스 점수를 빌려오는 크로스 패밀리 상속도 차단
- 파라미터가 패밀리 dominant member에서 2배 이상 차이나면 상속 거부
아키텍처 인식 VRAM/속도 추정 - VRAM은 가중치 + GQA KV 캐시 + 활성화 + 오버헤드, 속도는 대역폭 바운드에 MoE active vs total 분리와 통합 메모리 vs PCIe 부분 오프로드 반영
whichllm run 한 줄로 모델 다운로드와 채팅까지 즉시 실행 가능한 원커맨드 워크플로우 지원
- uv로 격리 환경 생성, 의존성 설치, 모델 다운로드, 대화형 채팅까지 자동 처리
- GGUF / AWQ / GPTQ / FP16 / BF16 모든 포맷 지원
하드웨어 플래닝 명령
- whichllm --gpu "RTX 5090" - 임의 GPU 시뮬레이션으로 구매 전 확인
- whichllm plan "llama 3 70b" - 특정 모델에 필요한 GPU 역방향 조회
- whichllm upgrade "RTX 4090" "RTX 5090" "H100" - 현재 머신과 후보 GPU 비교
Ollama 연동: whichllm --top 1 --json | jq -r '.models[0].model_id' 형태로 파이프라인 구성 가능
코드 스니펫 출력: whichllm snippet "qwen 7b"로 llama_cpp.Llama.from_pretrained 호출부터 채팅 완성까지 복붙 가능한 Python 코드 제공
MIT 라이선스

GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기

xguru 1달전 [-]

저는 이렇게 5개를 추천하네요. 3개가 Qwen 이군요.

Qwen/Qwen3-Next-80B-A3B-Instruct
Qwen/Qwen3.6-27B
deepseek-ai/DeepSeek-V4-Flash
openai/gpt-oss-120b
Qwen/Qwen3-235B-A22B

답변달기

nezz1204 1달전 [-]

저는 https://www.canirun.ai/ 사이트를 이용하고 있었는데 한번 사용해봐야겠네요.

답변달기

popopo 1달전 [-]

╭────────────────────────────────────────────────────── Hardware Info ───────────────────────────────────────────────────────╮  
│ GPU 0: Strix Halo [Radeon Graphics / Radeon 8050S Graphics / Radeon 8060S Graphics] — shared memory — BW: 256 GB/s         │  
│ CPU: AMD RYZEN AI MAX+ 395 w/ Radeon 8060S — 16 cores (AVX2, AVX-512)                                                      │  
│ RAM: 117.5 GB                                                                                                              │  
│ Disk free: 174.1 GB                                                                                                        │  
│ OS: linux                                                                                                                  │  
╰────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯  
  
                                               Recommended Models  
┏━━━━━┳━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━┳━━━━━━━━┳━━━━━━━━━━━━┳━━━━━━━━━━━┳━━━━━━━┳━━━━━━━━━━┓  
┃   # ┃ Model                                     ┃ Params ┃ Quant  ┃ Published  ┃ Downloads ┃ Score ┃ License  ┃  
┡━━━━━╇━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━╇━━━━━━━━╇━━━━━━━━━━━━╇━━━━━━━━━━━╇━━━━━━━╇━━━━━━━━━━┩  
│   1 │ Qwen/Qwen3-Next-80B-A3B-Instruct          │  81.3B │  Q6_K  │ 2025-09-09 │    336.2K │  94.9 │ apache-… │  
│     │                                           │ (3.0B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   2 │ openai/gpt-oss-120b                       │ 120.4B │  Q6_K  │ 2025-08-04 │      4.7M │  91.9 │ apache-… │  
│     │                                           │ (5.1B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   3 │ Qwen/Qwen3.6-27B                          │  27.8B │ Q3_K_M │ 2026-04-21 │      3.6M │  85.1 │ apache-… │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   4 │ Qwen/Qwen3-30B-A3B                        │  30.0B │  Q6_K  │ 2025-04-27 │      1.7M │  83.5 │ apache-… │  
│     │                                           │ (3.0B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   5 │ google/gemma-4-26B-A4B-it                 │  26.5B │  Q6_K  │ 2026-03-11 │      8.7M │  81.2 │ apache-… │  
│     │                                           │ (3.8B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   6 │ openai/gpt-oss-20b                        │  21.5B │  Q6_K  │ 2025-08-04 │      7.6M │  77.9 │ apache-… │  
│     │                                           │ (3.6B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   7 │ zai-org/GLM-4.7-Flash                     │  31.2B │  Q6_K  │ 2026-01-19 │    742.3K │  77.2 │ mit      │  
│     │                                           │ (12.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   8 │ zai-org/GLM-4.5-Air                       │ 110.5B │  Q6_K  │ 2025-07-20 │    384.2K │  75.6 │ mit      │  
│     │                                           │ (12.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   9 │ meta-llama/Llama-4-Scout-17B-16E-Instruct │ 109.0B │ Q5_K_M │ 2025-04-02 │    391.1K │  74.7 │ other    │  
│     │                                           │ (17.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│  10 │ Qwen/Qwen3-32B                            │  32.0B │ Q5_K_M │ 2025-04-27 │      7.0M │  73.9 │ apache-… │  
└─────┴───────────────────────────────────────────┴────────┴────────┴────────────┴───────────┴───────┴──────────┘  
  Top pick confidence: High (direct benchmark, gap +2.9)  
  Benchmark reference: 2026-05 curated snapshot; live AA / LiveBench / Aider merged when reachable.

답변달기

whichllm - 내 하드웨어에서 실제로 돌아가고 최고 성능을 내는 로컬 LLM 찾기

함께 보면 좋은 글 β

댓글과 토론