# CanIRun.ai — 내 컴퓨터에서 AI 모델을 실행할 수 있을까?

> Clean Markdown view of GeekNews topic #27483. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=27483](https://news.hada.io/topic?id=27483)
- GeekNews Markdown: [https://news.hada.io/topic/27483.md](https://news.hada.io/topic/27483.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-03-14T09:47:39+09:00
- Updated: 2026-03-14T09:47:39+09:00
- Original source: [canirun.ai](https://www.canirun.ai/)
- Points: 40
- Comments: 1

## Summary

로컬 환경에서 **AI 모델 실행 가능성**을 손쉽게 확인할 수 있는 웹 페이지입니다. 브라우저의 WebGPU API를 활용해 GPU 성능을 추정하고, 모델별로 메모리 요구량·토큰 처리 속도·실행 등급(S~F)을 시각적으로 제공합니다. Qwen, Llama, Gemma 등 주요 모델의 실제 구동 난이도를 빠르게 비교할 수 있어, 로컬 AI 배포를 검토하는 개발자에게 실질적인 도움을 줍니다. 아이폰에서도 해당 페이지가 보인다는게 재미나네요.

## Topic Body

- 로컬 머신이 어떤 **AI 모델을 실제로 실행할 수 있는지**를 확인할 수 있는 웹 기반 도구  
- 브라우저의 **WebGPU API**를 활용해 하드웨어 성능을 추정하며, 결과는 실제 사양과 다를 수 있음  
- 모델별로 **메모리 요구량, 토큰 처리 속도, 컨텍스트 길이, 실행 등급(S~F)** 등을 표시  
- **Qwen, Llama, Gemma, Mistral, DeepSeek, GPT-OSS** 등 주요 오픈소스 및 상용 모델이 포함되어 있음  
- 로컬 AI 실행 가능성을 빠르게 판단할 수 있어, **개발자와 연구자에게 유용한 참고 지표**로 활용 가능  
  
---  
  
### 서비스 개요  
- **CanIRun.ai**는 로컬 환경에서 실행 가능한 AI 모델을 탐색할 수 있는 웹사이트  
  - 사용자는 자신의 브라우저에서 사이트를 열면, 시스템 성능에 기반해 실행 가능한 모델 목록을 확인 가능  
  - 결과는 WebGPU API를 통해 추정되며, 실제 하드웨어 성능과는 차이가 있을 수 있음  
- 각 모델은 **성능 등급(S~F)** 으로 분류되어, 실행 가능성 및 효율성을 직관적으로 파악 가능  
  
### 모델 등급 체계  
- 등급은 **S, A, B, C, D, F**로 구분되며, S가 가장 원활한 실행을 의미  
  - 예: NVIDIA GeForce RTX 4070 12GB 기준  
  - Qwen 3.5 9B, Llama 3.1 8B 등은 **S(90/100)** 으로 표시되어 원활히 실행 가능  
  - Phi-4 14B 는 **A(70/100)** 으로 '잘 동작함'  
  - GPT-OSS 20B, Mistral Small 3.1 24B 등은 **D(34~39/100)** 으로 ‘거의 실행 불가’  
  - 그외 Gemma 3 27B, Qwen 3 32B 등 27B 이상 모델 대부분은 **F(0/100)** 으로 ‘너무 무거움’으로 표시  
  
### 데이터 출처 및 기술 기반  
- 모델 데이터는 **llama.cpp**, **Ollama**, **LM Studio**에서 수집  
- 각 모델 페이지에는 **메모리 사용률, 컨텍스트 길이, 토큰 속도, 아키텍처 유형(Dense/MoE)** 등이 상세히 표시  
  
### 활용 의의  
- 로컬 환경에서 AI 모델을 직접 실행하려는 **개발자, 연구자, 오픈소스 사용자**에게 실질적인 참고 자료 제공  
- GPU 성능 대비 모델 크기와 효율을 비교해, **적절한 모델 선택 및 배포 전략** 수립에 도움  
- 브라우저 기반으로 동작해 **설치 없이 즉시 테스트 가능**한 점이 특징

## Comments


### Comment 52992

- Author: neo
- Created: 2026-03-14T09:47:40+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47363754) 
- 지난 2년간 **로컬 모델** 실험에 엄청난 시간을 쏟았음  
  작은 모델, 예를 들어 qwen3.5:9b 같은 경우 로컬 툴 사용이나 정보 추출, 임베디드 애플리케이션에 아주 적합했음  
  코딩용으로는 Google Antigravity, gemini-cli, 혹은 Anthropic Claude 같은 클라우드 기반 도구가 더 효율적이었음  
  Emacs와 Claude Code를 로컬로 설정해 100시간 넘게 실험했지만, 일반 사용자에게는 추천하지 않음  
  대신 **작고 실용적인 로컬 임베디드 모델**을 잘 다루는 것이 가장 달콤한 지점이라 생각함
  - qwen3.5:9b를 강력히 추천함  
    이 모델은 작지만 **멀티모달 추론 능력**이 뛰어나며, 내부 사고 체계(CoT)가 안정적임  
    특히 VRAM과 컨텍스트 크기 간의 새로운 트레이드오프 구조가 인상적임 — 100K 토큰을 1.5GB VRAM으로 처리 가능해 RTX 3060에서도 긴 대화나 문서 처리가 가능함
  - 나는 qwen3.5를 로컬 툴용으로 써봤는데 결과가 별로였음  
    GPT-OSS-120B로는 잘 되던 디스코드 챗봇이 Qwen에서는 **툴 호출을 흉내만 내고 실행하지 않는 문제**가 있었음  
    결국 이미지는 Qwen으로, 일반 대화는 GPT로 처리하도록 분리함
  - qwen3.5 9b를 써봤는데 **환각(hallucination)** 비율이 높았음  
    로컬 코드 리포 탐색 중 30~50%의 결과가 잘못된 파일명이나 함수명을 만들어냄  
    KimiK2로 검증해보니 대부분 틀렸음. 작은 모델은 좋지만 신뢰도에는 주의가 필요함
  - 작은 모델을 실제 워크플로에 어떻게 통합하는지 궁금함  
    M4 MacBook Pro(128GB RAM)에서 ollama로 실험 중인데, 아직 만족스러운 흐름을 못 찾았음
  - 큰 모델로 **계획 수립**, 작은 로컬 모델로 **코드 작성**하는 조합이 괜찮은지 궁금함  
    Claude Code나 Codex 의존도를 줄이고 싶음

- 이 사이트는 모델의 **메모리 대역폭과 크기**를 기준으로 성능을 추정하는 듯함  
  하지만 MoE 모델(GPT-OSS-20B 등)은 모든 파라미터를 매 토큰마다 쓰지 않기 때문에, 같은 하드웨어에서도 더 빠르게 토큰을 생성할 수 있음  
  GPT-OSS-20B는 3.6B 활성 파라미터를 가지므로 3~4B 밀집 모델과 비슷한 속도를 내지만, VRAM은 전체 20B 모델 크기를 요구함  
  지능 면에서는 약 8.5B 밀집 모델 수준으로 평가됨
  - 실제로 내 Strix Halo 노트북에서 테스트한 모델들의 성능이 예측보다 훨씬 좋았음  
    MoE 모델의 경우 **활성 파라미터만**을 기준으로 메모리 대역폭을 계산해야 함
  - 이 계산이 전체 컨텍스트 크기를 기준으로 한 것 같음  
    하지만 실제 사용에서는 더 작은 컨텍스트로 충분한 경우가 많음  
    llama.cpp의 **llama-fit-params**가 이런 상황에서 유용함
  - 문서에서도 이 점을 명확히 설명함  
    Mixtral 8x7B 같은 MoE 모델은 46.7B 중 약 12.9B만 활성화됨  
    즉, 큰 모델의 품질과 작은 모델의 속도를 동시에 얻을 수 있지만, 전체 모델은 여전히 메모리에 상주해야 함  
    [canirun.ai 문서](https://www.canirun.ai/docs)
  - 다만 약간의 부정확함이 있음  
    토큰 생성 속도는 비슷하지만 **prefill 속도**는 큰 MoE가 더 느림  
    또한 **speculative decoding**을 사용할 경우, 작은 밀집 모델은 최대 3배 속도 향상이 가능하지만 MoE 모델은 거의 이득이 없음

- TFA나 **llmfit** 같은 시도는 좋지만, 내 하드웨어에서 어떤 모델이 가장 품질이 좋은지 찾기 어렵다는 점이 답답함  
  예를 들어 Qwen 3.5 27B Q6 @ 100k 컨텍스트가 잘 작동하지만, 추천 목록에는 구버전 Qwen 2.5가 우선됨  
  나는 tok/s 50 이상이면 충분하므로, 품질 기준으로 정렬할 수 있으면 좋겠음
  - 질문이 너무 포괄적임  
    예를 들어 “8GB VRAM, 32GB RAM에서 t/s ≥ 30, context ≥ 32K로 고품질 코딩용 오픈 모델”이라면 Qwen2.5-Coder-7B-Instruct  
    “24GB VRAM, 32GB RAM에서 웹 리서치용”이라면 Qwen3-30B-A3B-Instruct-2507  
    “40GB VRAM, 128GB RAM에서 RAG 임베딩용”이라면 Qwen3-Embedding-8B  
    즉, **하드웨어별 구체적 모델 추천**이 필요함
  - 로컬 실행의 비용 대비 효율($/Mtok)이 궁금함  
    전기료를 제외하면 거의 무료지만, 속도와 품질이 떨어짐  
    혹시 단순히 **데이터 프라이버시** 때문에 로컬을 선호하는 것인지 궁금함
  - 이 문제는 정말 어렵고, 나도 1년 넘게 연구 중임  
    여러 기기와 모델을 동시에 고려해 **품질과 자원 배분**을 최적화하려다 보니 복잡도가 폭발함  
    결국 지금은 단순히 가장 큰 quant 모델을 고르는 방식으로 타협 중임
  - LLM은 결국 **특수 계산기**일 뿐임  
    일반 계산기처럼 정확해야 하는 건 아니고, 모델 제작자와 사용자의 목표가 다르기 때문에 원하는 결과를 예측하기 어려움

- 이건 단순히 **llmfit의 웹 버전**으로 보임  
  [llmfit GitHub 링크](https://github.com/AlexsJones/llmfit)
  - 맞음. 하지만 llmfit은 시스템 리소스를 자동 감지하므로 훨씬 유용함
  - 링크 공유 고마움. 실제로 웹사이트보다 훨씬 쓸모 있음  
    내 M2 Max MBP(96GB RAM)에서도 대부분의 로컬 LLM이 잘 돌아간다고 나옴  
    생각보다 **로컬 실행 가능 모델**이 많아서 놀랐음

- Docker나 Python보다 가벼운 대안으로 **Rust+Wasm 스택**을 추천함  
  [LlamaEdge 프로젝트](https://github.com/LlamaEdge/LlamaEdge)
- 내 RTX 6000 Pro Max-Q(96GB VRAM)를 잘 인식했지만, UI에서는 4GB로 표시됨  
  또한 **양자화 모델**을 고려하지 않고 풀 해상도 모델만 보여줌  
  개선이 필요함
- 모바일 GPU 목록이 부족하고, CPU 메모리 공유나 **KV 캐시 오프로딩** 같은 전략을 이해하지 못함  
  내 시스템은 Arc 750(2GB 공유 RAM)로 표시되지만 실제로는 RTX1000 Ada(6GB GDDR6)임  
  Qwen3 Coder Next, Devstral Small, Qwen3.5 4B 등은 거의 실시간으로 잘 작동함  
  더 큰 모델은 느리지만 **토큰 부족 문제는 없음**
- 멋진 아이디어임  
  다만 M3 Ultra(256GB RAM) 사용자인데 옵션이 192GB까지만 있음  
  모델을 선택하고 **프로세서별 성능 비교**도 가능했으면 좋겠음
  - 아쉽게도 Apple이 512GiB 모델을 단종시킴
- 내 브라우저가 **하드웨어 정보를 웹사이트에 자동 제공**한다는 걸 처음 알았음
  - 실제로는 완전히 정확하지 않음  
    사이트는 내가 iPhone 19 Pro라고 인식하지만 실제로는 iPhone SE 1세대임
  - 최신 Librewolf에서는 WebGL 접근 권한을 요청함  
    그걸로 하드웨어를 감지하는 듯함
  - 이런 정보는 **브라우저 지문 추적(fingerprinting)** 에 자주 사용됨  
    프라이버시 중심 브라우저는 무작위 정보를 제공함
  - 항공사들이 OS별로 가격을 다르게 책정하는 것도 이런 방식일 거라 생각함
- M4와 M5 칩 간 **성능 차이가 전혀 없는 것처럼 보이는** 점이 이상함  
  메모리 크기도 큰 모델 성능에 영향을 주지 않는 듯함  
  전체적으로 실제 데이터가 아닌 **추정치 기반**으로 보이므로, “ESTIMATE” 표시가 필요함
  - 실제 초기 테스트에서는 M5 Max가 성능 향상을 보였음  
    참고: [Apple M5 Max 관련 영상](https://www.youtube.com/watch?v=XGe7ldwFLSE)