Qwen 3.6 27B는 로컬 개발의 최적 지점

(quesma.com)

9P by GN⁺ 20시간전 | ★ favorite | 댓글 3개

Qwen 3.6 27B는 로컬 모델에 회의적이던 사용자에게도 범용 작업에서 의미 있는 선택지로 보이며, 35B A3B보다 느리지만 더 강력한 dense 모델로 추천됨
창작·코딩 테스트에서는 제약 조건 준수가 강점으로 드러났고, OpenCode에서 pnpm 기반 육각형 지뢰찾기를 단일 프롬프트로 Node 패키지 형태로 생성함
llama.cpp와 Hugging Face의 8-bit GGUF 양자화를 조합하면 로컬 실행이 가능하며, MTP, GPU 레이어 적재, flash attention, 64k 컨텍스트 설정으로 에이전트 코딩 환경까지 구성할 수 있음
Macbook Max M5 128GB 테스트에서 Qwen3.6-27B 8-bit는 llama.cpp + MTP로 32 tok/s, 약 42GB RAM을 사용했고, 더 빠른 35B A3B보다 코드 품질이 나아 27B가 선호됨
Artificial Analysis 기준 Qwen3.6-27B는 37점으로 GPT-5 / Claude Sonnet 4.5와 같은 mid 2025 수준에 놓이며, 민감 데이터·오프라인 작업·회수 불가능한 자체 모델 운영에 실용적임

Qwen 3.6 27B를 추천하는 이유

Qwen 3.6은 두 가지 변형으로 제공됨
- Qwen 3.6 35B A3B: mixture-of-experts 모델
- Qwen 3.6 27B: dense 모델이며 더 느리지만 더 강력한 선택지
Qwen 3.6 27B는 “체급 이상으로 성능을 낸다”는 반응을 많이 얻었고, 관련 예시로 Will it Mythos?가 있음
로컬 실행 중 컴퓨터가 뜨거워질 수 있지만, 감수할 만한 성능을 제공함

간단한 테스트와 실제 작업 결과

간단한 스모크 테스트로 Simon Willison의 “penguins on a bicycle” 대신 제약 글쓰기를 사용함
Zouk 춤과 양자물리학을 주제로 8행 시를 요청했을 때, 양자 용어와 운율을 다루는 사고 과정이 자연스럽게 이어짐
- 관련 대화는 transcript에 있음
OpenCode에서 pnpm을 사용해 육각형 지뢰찾기를 만들도록 요청하자, 단일 프롬프트만으로 제대로 된 Node 패키지를 생성함
Qwen 3.6 35B A3B는 더 빨랐지만, 패키지를 만들라는 지시를 따르지 않고 단일 index.html로 구현함
일반 업무성 작업에서도 짧은 프롬프트로 작동하는 결과물을 만들었고, 반응성과 기본값도 괜찮은 편임
- frontier 모델 기준으로는 특별하지 않지만, 로컬 모델로는 이미 실용적인 수준임

llama.cpp로 로컬 실행하기

로컬 모델 실행은 몇 줄의 CLI로 가능하며, 추천 도구는 llama.cpp임
Hugging Face에서 용량을 줄인 양자화 모델을 받아 실행함
- 인기 양자화 모델 제공처로 unsloth와 bartowski가 있음
- 기본 모델은 보통 BF16 정밀도임
- 8-bit 양자화는 품질 손실을 거의 만들지 않으면서 공간을 절반으로 줄임
- 더 낮은 비트 양자화는 모델을 더 작고 잠재적으로 빠르게 만들지만 품질 비용이 따름
- 27B 비교는 Reddit benchmark, 35B A3B 비교는 Hugging Face discussion에 있음
서버 실행 예시
```
llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \
    --spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080
```
- -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0: Hugging Face에서 모델을 가져오며, 이후 실행에서는 재사용함
- -m ~/models/Qwen3.6-27B-Q8_0.gguf: 이미 모델 파일이 있으면 대신 사용할 수 있음
- draft-mtp: 빠른 모델로 다음 토큰을 예측하는 multi-token prediction을 사용해 속도를 높임
- -ngl 999: 모든 레이어를 GPU에 올림
- -fa on: flash attention을 켬
- -c 65536: 컨텍스트 크기를 64k 토큰으로 설정함
- Qwen 3.6 27B의 네이티브 컨텍스트는 256k임
- --port 8080: 다른 설정에서 사용할 포트를 고정함
- http://127.0.0.1:8080을 열면 직접 채팅할 수 있음

OpenCode 설정

같은 서버를 vibe coding에도 사용할 수 있음
OpenCode에서는 ~/.config/opencode/opencode.jsonc에 다음 설정을 추가함

{
  "$schema": "https://opencode.ai/config.json";,
  "provider": {
    "llama": {
      "name": "llama.cpp (local)",
      "npm": "@ai-sdk/openai-compatible",
      "options": {
        "baseURL": "http://127.0.0.1:8080/v1";,
        "apiKey": "local"
      },
      "models": {
        "qwen3.6-27b": { "name": "Qwen3.6-27B Q8 +MTP" }
      }
    }
  },
  "model": "llama/qwen3.6-27b"
}

터미널 채팅용 실행
- 터미널에서 채팅만 하려면 llama-server 대신 llama-cli를 사용할 수 있음
```
llama-cli -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \
                -ngl 999 -fa on -c 65536
```

Apple Silicon 성능 측정

테스트 결과는 benching-local-llms-on-apple-silicon에 정리되어 있으며, Macbook Max M5 128GB에서 실행됨
Qwen3.6-35B-A3B · 8-bit
- MLX: 85 tok/s, 37GB RAM
- llama.cpp: 93 tok/s, 44GB RAM
- llama.cpp + MTP: 105 tok/s, 45GB RAM
Qwen3.6-27B · 8-bit
- MLX: 17 tok/s, 28GB RAM
- llama.cpp: 18 tok/s, 41GB RAM
- llama.cpp + MTP: 32 tok/s, 42GB RAM
DeepSeek-V4-Flash · Q2–Q4
- llama.cpp: 33 tok/s, 103GB RAM
30 tok/s는 나쁘지 않은 속도이며, 일반적인 frontier 모델 API 범위 안에 들어감
mlx-lm은 Apple Silicon을 겨냥했지만, 이 테스트에서는 llama.cpp가 더 빨랐음
실행 중 GPU 사용률은 95%로, 사용 가능한 리소스를 효율적으로 활용한 것으로 보임
Qwen 3.6의 두 변형은 모두 Apple Silicon 공유 RAM 48GB 안에서 실행됨
소비자용 Nvidia RTX 카드에서는 더 공격적인 양자화가 필요하지만 추론은 더 빠르게 실행됨
- Hacker News의 gfosco는 5090에서 Q6_K 양자화와 Q4_0 KV로 123k 컨텍스트에서 일관되게 50 tok/s를 얻었고, LM Studio로 약 28/32GB VRAM을 사용했다고 밝힘
35B A3B는 3배 빠르지만, 생성되는 코드 양이 3분의 1이어도 품질이 더 높은 27B를 선택할 만함

기존 최첨단 모델과의 비교

Artificial Analysis 점수 비교에서 Qwen3.6-27B는 37점임
비교 표의 주요 항목은 다음과 같음
- Gemma 4 31B: 29점, late 2024 수준, o1 / Claude 3.5 Sonnet
- Qwen3.6-35B-A3B: 32점, early 2025 수준, o3 / Claude 4 Sonnet
- Qwen3.6-27B: 37점, mid 2025 수준, GPT-5 / Claude Sonnet 4.5
- DeepSeek-V4-Flash: 40점, late 2025 수준, GPT-5.2 / Claude Opus 4.5
추가 벤치마크는 notes에 있으며, 전반적인 흐름은 비슷함
Gemma 4 31B는 로컬 코딩의 기본값처럼 쓰는 사람이 많아 비교에 포함됨
벤치마크와 온라인 반응 모두 Qwen 3.6 27B를 Gemma 4 31B보다 크게 선호함
단, 양자화 조건에는 주의가 필요함
- 8-bit 양자화는 결과에 큰 영향을 주지 않을 가능성이 큼
- DwarfStar4는 DeepSeek V4 Flash에 2–4bit의 훨씬 공격적인 양자화를 사용하므로, 전체 모델보다 확실히 나쁨
- 이 조건에서는 Qwen 3.6 27B가 DwarfStar4와 같거나 약간 더 나은 인상을 줌
- 더 긴 컨텍스트 프로젝트에서는 DS4가 우위를 가질 수도 있음

로컬 모델 운영의 다음 단계

직접 모델을 실행하는 일이 점점 현실적인 선택지가 되고 있음
독점 frontier 모델의 상태가 이 흐름을 더 밀어붙일 수 있음
- Claude Fable 5는 내려감
- 다른 frontier 모델은 대규모 보조금 위에서 운영되며, 월 100달러 지불로 수천 달러어치 토큰을 쓰는 구조임
로컬 설정 모델은 필요에 맞게 파인튜닝할 수 있고, 외부에서 회수할 수 없음
기업은 독점 데이터와 민감 데이터를 위해 로컬 모델을 사용할 수 있음
개인은 오프라인 프로젝트나, 미국·중국에 깊은 비밀 또는 의료 데이터를 공유하고 싶지 않은 상황에서 로컬 모델을 활용할 수 있음
frontier-level open-weight GLM 5.2 공개는 로컬 모델 흐름을 더 앞당김
- Qwen 3.6은 징검다리였고, GLM 5.2도 로컬 실행이 가능함
- GLM 5.2는 Macbook이나 단일 RTX 5090에서는 실행되지 않지만, 회사 예산으로는 감당 가능한 수준임
현재 최첨단보다 똑똑하면서 로컬 기기, 어쩌면 스마트폰에서도 실행 가능한 모델이 나올 수 있음
현재 모델은 원시 지능과 사실 지식을 같은 가중치에 결합하지만, 미래 모델은 지식을 도구 호출로 넘기며 둘을 분리할 가능성이 큼

savvykang 11시간전 [-]

Gemma-4-26B-A4B 도 쓸만합니다. RX6600에서 GPU 오프로드를 최대로 사용했을때 16~20 tok/s 로 구동 가능합니다

답변달기

3ae3ae 12시간전 [-]

소형 모델 중에서는 Qwen을 따라올 모델이 없는데, 알리바바가 이제 오픈웨이트 기반의 연구 중심에서 폐쇄형 및 상업화 전략으로 선회한다는 말이 있네요. 개인적으로 많이 아쉽습니다...

답변달기

GN⁺ 20시간전 [-]

Hacker News 의견들

MacBook Pro M5 128GB RAM과 qwen3.6은 마음에 들지만, 로컬 LLM으로 진지하게 코딩할 생각이면 이 MacBook은 사지 않는 게 좋음
이유는 단순함: 손가락이 뜨거워지고 팬 소음 때문에 머리가 터질 듯함
실제로 쓰는 노트북에서 복잡한 작업을 돌리는 건 현실적이지 않고, 클램셸 모드로는 가능해도 AI 코딩이나 에이전트 작업 중에는 만지기 어렵다
Qwen3.6 27B/35B를 제대로 돌리고 싶다면 MacMini M4 64GB를 사서 지하실이나 최소 몇 미터 떨어진 곳에 두고 LAN이나 Tailscale로 접속하는 편이 낫고, 가격도 MacBook Pro의 거의 1/3 수준임
- 같은 이유로 일반 32GB 노트북을 샀음
  데스크톱 GPU에서 Qwen 27B나 Gemma 4 31B 같은 비교적 작은 모델만 돌려도 얼마나 시끄럽고 뜨거운지 알고 있음
  Strix Halo는 큰 팬 하나라 시끄럽진 않지만 뜨거워지고, 노트북의 작은 팬들이 그 열을 빼내려면 결국 비명을 지를 수밖에 없음
  어디서나 모델을 돌리는 노트북이라는 발상은 좋지만, 그건 클라우드 모델이 맡는 게 맞고, 데이터가 많이 오가지 않으니 큰 문제도 아님
  프라이버시가 필요한 작업은 집의 큰 장비에 자체 호스팅 모델을 올리고 VPN으로 접속하면 됨
  다만 Gemma 4 12B QAT 4-bit처럼 16GB 기기나 태블릿에서도 잘 도는 모델은 특정 작업에 매우 좋았고, 분류·식별·라벨링 같은 용도의 자체 호스팅 비전 모델로는 테스트한 것 중 최고였음
  산문도 괜찮고 도구 사용도 제법 하지만, 7GB 안에 세상 지식이 많이 들어가진 않으니 조사에는 검색이 필요하고, 아주 단순한 코드를 넘어서는 코딩에는 쓰고 싶지 않음
- DwarfStar 4에서 --power 플래그를 써보면 됨: https://github.com/antirez/ds4#reducing-heat-power-usage-and...
- “손가락이 타고 소음 때문에 머리가 터진다”면 그냥 Mac mini를 다른 방에 두면 되는 거 아닌가 싶음
  지난 반년 정도 노트북에서 코딩 에이전트를 YOLO 모드로 돌렸고, 대부분 로컬은 아니었지만 공포 없이 쓰는 방법은 에이전트 전용 Linux 사용자 agent를 따로 주는 것이었음
  에이전트는 /agent 홈 디렉터리를 날려도 되지만 내 홈 디렉터리는 건드리거나 읽지도 못함
  매번 sudo로 그 사용자에 들어가야 해서 별칭을 만들었고, 권한·소유권 문제가 생기면 하루에 한 번 고치는 함수로 처리함
  그래도 번거로움이 있어서 전용 머신이 있었으면 그냥 root를 줬을 것 같고, 장난 삼아 Claude에게 $3 VPS의 root를 줬는데 잘 돌아가고 있음
  몇 달 시행착오 끝에 결국 “그냥 Mac mini를 사라”를 처음부터 다시 발명한 셈임
- M4 Max에서 로컬 LLM 작업을 pi로 시험했을 때, 지금까지 쓴 어떤 MacBook보다 뜨겁게 느껴졌음
  몇 인치 떨어져 있어도 복사열이 느껴졌고, 써본 Intel MacBook보다도 더 뜨거운 느낌이라 중단했음
  공급 문제와 가격 인상 때문에 노트북을 10년은 들고 있어야 할 수도 있어서 망가뜨리고 싶지 않았음
- 정확히 그렇게 쓰고 있음: Mini M4 Pro 64GB와 qwen3.6 조합임
  청력이 아주 좋진 않지만 팬 소리는 들었을 것 같은데 한 번도 못 들었고, 실제로 팬이 있는지 검색해봐야 했음
글은 128GB MacBook Pro에서 Qwen 3.6을 돌린 내용을 바탕으로 함
참고로 128GB MBP는 현재 $6699부터 시작함 [0]
프라이버시를 위해 그 프리미엄을 기꺼이 낼 사람도 있겠지만, MacBook Neo의 약 10배 비용이면 OpenRouter나 최첨단 연구소 API 크레딧을 꽤 많이 살 수 있음
[0]: https://www.apple.com/shop/buy-mac/macbook-pro/14-inch-space...
- 계산은 부정하기 어렵지만, 나였다면 그렇게 선을 긋진 않겠음
  Gemma 4 12B 같은 적당한 로컬 LLM을 돌릴 수 있는 머신을 갖는 건 정말 가치가 있음
  MacBook 하나로 진지한 무인 에이전트 코딩을 얼마나 하게 될지는 모르지만, 로컬 모델, llama.cpp, LM Studio 등을 직접 만져보지 않았다면 이 분야를 이렇게 이해하지 못했을 것임
  이 분야는 너무 크고, 지치고, 전문용어투성이이며, 50대가 넘은 입장에선 압도당하기 쉬웠음
  중고 머신에 직접 설정해보고, API 호출을 보고, 용어를 이해하면서 비로소 손에 잡히기 시작했음
  Neo는 이런 기회를 더 체감 가능하고 이해 가능한 것으로 만들기엔 너무 작음
- Qwen 3.6 실험은 모두 48GB Apple Silicon이면 충분했음
  더 공격적인 양자화를 쓰면 더 내려갈 수도 있다고 봄
  경제적으로는 노트북에서 모델을 돌리는 게 큰 의미가 없고, 순수 전력 비용만 봐도 대규모로 생성되는 토큰 가격을 이기기 어려울 수 있음
  그래도 이건 게임을 바꿀 돌파구임
  예전에는 소비자 기기에서 이런 바이브 코딩이 어렵거나 비싼 게 아니라 아예 불가능했음
- Qwen 3.6 27B 밀집 모델은 DGX Spark에서도 비슷한 성능으로 돌릴 수 있고 [1][2], 가격은 약 $4000임
  Asus Ascent GX10도 여러 판매처에서 $3999임
  이론적으로는 3090 두 장으로 48GB VRAM을 확보할 수도 있지만, MacBook Pro나 GB10에 비하면 공간을 많이 차지하고 열도 많이 냄
  [1] https://x.com/MiaAI_lab/status/2070859135399182444
  [2] https://github.com/MiaAI-Lab/Qwen3.6-27B-NVFP4-vLLM
- 언급된 모델은 24GB 이상 VRAM이면 쉽게 돌릴 수 있고, 16GB VRAM에서도 잘 도는 비슷한 모델들이 있음
  여기서 128GB가 필수인 건 아님
- 토큰이나 크레딧은 쓰면 사라지지만, MacBook은 남음
  같은 MacBook에서 다른 모델도 돌릴 수 있음
  사람들이 매달 SaaS에 태우는 돈을 보면 그 돈으로 5개월이면 MacBook 본전을 뽑는 경우도 있음
  그리고 이건 단순한 “데이터 프라이버시” 문제가 아님
  Claude를 쓰면 모든 것을 Anthropic에 보내는 셈이라 꽤 미친 일임
예시들이 ‘실제 업무’를 반영한다고 보긴 어려움
적어도 내가 실제 업무라고 여기는 건 아님
제로샷 신규 프로젝트를 맞히는 건 작은 모델에도 비교적 쉬움
쌓아야 할 문맥이 많지 않고, 학습 데이터의 비슷한 예제로 쉽게 되돌아갈 수 있기 때문임
완전히 새로운 것을 발명하라고 하지 않는 한 그럭저럭 해낼 가능성이 큼
진짜 테스트는 기존 코드베이스에서 일할 수 있느냐임
제한적으로 해본 실험에서 Qwen 3.5는 Rust+React 앱에선 괜찮았고, C# 모놀리스에선 덜 좋았음
못 쓸 정도는 아니지만 20분 만에 Claude로 돌아갈 만큼 별로였고, 클라우드 모델 접근을 잃고 Qwen만 써야 한다면 꽤 슬플 것 같음
- “제로샷 신규 프로젝트를 맞히는 건 작은 모델에도 비교적 쉽다”는 말과 직접 관련은 없지만, 예전에는 개념 증명 하나 띄우는 데 일주일이 걸렸고 이런 문장은 순수한 공상과학처럼 들리던 시절이 있었음
- 작은 모델을 평가할 때 표준 예제 코드에서 벗어날수록 약점이 더 잘 드러난다는 점은 과소평가됨
  Qwen3.6은 어디에나 널린 단순 앱에서는 작은 모델치고 놀라운 결과를 냈음
  React TODO 앱이나 shadcn 같은 인기 도구로 작은 보일러플레이트 앱을 만들라고 하면 꽤 그럴듯한 결과를 냄
  하지만 흔한 작업을 벗어나 내 더 틈새 작업으로 들어가자 몇 시간 동안 맴돌다가 결국 신음 나오는 못 쓸 결과를 내놓았음
  단순 리팩터링이나 아주 명확한 지시를 준 작은 작업에서 타이핑을 대신하게 하는 용도라면 꽤 잘함
  하지만 긴 문맥 세션이나 비주류 주제로 들어가면 약점이 매우 뚜렷함
  작은 하드웨어에 맞추려고 많이 쓰는 양자화도 문제를 악화시킴
  온라인에서는 4-bit 양자화가 거의 무손실이고 q8_0/q8_0 키-값 캐시 양자화도 실질 손실이 없다는 분위기가 있지만, 실제 프로젝트에서는 이런 양자화들이 긴 문맥 성능을 상당히 떨어뜨렸음
- 업무 개발에 pi와 예전의 codex cli를 Qwen 3.6 27B 100k 문맥과 함께 써왔는데, 잘 동작하는 정도에 매우 놀랐음
  완벽하진 않지만 평소 개발 흐름을 가속하기엔 충분했고, 주로 Go와 C# 작성에 씀
- Gemma 4 12B급 모델로 잘 되는 작업이 몇 가지 있음
  작은 라이브러리들로 구성된 큰 프로젝트를 설계해서 각각 독립적으로 코딩·테스트 가능하게 만들기, 오래된 코딩 프로젝트 정리하기, README 추가, 코드 주석 달기, 새 API 사용 예시를 보여주고 API 사용처 업데이트하기 같은 일들임
  모두 소규모 작업임
  큰 통합 프로젝트에서는 DeepSeek v4 Pro 상용 API가 매우 저렴하고 좋은 결과를 내는 데 도움이 되고 있음
- 내 경험상 작은 모델들은 기본적인 프로젝트 개념에서도 신규 프로젝트 시작을 힘들어함
  내려야 할 결정이 너무 많고, 그걸 잘하지 못함
  똑똑하게 해주길 기대하지 않는다면 기존 코드 수정이 훨씬 쉬움
  “X 기능을 추가해”라고 하고 코드베이스를 탐색하게 두지 말고, 관련 파일을 지정한 뒤 “이 코드에 X 기능을 추가하는 게 목표고 Y 지침을 따르라”고 말하는 편이 낫다
  가장 어려운 결정 부분을 사람이 처리하면, 모델은 지시를 따르며 선 안에서 칠하기만 하면 됨
오프라인에서 48GB 메모리 MacBook Pro로 이 모델을 돌리면 작업은 수행하지만, 당연히 Claude나 Codex보다는 느림
수천 달러짜리 128GB MBP를 사서 최첨단보다 객관적으로 훨씬 못한 모델을 돌리는 걸 보면 정신이 이상해지는 느낌임
128GB M5 MAX에 쓰는 돈이면 여기서는 새 차도 살 수 있음
내가 뭘 놓치고 있는 건지 모르겠고, 다른 나라 개발자들은 정말 이렇게 다른 세계에 사는 건가 싶음
내가 사는 곳에서는 미국보다 절대 가격도 더 비싸다는 걸 알고 있고, 그래서 더 그렇게 느껴짐
제정신인 사람이 다른 나라에서 이런 걸 샀다면 여기 도착하자마자 팔아서 돈을 아낄 것 같음
- 노트북 폼팩터로 가는 건 어리석다고 봄
  작년 가을에 중고 3090 두 장으로 워크스테이션을 맞췄고, 각각 850캐나다달러를 냈지만 지금은 최저가가 1200 정도임
  48GB VRAM이면 꽤 합리적이고, Qwen 3.6 27B를 텍스트 말뭉치에서 지식 그래프를 만들고 추론하는 여러 작업에 쓰고 있음
  OpenRouter에서 가능한 것들과 비교해봤는데, 토큰 비용 $0 기준으로 로컬 27B Qwen은 이기기 어렵다
  더 느리고 사무실이 몇 도 더 따뜻해지긴 하지만, 아무도 플러그를 뽑을 수 없고, 어깨너머로 감시하지 않으며, 결과는 최첨단 모델들과 비슷한 수준임
  비슷한 크기의 Qwen 3.7이 기대됨
  지금까지 본 바로는 이전 버전보다 큰 도약임
- 이 가격대 사람들이 왜 GPU가 달린 데스크톱 대신 Mac 노트북을 사는지 이해가 안 됨
  휴대 가능하다는 걸 과시하려는 건가 싶음
- 내 장부상 이미 가치가 꽤 오르고 있는 자산이고, 앞으로 7~10년 동안 산 가격에 되팔 수 있을 가능성이 큼
  Apple 월 할부라 $5k가 1년 동안 월 $416이고 이자도 없음
  DS4급 모델과 다른 공개 모델을 양자화 없이, 때로는 여러 개 동시에 돌릴 수 있음
  대만·중화권 전쟁이나 전 세계 연결성, 상용 모델의 신뢰성에 관한 어두운 시나리오가 터지면 그 가치를 상상해보라
  역사상 다른 시점에 만들기 매우 어려운 장비이고, 더 많이 샀으면 좋았을 것 같음
  신호와 가격 추세, 품절을 실시간으로 봤고, 여력이 있는 다른 사람들도 분명 비축하고 있을 것임
- 맞음, 많은 사람에게 6천 달러는 푼돈임
- 그렇다
  당신 쪽 사람들은 미국인보다 소득이 한 자릿수 이상 낮음
로컬 모델을 돌릴 하드웨어가 비싸다는 이야기는 많은데, Apple 장비에 관심 없다면 꽤 가성비가 괜찮아 보이는 Intel Arc Pro B50/B60/B70은 별로 언급되지 않음
최근 B70 32GB RAM 모델을 미국 밖 거주지 기준 판매세와 관세 포함 약 $1200에 샀고, 다른 지역에선 더 쌀 수도 있음
메모리 대역폭은 608GB/s임
M5 Max 32코어 GPU는 460GB/s, 40코어 GPU는 614GB/s이고, 3090은 약 900GB/s로 여전히 빠르지만 동급 Nvidia 카드보다 훨씬 싸게 32GB VRAM을 얻음
5090의 약 1/3 대역폭을 1/3 가격에 얻되 같은 32GB VRAM을 갖는 셈이라, 더 큰 양자화 모델과 어느 정도 문맥을 낮은 예산으로 돌리고 싶다면 매력적인 절충임
아직 로컬 모델을 탐색 중이라 테스트에 $5000~$10000 상당을 쓰고 싶진 않고, 더 저렴하게 실험할 수 있다면 약간 느린 성능은 괜찮음
처음엔 70W TDP의 B50 16GB를 사서 내 스택에서 Intel 카드를 시험했는데 Ubuntu와 Vulkan에서 쉽게 동작했음
성가시고 못 쓸 물건이라는 글을 많이 봤지만, 대개 SYCL 관련인 듯하고 SYCL이 Vulkan보다 성능이 나아 보이지도 않는데 굳이 쓸 이유가 없어 보임
B50은 세금과 관세 포함 $370이었고, 말 그대로 Vulkan 라이브러리를 apt install하니 26.04의 기본 xe 드라이버와 llama.cpp의 Vulkan 빌드에서 동작했음
SR-IOV PF/VF도 qemu/kvm에서 별도 꼼수 없이 동작하고, 산 뒤 fwupdmgr가 펌웨어를 두 번 업데이트했으니 Intel이 이 제품들을 실제로 지원하려는 듯함
지금 스위트 스폿은 3090 두 장과 PCIe 4 메인보드, 64~128GB DDR4 RAM 조합이라고 봄
지금 $3k 정도로 맞출 수 있고, Qwen 27B/35B를 int4에서 엄청 빠르게 돌림
참고로 5090에서 gemma4 31B를 돌리고 있는데 꽤 훌륭함
QAT, MTP, 128k 문맥을 씀
Qwen 3.6 27B도 좋았지만 Gemma4가 조금 과소평가된 것 같음
- 내 경험도 비슷함
  4090에서 llm.cpp와 unsloth 모델로 gemma4 31B를 돌리고 있음
  Qwen 3.6도 함께 쓰는데, Qwen은 더 빨라서 사고와 계획에 좋고, Gemma4는 첫 시도에서 생성 코드 품질이 훨씬 높음
  Rust, C++, C# 기준으로 병합해도 괜찮다고 느끼는 수준까지 필요한 수정이 더 적음
- Gemma4가 턴을 제대로 끝내게 만들지 못하고 있음
  항상 갑자기 끊기거나 잘못된 도구 호출을 만들며, 아마 oMLX나 Opencode 설정을 내가 잘못한 것 같음
- 좋음
  4080 Super에서 Qwen 3.5 9B Q6_M와 Gemma4 12B Q4_K_M 사이를 오가며 씀
  둘은 속도가 비슷하고 서로의 계획이나 변경분을 검토하게 할 수 있음
  작은 프로젝트에서는 꽤 유능하고, 조금 더 어려운 작업에는 더 나은 양자화로 올릴 수 있음
통합 메모리 컴퓨터를 사러 가기 전에, 예를 들어 DGX Spark, Mac, Ryzen AI Max 395 / Strix Halo 같은 장비에서는 밀집 모델이 대체로 느리다는 점을 알아야 함
전용 GPU가 밀집 모델을 훨씬 잘 돌림
살 장비의 벤치마크를 찾아보는 게 좋고, 정말 이런 장비를 원한다면 Qwen 3.6 35B나 다른 희소 MoE 모델을 돌리는 편이 더 나음
M3 Max 64GB RAM 16인치 MacBook Pro에서 opencode로 qwen 3.6 35b a3b를 돌려왔고, 로컬 계획·코딩 용도로 아주 좋았음
솔직히 64GB가 이렇게 강력한 걸 보니 128GB로 미래 대비를 했어야 했나 싶을 때가 있음
반면 qwen보다 살짝 큰 모델 때문에 벽에 부딪힌 적도 아직 없음
- Windows 노트북에서도 Qwen 3.6 35B A3b를 돌리고 있는데, 64GB RAM과 4GB GPU 조합으로 최소한 참을 만함
  빠르진 않고 초당 몇 토큰, 읽는 속도보다 느리지만 작업을 던져두고 나중에 돌아오면 됨
  몇 년 전 eBay에서 산 $600 노트북이지 $6000짜리 머신이 아님
  통합 메모리 Mac이나 거대한 24GB 데스크톱 GPU들이 10~20배 비용에 걸맞게 초당 수십~수백 토큰을 내고 있는지 궁금함
- 응답 속도가 어느 정도인지 궁금함, 초당 토큰 기준으로
  경험상 20~35GB 모델과 키-값 캐시만으로도 기본 64GB를 많이 먹기 때문에, 브라우저와 편집기 등 다른 것들을 계속 띄워두려면 128GB 전체가 분명 도움이 됨

답변달기

Qwen 3.6 27B는 로컬 개발의 최적 지점

Qwen 3.6 27B를 추천하는 이유

간단한 테스트와 실제 작업 결과

llama.cpp로 로컬 실행하기

서버 실행 예시

OpenCode 설정

터미널 채팅용 실행

Apple Silicon 성능 측정

기존 최첨단 모델과의 비교

로컬 모델 운영의 다음 단계

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들