Qwen 3.6 27B는 로컬 개발의 최적 지점
(quesma.com)- Qwen 3.6 27B는 로컬 모델에 회의적이던 사용자에게도 범용 작업에서 의미 있는 선택지로 보이며, 35B A3B보다 느리지만 더 강력한 dense 모델로 추천됨
- 창작·코딩 테스트에서는 제약 조건 준수가 강점으로 드러났고, OpenCode에서
pnpm기반 육각형 지뢰찾기를 단일 프롬프트로 Node 패키지 형태로 생성함 llama.cpp와 Hugging Face의 8-bit GGUF 양자화를 조합하면 로컬 실행이 가능하며, MTP, GPU 레이어 적재, flash attention, 64k 컨텍스트 설정으로 에이전트 코딩 환경까지 구성할 수 있음- Macbook Max M5 128GB 테스트에서 Qwen3.6-27B 8-bit는
llama.cpp + MTP로 32 tok/s, 약 42GB RAM을 사용했고, 더 빠른 35B A3B보다 코드 품질이 나아 27B가 선호됨 - Artificial Analysis 기준 Qwen3.6-27B는 37점으로 GPT-5 / Claude Sonnet 4.5와 같은 mid 2025 수준에 놓이며, 민감 데이터·오프라인 작업·회수 불가능한 자체 모델 운영에 실용적임
Qwen 3.6 27B를 추천하는 이유
- Qwen 3.6은 두 가지 변형으로 제공됨
- Qwen 3.6 35B A3B: mixture-of-experts 모델
- Qwen 3.6 27B: dense 모델이며 더 느리지만 더 강력한 선택지
- Qwen 3.6 27B는 “체급 이상으로 성능을 낸다”는 반응을 많이 얻었고, 관련 예시로 Will it Mythos?가 있음
- 로컬 실행 중 컴퓨터가 뜨거워질 수 있지만, 감수할 만한 성능을 제공함
간단한 테스트와 실제 작업 결과
- 간단한 스모크 테스트로 Simon Willison의 “penguins on a bicycle” 대신 제약 글쓰기를 사용함
- Zouk 춤과 양자물리학을 주제로 8행 시를 요청했을 때, 양자 용어와 운율을 다루는 사고 과정이 자연스럽게 이어짐
- 관련 대화는 transcript에 있음
- OpenCode에서
pnpm을 사용해 육각형 지뢰찾기를 만들도록 요청하자, 단일 프롬프트만으로 제대로 된 Node 패키지를 생성함 - Qwen 3.6 35B A3B는 더 빨랐지만, 패키지를 만들라는 지시를 따르지 않고 단일
index.html로 구현함 - 일반 업무성 작업에서도 짧은 프롬프트로 작동하는 결과물을 만들었고, 반응성과 기본값도 괜찮은 편임
- frontier 모델 기준으로는 특별하지 않지만, 로컬 모델로는 이미 실용적인 수준임
llama.cpp로 로컬 실행하기
-
로컬 모델 실행은 몇 줄의 CLI로 가능하며, 추천 도구는 llama.cpp임
-
Hugging Face에서 용량을 줄인 양자화 모델을 받아 실행함
- 인기 양자화 모델 제공처로 unsloth와 bartowski가 있음
- 기본 모델은 보통
BF16정밀도임 - 8-bit 양자화는 품질 손실을 거의 만들지 않으면서 공간을 절반으로 줄임
- 더 낮은 비트 양자화는 모델을 더 작고 잠재적으로 빠르게 만들지만 품질 비용이 따름
- 27B 비교는 Reddit benchmark, 35B A3B 비교는 Hugging Face discussion에 있음
-
서버 실행 예시
llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \ --spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080-hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0: Hugging Face에서 모델을 가져오며, 이후 실행에서는 재사용함-m ~/models/Qwen3.6-27B-Q8_0.gguf: 이미 모델 파일이 있으면 대신 사용할 수 있음draft-mtp: 빠른 모델로 다음 토큰을 예측하는 multi-token prediction을 사용해 속도를 높임-ngl 999: 모든 레이어를 GPU에 올림-fa on: flash attention을 켬-c 65536: 컨텍스트 크기를 64k 토큰으로 설정함- Qwen 3.6 27B의 네이티브 컨텍스트는 256k임
--port 8080: 다른 설정에서 사용할 포트를 고정함http://127.0.0.1:8080을 열면 직접 채팅할 수 있음
-
OpenCode 설정
- 같은 서버를 vibe coding에도 사용할 수 있음
- OpenCode에서는
~/.config/opencode/opencode.jsonc에 다음 설정을 추가함
{ "$schema": "https://opencode.ai/config.json", "provider": { "llama": { "name": "llama.cpp (local)", "npm": "@ai-sdk/openai-compatible", "options": { "baseURL": "http://127.0.0.1:8080/v1", "apiKey": "local" }, "models": { "qwen3.6-27b": { "name": "Qwen3.6-27B Q8 +MTP" } } } }, "model": "llama/qwen3.6-27b" } -
터미널 채팅용 실행
- 터미널에서 채팅만 하려면
llama-server대신llama-cli를 사용할 수 있음
llama-cli -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \ -ngl 999 -fa on -c 65536 - 터미널에서 채팅만 하려면
Apple Silicon 성능 측정
- 테스트 결과는 benching-local-llms-on-apple-silicon에 정리되어 있으며, Macbook Max M5 128GB에서 실행됨
- Qwen3.6-35B-A3B · 8-bit
- MLX: 85 tok/s, 37GB RAM
- llama.cpp: 93 tok/s, 44GB RAM
- llama.cpp + MTP: 105 tok/s, 45GB RAM
- Qwen3.6-27B · 8-bit
- MLX: 17 tok/s, 28GB RAM
- llama.cpp: 18 tok/s, 41GB RAM
- llama.cpp + MTP: 32 tok/s, 42GB RAM
- DeepSeek-V4-Flash · Q2–Q4
- llama.cpp: 33 tok/s, 103GB RAM
- 30 tok/s는 나쁘지 않은 속도이며, 일반적인 frontier 모델 API 범위 안에 들어감
- mlx-lm은 Apple Silicon을 겨냥했지만, 이 테스트에서는 llama.cpp가 더 빨랐음
- 실행 중 GPU 사용률은 95%로, 사용 가능한 리소스를 효율적으로 활용한 것으로 보임
- Qwen 3.6의 두 변형은 모두 Apple Silicon 공유 RAM 48GB 안에서 실행됨
- 소비자용 Nvidia RTX 카드에서는 더 공격적인 양자화가 필요하지만 추론은 더 빠르게 실행됨
- Hacker News의 gfosco는 5090에서 Q6_K 양자화와 Q4_0 KV로 123k 컨텍스트에서 일관되게 50 tok/s를 얻었고, LM Studio로 약 28/32GB VRAM을 사용했다고 밝힘
- 35B A3B는 3배 빠르지만, 생성되는 코드 양이 3분의 1이어도 품질이 더 높은 27B를 선택할 만함
기존 최첨단 모델과의 비교
- Artificial Analysis 점수 비교에서 Qwen3.6-27B는 37점임
- 비교 표의 주요 항목은 다음과 같음
- Gemma 4 31B: 29점, late 2024 수준, o1 / Claude 3.5 Sonnet
- Qwen3.6-35B-A3B: 32점, early 2025 수준, o3 / Claude 4 Sonnet
- Qwen3.6-27B: 37점, mid 2025 수준, GPT-5 / Claude Sonnet 4.5
- DeepSeek-V4-Flash: 40점, late 2025 수준, GPT-5.2 / Claude Opus 4.5
- 추가 벤치마크는 notes에 있으며, 전반적인 흐름은 비슷함
- Gemma 4 31B는 로컬 코딩의 기본값처럼 쓰는 사람이 많아 비교에 포함됨
- 벤치마크와 온라인 반응 모두 Qwen 3.6 27B를 Gemma 4 31B보다 크게 선호함
- 단, 양자화 조건에는 주의가 필요함
- 8-bit 양자화는 결과에 큰 영향을 주지 않을 가능성이 큼
- DwarfStar4는 DeepSeek V4 Flash에 2–4bit의 훨씬 공격적인 양자화를 사용하므로, 전체 모델보다 확실히 나쁨
- 이 조건에서는 Qwen 3.6 27B가 DwarfStar4와 같거나 약간 더 나은 인상을 줌
- 더 긴 컨텍스트 프로젝트에서는 DS4가 우위를 가질 수도 있음
로컬 모델 운영의 다음 단계
- 직접 모델을 실행하는 일이 점점 현실적인 선택지가 되고 있음
- 독점 frontier 모델의 상태가 이 흐름을 더 밀어붙일 수 있음
- Claude Fable 5는 내려감
- 다른 frontier 모델은 대규모 보조금 위에서 운영되며, 월 100달러 지불로 수천 달러어치 토큰을 쓰는 구조임
- 로컬 설정 모델은 필요에 맞게 파인튜닝할 수 있고, 외부에서 회수할 수 없음
- 기업은 독점 데이터와 민감 데이터를 위해 로컬 모델을 사용할 수 있음
- 개인은 오프라인 프로젝트나, 미국·중국에 깊은 비밀 또는 의료 데이터를 공유하고 싶지 않은 상황에서 로컬 모델을 활용할 수 있음
- frontier-level open-weight GLM 5.2 공개는 로컬 모델 흐름을 더 앞당김
- Qwen 3.6은 징검다리였고, GLM 5.2도 로컬 실행이 가능함
- GLM 5.2는 Macbook이나 단일 RTX 5090에서는 실행되지 않지만, 회사 예산으로는 감당 가능한 수준임
- 현재 최첨단보다 똑똑하면서 로컬 기기, 어쩌면 스마트폰에서도 실행 가능한 모델이 나올 수 있음
- 현재 모델은 원시 지능과 사실 지식을 같은 가중치에 결합하지만, 미래 모델은 지식을 도구 호출로 넘기며 둘을 분리할 가능성이 큼
댓글과 토론
소형 모델 중에서는 Qwen을 따라올 모델이 없는데, 알리바바가 이제 오픈웨이트 기반의 연구 중심에서 폐쇄형 및 상업화 전략으로 선회한다는 말이 있네요. 개인적으로 많이 아쉽습니다...
Hacker News 의견들
-
MacBook Pro M5 128GB RAM과 qwen3.6은 마음에 들지만, 로컬 LLM으로 진지하게 코딩할 생각이면 이 MacBook은 사지 않는 게 좋음
이유는 단순함: 손가락이 뜨거워지고 팬 소음 때문에 머리가 터질 듯함
실제로 쓰는 노트북에서 복잡한 작업을 돌리는 건 현실적이지 않고, 클램셸 모드로는 가능해도 AI 코딩이나 에이전트 작업 중에는 만지기 어렵다
Qwen3.6 27B/35B를 제대로 돌리고 싶다면 MacMini M4 64GB를 사서 지하실이나 최소 몇 미터 떨어진 곳에 두고 LAN이나 Tailscale로 접속하는 편이 낫고, 가격도 MacBook Pro의 거의 1/3 수준임- 같은 이유로 일반 32GB 노트북을 샀음
데스크톱 GPU에서 Qwen 27B나 Gemma 4 31B 같은 비교적 작은 모델만 돌려도 얼마나 시끄럽고 뜨거운지 알고 있음
Strix Halo는 큰 팬 하나라 시끄럽진 않지만 뜨거워지고, 노트북의 작은 팬들이 그 열을 빼내려면 결국 비명을 지를 수밖에 없음
어디서나 모델을 돌리는 노트북이라는 발상은 좋지만, 그건 클라우드 모델이 맡는 게 맞고, 데이터가 많이 오가지 않으니 큰 문제도 아님
프라이버시가 필요한 작업은 집의 큰 장비에 자체 호스팅 모델을 올리고 VPN으로 접속하면 됨
다만 Gemma 4 12B QAT 4-bit처럼 16GB 기기나 태블릿에서도 잘 도는 모델은 특정 작업에 매우 좋았고, 분류·식별·라벨링 같은 용도의 자체 호스팅 비전 모델로는 테스트한 것 중 최고였음
산문도 괜찮고 도구 사용도 제법 하지만, 7GB 안에 세상 지식이 많이 들어가진 않으니 조사에는 검색이 필요하고, 아주 단순한 코드를 넘어서는 코딩에는 쓰고 싶지 않음 - DwarfStar 4에서
--power플래그를 써보면 됨: https://github.com/antirez/ds4#reducing-heat-power-usage-and... - “손가락이 타고 소음 때문에 머리가 터진다”면 그냥 Mac mini를 다른 방에 두면 되는 거 아닌가 싶음
지난 반년 정도 노트북에서 코딩 에이전트를 YOLO 모드로 돌렸고, 대부분 로컬은 아니었지만 공포 없이 쓰는 방법은 에이전트 전용 Linux 사용자agent를 따로 주는 것이었음
에이전트는/agent홈 디렉터리를 날려도 되지만 내 홈 디렉터리는 건드리거나 읽지도 못함
매번sudo로 그 사용자에 들어가야 해서 별칭을 만들었고, 권한·소유권 문제가 생기면 하루에 한 번 고치는 함수로 처리함
그래도 번거로움이 있어서 전용 머신이 있었으면 그냥 root를 줬을 것 같고, 장난 삼아 Claude에게 $3 VPS의 root를 줬는데 잘 돌아가고 있음
몇 달 시행착오 끝에 결국 “그냥 Mac mini를 사라”를 처음부터 다시 발명한 셈임 - M4 Max에서 로컬 LLM 작업을 pi로 시험했을 때, 지금까지 쓴 어떤 MacBook보다 뜨겁게 느껴졌음
몇 인치 떨어져 있어도 복사열이 느껴졌고, 써본 Intel MacBook보다도 더 뜨거운 느낌이라 중단했음
공급 문제와 가격 인상 때문에 노트북을 10년은 들고 있어야 할 수도 있어서 망가뜨리고 싶지 않았음 - 정확히 그렇게 쓰고 있음: Mini M4 Pro 64GB와 qwen3.6 조합임
청력이 아주 좋진 않지만 팬 소리는 들었을 것 같은데 한 번도 못 들었고, 실제로 팬이 있는지 검색해봐야 했음
- 같은 이유로 일반 32GB 노트북을 샀음
-
글은 128GB MacBook Pro에서 Qwen 3.6을 돌린 내용을 바탕으로 함
참고로 128GB MBP는 현재 $6699부터 시작함 [0]
프라이버시를 위해 그 프리미엄을 기꺼이 낼 사람도 있겠지만, MacBook Neo의 약 10배 비용이면 OpenRouter나 최첨단 연구소 API 크레딧을 꽤 많이 살 수 있음
[0]: https://www.apple.com/shop/buy-mac/macbook-pro/14-inch-space...- 계산은 부정하기 어렵지만, 나였다면 그렇게 선을 긋진 않겠음
Gemma 4 12B 같은 적당한 로컬 LLM을 돌릴 수 있는 머신을 갖는 건 정말 가치가 있음
MacBook 하나로 진지한 무인 에이전트 코딩을 얼마나 하게 될지는 모르지만, 로컬 모델, llama.cpp, LM Studio 등을 직접 만져보지 않았다면 이 분야를 이렇게 이해하지 못했을 것임
이 분야는 너무 크고, 지치고, 전문용어투성이이며, 50대가 넘은 입장에선 압도당하기 쉬웠음
중고 머신에 직접 설정해보고, API 호출을 보고, 용어를 이해하면서 비로소 손에 잡히기 시작했음
Neo는 이런 기회를 더 체감 가능하고 이해 가능한 것으로 만들기엔 너무 작음 - Qwen 3.6 실험은 모두 48GB Apple Silicon이면 충분했음
더 공격적인 양자화를 쓰면 더 내려갈 수도 있다고 봄
경제적으로는 노트북에서 모델을 돌리는 게 큰 의미가 없고, 순수 전력 비용만 봐도 대규모로 생성되는 토큰 가격을 이기기 어려울 수 있음
그래도 이건 게임을 바꿀 돌파구임
예전에는 소비자 기기에서 이런 바이브 코딩이 어렵거나 비싼 게 아니라 아예 불가능했음 - Qwen 3.6 27B 밀집 모델은 DGX Spark에서도 비슷한 성능으로 돌릴 수 있고 [1][2], 가격은 약 $4000임
Asus Ascent GX10도 여러 판매처에서 $3999임
이론적으로는 3090 두 장으로 48GB VRAM을 확보할 수도 있지만, MacBook Pro나 GB10에 비하면 공간을 많이 차지하고 열도 많이 냄
[1] https://x.com/MiaAI_lab/status/2070859135399182444
[2] https://github.com/MiaAI-Lab/Qwen3.6-27B-NVFP4-vLLM - 언급된 모델은 24GB 이상 VRAM이면 쉽게 돌릴 수 있고, 16GB VRAM에서도 잘 도는 비슷한 모델들이 있음
여기서 128GB가 필수인 건 아님 - 토큰이나 크레딧은 쓰면 사라지지만, MacBook은 남음
같은 MacBook에서 다른 모델도 돌릴 수 있음
사람들이 매달 SaaS에 태우는 돈을 보면 그 돈으로 5개월이면 MacBook 본전을 뽑는 경우도 있음
그리고 이건 단순한 “데이터 프라이버시” 문제가 아님
Claude를 쓰면 모든 것을 Anthropic에 보내는 셈이라 꽤 미친 일임
- 계산은 부정하기 어렵지만, 나였다면 그렇게 선을 긋진 않겠음
-
예시들이 ‘실제 업무’를 반영한다고 보긴 어려움
적어도 내가 실제 업무라고 여기는 건 아님
제로샷 신규 프로젝트를 맞히는 건 작은 모델에도 비교적 쉬움
쌓아야 할 문맥이 많지 않고, 학습 데이터의 비슷한 예제로 쉽게 되돌아갈 수 있기 때문임
완전히 새로운 것을 발명하라고 하지 않는 한 그럭저럭 해낼 가능성이 큼
진짜 테스트는 기존 코드베이스에서 일할 수 있느냐임
제한적으로 해본 실험에서 Qwen 3.5는 Rust+React 앱에선 괜찮았고, C# 모놀리스에선 덜 좋았음
못 쓸 정도는 아니지만 20분 만에 Claude로 돌아갈 만큼 별로였고, 클라우드 모델 접근을 잃고 Qwen만 써야 한다면 꽤 슬플 것 같음- “제로샷 신규 프로젝트를 맞히는 건 작은 모델에도 비교적 쉽다”는 말과 직접 관련은 없지만, 예전에는 개념 증명 하나 띄우는 데 일주일이 걸렸고 이런 문장은 순수한 공상과학처럼 들리던 시절이 있었음
- 작은 모델을 평가할 때 표준 예제 코드에서 벗어날수록 약점이 더 잘 드러난다는 점은 과소평가됨
Qwen3.6은 어디에나 널린 단순 앱에서는 작은 모델치고 놀라운 결과를 냈음
React TODO 앱이나 shadcn 같은 인기 도구로 작은 보일러플레이트 앱을 만들라고 하면 꽤 그럴듯한 결과를 냄
하지만 흔한 작업을 벗어나 내 더 틈새 작업으로 들어가자 몇 시간 동안 맴돌다가 결국 신음 나오는 못 쓸 결과를 내놓았음
단순 리팩터링이나 아주 명확한 지시를 준 작은 작업에서 타이핑을 대신하게 하는 용도라면 꽤 잘함
하지만 긴 문맥 세션이나 비주류 주제로 들어가면 약점이 매우 뚜렷함
작은 하드웨어에 맞추려고 많이 쓰는 양자화도 문제를 악화시킴
온라인에서는 4-bit 양자화가 거의 무손실이고q8_0/q8_0키-값 캐시 양자화도 실질 손실이 없다는 분위기가 있지만, 실제 프로젝트에서는 이런 양자화들이 긴 문맥 성능을 상당히 떨어뜨렸음 - 업무 개발에 pi와 예전의 codex cli를 Qwen 3.6 27B 100k 문맥과 함께 써왔는데, 잘 동작하는 정도에 매우 놀랐음
완벽하진 않지만 평소 개발 흐름을 가속하기엔 충분했고, 주로 Go와 C# 작성에 씀 - Gemma 4 12B급 모델로 잘 되는 작업이 몇 가지 있음
작은 라이브러리들로 구성된 큰 프로젝트를 설계해서 각각 독립적으로 코딩·테스트 가능하게 만들기, 오래된 코딩 프로젝트 정리하기, README 추가, 코드 주석 달기, 새 API 사용 예시를 보여주고 API 사용처 업데이트하기 같은 일들임
모두 소규모 작업임
큰 통합 프로젝트에서는 DeepSeek v4 Pro 상용 API가 매우 저렴하고 좋은 결과를 내는 데 도움이 되고 있음 - 내 경험상 작은 모델들은 기본적인 프로젝트 개념에서도 신규 프로젝트 시작을 힘들어함
내려야 할 결정이 너무 많고, 그걸 잘하지 못함
똑똑하게 해주길 기대하지 않는다면 기존 코드 수정이 훨씬 쉬움
“X 기능을 추가해”라고 하고 코드베이스를 탐색하게 두지 말고, 관련 파일을 지정한 뒤 “이 코드에 X 기능을 추가하는 게 목표고 Y 지침을 따르라”고 말하는 편이 낫다
가장 어려운 결정 부분을 사람이 처리하면, 모델은 지시를 따르며 선 안에서 칠하기만 하면 됨
-
오프라인에서 48GB 메모리 MacBook Pro로 이 모델을 돌리면 작업은 수행하지만, 당연히 Claude나 Codex보다는 느림
-
수천 달러짜리 128GB MBP를 사서 최첨단보다 객관적으로 훨씬 못한 모델을 돌리는 걸 보면 정신이 이상해지는 느낌임
128GB M5 MAX에 쓰는 돈이면 여기서는 새 차도 살 수 있음
내가 뭘 놓치고 있는 건지 모르겠고, 다른 나라 개발자들은 정말 이렇게 다른 세계에 사는 건가 싶음
내가 사는 곳에서는 미국보다 절대 가격도 더 비싸다는 걸 알고 있고, 그래서 더 그렇게 느껴짐
제정신인 사람이 다른 나라에서 이런 걸 샀다면 여기 도착하자마자 팔아서 돈을 아낄 것 같음- 노트북 폼팩터로 가는 건 어리석다고 봄
작년 가을에 중고 3090 두 장으로 워크스테이션을 맞췄고, 각각 850캐나다달러를 냈지만 지금은 최저가가 1200 정도임
48GB VRAM이면 꽤 합리적이고, Qwen 3.6 27B를 텍스트 말뭉치에서 지식 그래프를 만들고 추론하는 여러 작업에 쓰고 있음
OpenRouter에서 가능한 것들과 비교해봤는데, 토큰 비용 $0 기준으로 로컬 27B Qwen은 이기기 어렵다
더 느리고 사무실이 몇 도 더 따뜻해지긴 하지만, 아무도 플러그를 뽑을 수 없고, 어깨너머로 감시하지 않으며, 결과는 최첨단 모델들과 비슷한 수준임
비슷한 크기의 Qwen 3.7이 기대됨
지금까지 본 바로는 이전 버전보다 큰 도약임 - 이 가격대 사람들이 왜 GPU가 달린 데스크톱 대신 Mac 노트북을 사는지 이해가 안 됨
휴대 가능하다는 걸 과시하려는 건가 싶음 - 내 장부상 이미 가치가 꽤 오르고 있는 자산이고, 앞으로 7~10년 동안 산 가격에 되팔 수 있을 가능성이 큼
Apple 월 할부라 $5k가 1년 동안 월 $416이고 이자도 없음
DS4급 모델과 다른 공개 모델을 양자화 없이, 때로는 여러 개 동시에 돌릴 수 있음
대만·중화권 전쟁이나 전 세계 연결성, 상용 모델의 신뢰성에 관한 어두운 시나리오가 터지면 그 가치를 상상해보라
역사상 다른 시점에 만들기 매우 어려운 장비이고, 더 많이 샀으면 좋았을 것 같음
신호와 가격 추세, 품절을 실시간으로 봤고, 여력이 있는 다른 사람들도 분명 비축하고 있을 것임 - 맞음, 많은 사람에게 6천 달러는 푼돈임
- 그렇다
당신 쪽 사람들은 미국인보다 소득이 한 자릿수 이상 낮음
- 노트북 폼팩터로 가는 건 어리석다고 봄
-
로컬 모델을 돌릴 하드웨어가 비싸다는 이야기는 많은데, Apple 장비에 관심 없다면 꽤 가성비가 괜찮아 보이는 Intel Arc Pro B50/B60/B70은 별로 언급되지 않음
최근 B70 32GB RAM 모델을 미국 밖 거주지 기준 판매세와 관세 포함 약 $1200에 샀고, 다른 지역에선 더 쌀 수도 있음
메모리 대역폭은 608GB/s임
M5 Max 32코어 GPU는 460GB/s, 40코어 GPU는 614GB/s이고, 3090은 약 900GB/s로 여전히 빠르지만 동급 Nvidia 카드보다 훨씬 싸게 32GB VRAM을 얻음
5090의 약 1/3 대역폭을 1/3 가격에 얻되 같은 32GB VRAM을 갖는 셈이라, 더 큰 양자화 모델과 어느 정도 문맥을 낮은 예산으로 돌리고 싶다면 매력적인 절충임
아직 로컬 모델을 탐색 중이라 테스트에 $5000~$10000 상당을 쓰고 싶진 않고, 더 저렴하게 실험할 수 있다면 약간 느린 성능은 괜찮음
처음엔 70W TDP의 B50 16GB를 사서 내 스택에서 Intel 카드를 시험했는데 Ubuntu와 Vulkan에서 쉽게 동작했음
성가시고 못 쓸 물건이라는 글을 많이 봤지만, 대개 SYCL 관련인 듯하고 SYCL이 Vulkan보다 성능이 나아 보이지도 않는데 굳이 쓸 이유가 없어 보임
B50은 세금과 관세 포함 $370이었고, 말 그대로 Vulkan 라이브러리를apt install하니 26.04의 기본 xe 드라이버와 llama.cpp의 Vulkan 빌드에서 동작했음
SR-IOV PF/VF도 qemu/kvm에서 별도 꼼수 없이 동작하고, 산 뒤 fwupdmgr가 펌웨어를 두 번 업데이트했으니 Intel이 이 제품들을 실제로 지원하려는 듯함 -
지금 스위트 스폿은 3090 두 장과 PCIe 4 메인보드, 64~128GB DDR4 RAM 조합이라고 봄
지금 $3k 정도로 맞출 수 있고, Qwen 27B/35B를 int4에서 엄청 빠르게 돌림 -
참고로 5090에서 gemma4 31B를 돌리고 있는데 꽤 훌륭함
QAT, MTP, 128k 문맥을 씀
Qwen 3.6 27B도 좋았지만 Gemma4가 조금 과소평가된 것 같음- 내 경험도 비슷함
4090에서 llm.cpp와 unsloth 모델로 gemma4 31B를 돌리고 있음
Qwen 3.6도 함께 쓰는데, Qwen은 더 빨라서 사고와 계획에 좋고, Gemma4는 첫 시도에서 생성 코드 품질이 훨씬 높음
Rust, C++, C# 기준으로 병합해도 괜찮다고 느끼는 수준까지 필요한 수정이 더 적음 - Gemma4가 턴을 제대로 끝내게 만들지 못하고 있음
항상 갑자기 끊기거나 잘못된 도구 호출을 만들며, 아마 oMLX나 Opencode 설정을 내가 잘못한 것 같음 - 좋음
4080 Super에서 Qwen 3.5 9B Q6_M와 Gemma4 12B Q4_K_M 사이를 오가며 씀
둘은 속도가 비슷하고 서로의 계획이나 변경분을 검토하게 할 수 있음
작은 프로젝트에서는 꽤 유능하고, 조금 더 어려운 작업에는 더 나은 양자화로 올릴 수 있음
- 내 경험도 비슷함
-
통합 메모리 컴퓨터를 사러 가기 전에, 예를 들어 DGX Spark, Mac, Ryzen AI Max 395 / Strix Halo 같은 장비에서는 밀집 모델이 대체로 느리다는 점을 알아야 함
전용 GPU가 밀집 모델을 훨씬 잘 돌림
살 장비의 벤치마크를 찾아보는 게 좋고, 정말 이런 장비를 원한다면 Qwen 3.6 35B나 다른 희소 MoE 모델을 돌리는 편이 더 나음 -
M3 Max 64GB RAM 16인치 MacBook Pro에서 opencode로 qwen 3.6 35b a3b를 돌려왔고, 로컬 계획·코딩 용도로 아주 좋았음
솔직히 64GB가 이렇게 강력한 걸 보니 128GB로 미래 대비를 했어야 했나 싶을 때가 있음
반면 qwen보다 살짝 큰 모델 때문에 벽에 부딪힌 적도 아직 없음- Windows 노트북에서도 Qwen 3.6 35B A3b를 돌리고 있는데, 64GB RAM과 4GB GPU 조합으로 최소한 참을 만함
빠르진 않고 초당 몇 토큰, 읽는 속도보다 느리지만 작업을 던져두고 나중에 돌아오면 됨
몇 년 전 eBay에서 산 $600 노트북이지 $6000짜리 머신이 아님
통합 메모리 Mac이나 거대한 24GB 데스크톱 GPU들이 10~20배 비용에 걸맞게 초당 수십~수백 토큰을 내고 있는지 궁금함 - 응답 속도가 어느 정도인지 궁금함, 초당 토큰 기준으로
경험상 20~35GB 모델과 키-값 캐시만으로도 기본 64GB를 많이 먹기 때문에, 브라우저와 편집기 등 다른 것들을 계속 띄워두려면 128GB 전체가 분명 도움이 됨
- Windows 노트북에서도 Qwen 3.6 35B A3b를 돌리고 있는데, 64GB RAM과 4GB GPU 조합으로 최소한 참을 만함