# Qwen 3.6 27B는 로컬 개발의 최적 지점

> Clean Markdown view of GeekNews topic #30942. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=30942](https://news.hada.io/topic?id=30942)
- GeekNews Markdown: [https://news.hada.io/topic/30942.md](https://news.hada.io/topic/30942.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2026-06-30T07:23:42+09:00
- Updated: 2026-06-30T07:23:42+09:00
- Original source: [quesma.com](https://quesma.com/blog/qwen-36-is-awesome/)
- Points: 5
- Comments: 1

## Topic Body

- **Qwen 3.6 27B**는 로컬 모델에 회의적이던 사용자에게도 범용 작업에서 의미 있는 선택지로 보이며, 35B A3B보다 느리지만 더 강력한 dense 모델로 추천됨
- 창작·코딩 테스트에서는 **제약 조건 준수**가 강점으로 드러났고, OpenCode에서 `pnpm` 기반 육각형 지뢰찾기를 단일 프롬프트로 Node 패키지 형태로 생성함
- `llama.cpp`와 Hugging Face의 8-bit GGUF 양자화를 조합하면 로컬 실행이 가능하며, **MTP**, GPU 레이어 적재, flash attention, 64k 컨텍스트 설정으로 에이전트 코딩 환경까지 구성할 수 있음
- Macbook Max M5 128GB 테스트에서 Qwen3.6-27B 8-bit는 `llama.cpp + MTP`로 **32 tok/s**, 약 42GB RAM을 사용했고, 더 빠른 35B A3B보다 코드 품질이 나아 27B가 선호됨
- Artificial Analysis 기준 Qwen3.6-27B는 **37점**으로 GPT-5 / Claude Sonnet 4.5와 같은 mid 2025 수준에 놓이며, 민감 데이터·오프라인 작업·회수 불가능한 자체 모델 운영에 실용적임

---

### Qwen 3.6 27B를 추천하는 이유
- Qwen 3.6은 두 가지 변형으로 제공됨
  - [Qwen 3.6 35B A3B](https://huggingface.co/Qwen/Qwen3.6-35B-A3B): mixture-of-experts 모델
  - [Qwen 3.6 27B](https://huggingface.co/Qwen/Qwen3.6-27B): dense 모델이며 더 느리지만 더 강력한 선택지
- Qwen 3.6 27B는 “체급 이상으로 성능을 낸다”는 반응을 많이 얻었고, 관련 예시로 [Will it Mythos?](https://swelljoe.com/post/will-it-mythos/)가 있음
- 로컬 실행 중 컴퓨터가 뜨거워질 수 있지만, 감수할 만한 성능을 제공함

### 간단한 테스트와 실제 작업 결과
- 간단한 스모크 테스트로 Simon Willison의 “penguins on a bicycle” 대신 **제약 글쓰기**를 사용함
- Zouk 춤과 양자물리학을 주제로 8행 시를 요청했을 때, 양자 용어와 운율을 다루는 사고 과정이 자연스럽게 이어짐
  - 관련 대화는 [transcript](https://gist.github.com/stared/bac79cd053ea5443abcf58e622c083b7)에 있음
- OpenCode에서 `pnpm`을 사용해 **육각형 지뢰찾기**를 만들도록 요청하자, 단일 프롬프트만으로 제대로 된 Node 패키지를 생성함
- Qwen 3.6 35B A3B는 더 빨랐지만, 패키지를 만들라는 지시를 따르지 않고 단일 `index.html`로 구현함
- 일반 업무성 작업에서도 짧은 프롬프트로 작동하는 결과물을 만들었고, 반응성과 기본값도 괜찮은 편임
  - frontier 모델 기준으로는 특별하지 않지만, 로컬 모델로는 이미 실용적인 수준임

### llama.cpp로 로컬 실행하기
- 로컬 모델 실행은 몇 줄의 CLI로 가능하며, 추천 도구는 [llama.cpp](https://github.com/ggml-org/llama.cpp)임
- Hugging Face에서 용량을 줄인 **양자화 모델**을 받아 실행함
  - 인기 양자화 모델 제공처로 [unsloth](https://huggingface.co/unsloth/Qwen3.6-27B-GGUF)와 [bartowski](https://huggingface.co/bartowski/Qwen_Qwen3.6-27B-GGUF)가 있음
  - 기본 모델은 보통 `BF16` 정밀도임
  - 8-bit 양자화는 품질 손실을 거의 만들지 않으면서 공간을 절반으로 줄임
  - 더 낮은 비트 양자화는 모델을 더 작고 잠재적으로 빠르게 만들지만 품질 비용이 따름
  - 27B 비교는 [Reddit benchmark](https://www.reddit.com/r/LocalLLaMA/comments/1tr9vzn/qwen3627b_quantization_benchmark/), 35B A3B 비교는 [Hugging Face discussion](https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF/discussions/10)에 있음
- ## 서버 실행 예시
  ```bash
  llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \
      --spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080
  ```
  - `-hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0`: Hugging Face에서 모델을 가져오며, 이후 실행에서는 재사용함
  - `-m ~/models/Qwen3.6-27B-Q8_0.gguf`: 이미 모델 파일이 있으면 대신 사용할 수 있음
  - `draft-mtp`: 빠른 모델로 다음 토큰을 예측하는 **multi-token prediction**을 사용해 속도를 높임
  - `-ngl 999`: 모든 레이어를 GPU에 올림
  - `-fa on`: flash attention을 켬
  - `-c 65536`: 컨텍스트 크기를 64k 토큰으로 설정함
  - Qwen 3.6 27B의 네이티브 컨텍스트는 256k임
  - `--port 8080`: 다른 설정에서 사용할 포트를 고정함
  - `http://127.0.0.1:8080`을 열면 직접 채팅할 수 있음
- ## OpenCode 설정
  - 같은 서버를 **vibe coding**에도 사용할 수 있음
  - OpenCode에서는 `~/.config/opencode/opencode.jsonc`에 다음 설정을 추가함
  ```jsonc
  {
    "$schema": "https://opencode.ai/config.json",
    "provider": {
      "llama": {
        "name": "llama.cpp (local)",
        "npm": "@ai-sdk/openai-compatible",
        "options": {
          "baseURL": "http://127.0.0.1:8080/v1",
          "apiKey": "local"
        },
        "models": {
          "qwen3.6-27b": { "name": "Qwen3.6-27B Q8 +MTP" }
        }
      }
    },
    "model": "llama/qwen3.6-27b"
  }
  ```

- ## 터미널 채팅용 실행
  - 터미널에서 채팅만 하려면 `llama-server` 대신 `llama-cli`를 사용할 수 있음
  ```bash
  llama-cli -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \
                  -ngl 999 -fa on -c 65536
  ```

### Apple Silicon 성능 측정
- 테스트 결과는 [benching-local-llms-on-apple-silicon](https://github.com/stared/benching-local-llms-on-apple-silicon)에 정리되어 있으며, Macbook Max M5 128GB에서 실행됨
- Qwen3.6-35B-A3B · 8-bit
  - MLX: **85 tok/s**, 37GB RAM
  - llama.cpp: **93 tok/s**, 44GB RAM
  - llama.cpp + MTP: **105 tok/s**, 45GB RAM
- Qwen3.6-27B · 8-bit
  - MLX: **17 tok/s**, 28GB RAM
  - llama.cpp: **18 tok/s**, 41GB RAM
  - llama.cpp + MTP: **32 tok/s**, 42GB RAM
- DeepSeek-V4-Flash · Q2–Q4
  - llama.cpp: **33 tok/s**, 103GB RAM
- 30 tok/s는 나쁘지 않은 속도이며, 일반적인 frontier 모델 API 범위 안에 들어감
- [mlx-lm](https://github.com/ml-explore/mlx-lm)은 Apple Silicon을 겨냥했지만, 이 테스트에서는 llama.cpp가 더 빨랐음
- 실행 중 GPU 사용률은 95%로, 사용 가능한 리소스를 효율적으로 활용한 것으로 보임
- Qwen 3.6의 두 변형은 모두 Apple Silicon 공유 RAM 48GB 안에서 실행됨
- 소비자용 Nvidia RTX 카드에서는 더 공격적인 양자화가 필요하지만 추론은 더 빠르게 실행됨
  - Hacker News의 gfosco는 5090에서 Q6_K 양자화와 Q4_0 KV로 123k 컨텍스트에서 일관되게 50 tok/s를 얻었고, LM Studio로 약 28/32GB VRAM을 사용했다고 밝힘
- 35B A3B는 3배 빠르지만, 생성되는 코드 양이 3분의 1이어도 품질이 더 높은 27B를 선택할 만함

### 기존 최첨단 모델과의 비교
- [Artificial Analysis](https://artificialanalysis.ai/) 점수 비교에서 Qwen3.6-27B는 **37점**임
- 비교 표의 주요 항목은 다음과 같음
  - Gemma 4 31B: 29점, late 2024 수준, o1 / Claude 3.5 Sonnet
  - Qwen3.6-35B-A3B: 32점, early 2025 수준, o3 / Claude 4 Sonnet
  - Qwen3.6-27B: 37점, mid 2025 수준, GPT-5 / Claude Sonnet 4.5
  - DeepSeek-V4-Flash: 40점, late 2025 수준, GPT-5.2 / Claude Opus 4.5
- 추가 벤치마크는 [notes](https://github.com/stared/benching-local-llms-on-apple-silicon)에 있으며, 전반적인 흐름은 비슷함
- [Gemma 4 31B](https://deepmind.google/models/gemma/gemma-4/)는 로컬 코딩의 기본값처럼 쓰는 사람이 많아 비교에 포함됨
- 벤치마크와 온라인 반응 모두 Qwen 3.6 27B를 Gemma 4 31B보다 크게 선호함
- 단, **양자화 조건**에는 주의가 필요함
  - 8-bit 양자화는 결과에 큰 영향을 주지 않을 가능성이 큼
  - DwarfStar4는 DeepSeek V4 Flash에 2–4bit의 훨씬 공격적인 양자화를 사용하므로, 전체 모델보다 확실히 나쁨
  - 이 조건에서는 Qwen 3.6 27B가 DwarfStar4와 같거나 약간 더 나은 인상을 줌
  - 더 긴 컨텍스트 프로젝트에서는 DS4가 우위를 가질 수도 있음

### 로컬 모델 운영의 다음 단계
- 직접 모델을 실행하는 일이 점점 현실적인 선택지가 되고 있음
- 독점 frontier 모델의 상태가 이 흐름을 더 밀어붙일 수 있음
  - Claude Fable 5는 내려감
  - 다른 frontier 모델은 대규모 보조금 위에서 운영되며, 월 100달러 지불로 수천 달러어치 토큰을 쓰는 구조임
- 로컬 설정 모델은 필요에 맞게 **파인튜닝**할 수 있고, 외부에서 회수할 수 없음
- 기업은 독점 데이터와 민감 데이터를 위해 로컬 모델을 사용할 수 있음
- 개인은 오프라인 프로젝트나, 미국·중국에 깊은 비밀 또는 의료 데이터를 공유하고 싶지 않은 상황에서 로컬 모델을 활용할 수 있음
- [frontier-level open-weight GLM 5.2](https://artificialanalysis.ai/articles/glm-5-2-is-the-new-leading-open-weights-model-on-the-artificial-analysis-intelligence-index) 공개는 로컬 모델 흐름을 더 앞당김
  - Qwen 3.6은 징검다리였고, [GLM 5.2도 로컬 실행](https://unsloth.ai/docs/models/glm-5.2)이 가능함
  - GLM 5.2는 Macbook이나 단일 RTX 5090에서는 실행되지 않지만, 회사 예산으로는 감당 가능한 수준임
- 현재 최첨단보다 똑똑하면서 로컬 기기, 어쩌면 스마트폰에서도 실행 가능한 모델이 나올 수 있음
- 현재 모델은 원시 지능과 사실 지식을 같은 가중치에 결합하지만, 미래 모델은 지식을 **도구 호출**로 넘기며 둘을 분리할 가능성이 큼

## Comments


### Comment 60753

- Author: neo
- Created: 2026-06-30T07:23:44+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=48721903) 
- **MacBook Pro M5 128GB RAM**과 qwen3.6은 마음에 들지만, 로컬 LLM으로 진지하게 코딩할 생각이면 이 MacBook은 사지 않는 게 좋음  
  이유는 단순함: 손가락이 뜨거워지고 팬 소음 때문에 머리가 터질 듯함  
  실제로 쓰는 노트북에서 복잡한 작업을 돌리는 건 현실적이지 않고, 클램셸 모드로는 가능해도 AI 코딩이나 에이전트 작업 중에는 만지기 어렵다  
  Qwen3.6 27B/35B를 제대로 돌리고 싶다면 **MacMini M4 64GB**를 사서 지하실이나 최소 몇 미터 떨어진 곳에 두고 LAN이나 Tailscale로 접속하는 편이 낫고, 가격도 MacBook Pro의 거의 1/3 수준임
  - 같은 이유로 일반 **32GB 노트북**을 샀음  
    데스크톱 GPU에서 Qwen 27B나 Gemma 4 31B 같은 비교적 작은 모델만 돌려도 얼마나 시끄럽고 뜨거운지 알고 있음  
    Strix Halo는 큰 팬 하나라 시끄럽진 않지만 뜨거워지고, 노트북의 작은 팬들이 그 열을 빼내려면 결국 비명을 지를 수밖에 없음  
    어디서나 모델을 돌리는 노트북이라는 발상은 좋지만, 그건 클라우드 모델이 맡는 게 맞고, 데이터가 많이 오가지 않으니 큰 문제도 아님  
    프라이버시가 필요한 작업은 집의 큰 장비에 자체 호스팅 모델을 올리고 VPN으로 접속하면 됨  
    다만 **Gemma 4 12B QAT 4-bit**처럼 16GB 기기나 태블릿에서도 잘 도는 모델은 특정 작업에 매우 좋았고, 분류·식별·라벨링 같은 용도의 자체 호스팅 비전 모델로는 테스트한 것 중 최고였음  
    산문도 괜찮고 도구 사용도 제법 하지만, 7GB 안에 세상 지식이 많이 들어가진 않으니 조사에는 검색이 필요하고, 아주 단순한 코드를 넘어서는 코딩에는 쓰고 싶지 않음
  - DwarfStar 4에서 `--power` 플래그를 써보면 됨: [https://github.com/antirez/ds4#reducing-heat-power-usage-and...](<https://github.com/antirez/ds4#reducing-heat-power-usage-and-fan-noise>)
  - “손가락이 타고 소음 때문에 머리가 터진다”면 그냥 **Mac mini를 다른 방에 두면** 되는 거 아닌가 싶음  
    지난 반년 정도 노트북에서 코딩 에이전트를 YOLO 모드로 돌렸고, 대부분 로컬은 아니었지만 공포 없이 쓰는 방법은 에이전트 전용 Linux 사용자 `agent`를 따로 주는 것이었음  
    에이전트는 `/agent` 홈 디렉터리를 날려도 되지만 내 홈 디렉터리는 건드리거나 읽지도 못함  
    매번 `sudo`로 그 사용자에 들어가야 해서 별칭을 만들었고, 권한·소유권 문제가 생기면 하루에 한 번 고치는 함수로 처리함  
    그래도 번거로움이 있어서 전용 머신이 있었으면 그냥 root를 줬을 것 같고, 장난 삼아 Claude에게 $3 VPS의 root를 줬는데 잘 돌아가고 있음  
    몇 달 시행착오 끝에 결국 “그냥 Mac mini를 사라”를 처음부터 다시 발명한 셈임
  - **M4 Max**에서 로컬 LLM 작업을 pi로 시험했을 때, 지금까지 쓴 어떤 MacBook보다 뜨겁게 느껴졌음  
    몇 인치 떨어져 있어도 복사열이 느껴졌고, 써본 Intel MacBook보다도 더 뜨거운 느낌이라 중단했음  
    공급 문제와 가격 인상 때문에 노트북을 10년은 들고 있어야 할 수도 있어서 망가뜨리고 싶지 않았음
  - 정확히 그렇게 쓰고 있음: **Mini M4 Pro 64GB**와 qwen3.6 조합임  
    청력이 아주 좋진 않지만 팬 소리는 들었을 것 같은데 한 번도 못 들었고, 실제로 팬이 있는지 검색해봐야 했음

- 글은 **128GB MacBook Pro**에서 Qwen 3.6을 돌린 내용을 바탕으로 함  
  참고로 128GB MBP는 현재 $6699부터 시작함 [0]  
  프라이버시를 위해 그 프리미엄을 기꺼이 낼 사람도 있겠지만, MacBook Neo의 약 10배 비용이면 OpenRouter나 최첨단 연구소 API 크레딧을 꽤 많이 살 수 있음  
  [0]: [https://www.apple.com/shop/buy-mac/macbook-pro/14-inch-space...](<https://www.apple.com/shop/buy-mac/macbook-pro/14-inch-space-black-standard-display-apple-m5-max-chip-18-core-cpu-40-core-gpu-128gb-memory-2tb-storage>)
  - 계산은 부정하기 어렵지만, 나였다면 그렇게 선을 긋진 않겠음  
    **Gemma 4 12B** 같은 적당한 로컬 LLM을 돌릴 수 있는 머신을 갖는 건 정말 가치가 있음  
    MacBook 하나로 진지한 무인 에이전트 코딩을 얼마나 하게 될지는 모르지만, 로컬 모델, llama.cpp, LM Studio 등을 직접 만져보지 않았다면 이 분야를 이렇게 이해하지 못했을 것임  
    이 분야는 너무 크고, 지치고, 전문용어투성이이며, 50대가 넘은 입장에선 압도당하기 쉬웠음  
    중고 머신에 직접 설정해보고, API 호출을 보고, 용어를 이해하면서 비로소 손에 잡히기 시작했음  
    Neo는 이런 기회를 더 체감 가능하고 이해 가능한 것으로 만들기엔 너무 작음
  - Qwen 3.6 실험은 모두 **48GB Apple Silicon**이면 충분했음  
    더 공격적인 양자화를 쓰면 더 내려갈 수도 있다고 봄  
    경제적으로는 노트북에서 모델을 돌리는 게 큰 의미가 없고, 순수 전력 비용만 봐도 대규모로 생성되는 토큰 가격을 이기기 어려울 수 있음  
    그래도 이건 게임을 바꿀 **돌파구**임  
    예전에는 소비자 기기에서 이런 바이브 코딩이 어렵거나 비싼 게 아니라 아예 불가능했음
  - Qwen 3.6 27B 밀집 모델은 **DGX Spark**에서도 비슷한 성능으로 돌릴 수 있고 [1][2], 가격은 약 $4000임  
    Asus Ascent GX10도 여러 판매처에서 $3999임  
    이론적으로는 3090 두 장으로 48GB VRAM을 확보할 수도 있지만, MacBook Pro나 GB10에 비하면 공간을 많이 차지하고 열도 많이 냄  
    [1] [https://x.com/MiaAI_lab/status/2070859135399182444](<https://x.com/MiaAI_lab/status/2070859135399182444>)  
    [2] [https://github.com/MiaAI-Lab/Qwen3.6-27B-NVFP4-vLLM](<https://github.com/MiaAI-Lab/Qwen3.6-27B-NVFP4-vLLM>)
  - 언급된 모델은 **24GB 이상 VRAM**이면 쉽게 돌릴 수 있고, 16GB VRAM에서도 잘 도는 비슷한 모델들이 있음  
    여기서 128GB가 필수인 건 아님
  - 토큰이나 크레딧은 쓰면 사라지지만, **MacBook은 남음**  
    같은 MacBook에서 다른 모델도 돌릴 수 있음  
    사람들이 매달 SaaS에 태우는 돈을 보면 그 돈으로 5개월이면 MacBook 본전을 뽑는 경우도 있음  
    그리고 이건 단순한 “데이터 프라이버시” 문제가 아님  
    Claude를 쓰면 모든 것을 Anthropic에 보내는 셈이라 꽤 미친 일임

- 예시들이 ‘실제 업무’를 반영한다고 보긴 어려움  
  적어도 내가 실제 업무라고 여기는 건 아님  
  **제로샷 신규 프로젝트**를 맞히는 건 작은 모델에도 비교적 쉬움  
  쌓아야 할 문맥이 많지 않고, 학습 데이터의 비슷한 예제로 쉽게 되돌아갈 수 있기 때문임  
  완전히 새로운 것을 발명하라고 하지 않는 한 그럭저럭 해낼 가능성이 큼  
  진짜 테스트는 기존 코드베이스에서 일할 수 있느냐임  
  제한적으로 해본 실험에서 Qwen 3.5는 Rust+React 앱에선 괜찮았고, C# 모놀리스에선 덜 좋았음  
  못 쓸 정도는 아니지만 20분 만에 Claude로 돌아갈 만큼 별로였고, 클라우드 모델 접근을 잃고 Qwen만 써야 한다면 꽤 슬플 것 같음
  - “제로샷 신규 프로젝트를 맞히는 건 작은 모델에도 비교적 쉽다”는 말과 직접 관련은 없지만, 예전에는 **개념 증명 하나 띄우는 데 일주일**이 걸렸고 이런 문장은 순수한 공상과학처럼 들리던 시절이 있었음
  - 작은 모델을 평가할 때 **표준 예제 코드에서 벗어날수록** 약점이 더 잘 드러난다는 점은 과소평가됨  
    Qwen3.6은 어디에나 널린 단순 앱에서는 작은 모델치고 놀라운 결과를 냈음  
    React TODO 앱이나 shadcn 같은 인기 도구로 작은 보일러플레이트 앱을 만들라고 하면 꽤 그럴듯한 결과를 냄  
    하지만 흔한 작업을 벗어나 내 더 틈새 작업으로 들어가자 몇 시간 동안 맴돌다가 결국 신음 나오는 못 쓸 결과를 내놓았음  
    단순 리팩터링이나 아주 명확한 지시를 준 작은 작업에서 타이핑을 대신하게 하는 용도라면 꽤 잘함  
    하지만 긴 문맥 세션이나 비주류 주제로 들어가면 약점이 매우 뚜렷함  
    작은 하드웨어에 맞추려고 많이 쓰는 양자화도 문제를 악화시킴  
    온라인에서는 4-bit 양자화가 거의 무손실이고 `q8_0/q8_0` 키-값 캐시 양자화도 실질 손실이 없다는 분위기가 있지만, 실제 프로젝트에서는 이런 양자화들이 긴 문맥 성능을 상당히 떨어뜨렸음
  - 업무 개발에 pi와 예전의 codex cli를 **Qwen 3.6 27B 100k 문맥**과 함께 써왔는데, 잘 동작하는 정도에 매우 놀랐음  
    완벽하진 않지만 평소 개발 흐름을 가속하기엔 충분했고, 주로 Go와 C# 작성에 씀
  - **Gemma 4 12B급 모델**로 잘 되는 작업이 몇 가지 있음  
    작은 라이브러리들로 구성된 큰 프로젝트를 설계해서 각각 독립적으로 코딩·테스트 가능하게 만들기, 오래된 코딩 프로젝트 정리하기, README 추가, 코드 주석 달기, 새 API 사용 예시를 보여주고 API 사용처 업데이트하기 같은 일들임  
    모두 소규모 작업임  
    큰 통합 프로젝트에서는 DeepSeek v4 Pro 상용 API가 매우 저렴하고 좋은 결과를 내는 데 도움이 되고 있음
  - 내 경험상 작은 모델들은 기본적인 프로젝트 개념에서도 **신규 프로젝트 시작**을 힘들어함  
    내려야 할 결정이 너무 많고, 그걸 잘하지 못함  
    똑똑하게 해주길 기대하지 않는다면 기존 코드 수정이 훨씬 쉬움  
    “X 기능을 추가해”라고 하고 코드베이스를 탐색하게 두지 말고, 관련 파일을 지정한 뒤 “이 코드에 X 기능을 추가하는 게 목표고 Y 지침을 따르라”고 말하는 편이 낫다  
    가장 어려운 결정 부분을 사람이 처리하면, 모델은 지시를 따르며 선 안에서 칠하기만 하면 됨

- 오프라인에서 **48GB 메모리 MacBook Pro**로 이 모델을 돌리면 작업은 수행하지만, 당연히 Claude나 Codex보다는 느림

- 수천 달러짜리 **128GB MBP**를 사서 최첨단보다 객관적으로 훨씬 못한 모델을 돌리는 걸 보면 정신이 이상해지는 느낌임  
  128GB M5 MAX에 쓰는 돈이면 여기서는 새 차도 살 수 있음  
  내가 뭘 놓치고 있는 건지 모르겠고, 다른 나라 개발자들은 정말 이렇게 다른 세계에 사는 건가 싶음  
  내가 사는 곳에서는 미국보다 절대 가격도 더 비싸다는 걸 알고 있고, 그래서 더 그렇게 느껴짐  
  제정신인 사람이 다른 나라에서 이런 걸 샀다면 여기 도착하자마자 팔아서 돈을 아낄 것 같음
  - 노트북 폼팩터로 가는 건 어리석다고 봄  
    작년 가을에 중고 **3090 두 장**으로 워크스테이션을 맞췄고, 각각 850캐나다달러를 냈지만 지금은 최저가가 1200 정도임  
    48GB VRAM이면 꽤 합리적이고, Qwen 3.6 27B를 텍스트 말뭉치에서 지식 그래프를 만들고 추론하는 여러 작업에 쓰고 있음  
    OpenRouter에서 가능한 것들과 비교해봤는데, 토큰 비용 $0 기준으로 로컬 27B Qwen은 이기기 어렵다  
    더 느리고 사무실이 몇 도 더 따뜻해지긴 하지만, 아무도 플러그를 뽑을 수 없고, 어깨너머로 감시하지 않으며, 결과는 최첨단 모델들과 비슷한 수준임  
    비슷한 크기의 Qwen 3.7이 기대됨  
    지금까지 본 바로는 이전 버전보다 큰 도약임
  - 이 가격대 사람들이 왜 GPU가 달린 데스크톱 대신 **Mac 노트북**을 사는지 이해가 안 됨  
    휴대 가능하다는 걸 과시하려는 건가 싶음
  - 내 장부상 이미 가치가 꽤 오르고 있는 **자산**이고, 앞으로 7~10년 동안 산 가격에 되팔 수 있을 가능성이 큼  
    Apple 월 할부라 $5k가 1년 동안 월 $416이고 이자도 없음  
    DS4급 모델과 다른 공개 모델을 양자화 없이, 때로는 여러 개 동시에 돌릴 수 있음  
    대만·중화권 전쟁이나 전 세계 연결성, 상용 모델의 신뢰성에 관한 어두운 시나리오가 터지면 그 가치를 상상해보라  
    역사상 다른 시점에 만들기 매우 어려운 장비이고, 더 많이 샀으면 좋았을 것 같음  
    신호와 가격 추세, 품절을 실시간으로 봤고, 여력이 있는 다른 사람들도 분명 비축하고 있을 것임
  - 맞음, 많은 사람에게 **6천 달러**는 푼돈임
  - 그렇다  
    당신 쪽 사람들은 미국인보다 소득이 한 자릿수 이상 낮음

- 로컬 모델을 돌릴 하드웨어가 비싸다는 이야기는 많은데, Apple 장비에 관심 없다면 꽤 가성비가 괜찮아 보이는 **Intel Arc Pro B50/B60/B70**은 별로 언급되지 않음  
  최근 B70 32GB RAM 모델을 미국 밖 거주지 기준 판매세와 관세 포함 약 $1200에 샀고, 다른 지역에선 더 쌀 수도 있음  
  메모리 대역폭은 608GB/s임  
  M5 Max 32코어 GPU는 460GB/s, 40코어 GPU는 614GB/s이고, 3090은 약 900GB/s로 여전히 빠르지만 동급 Nvidia 카드보다 훨씬 싸게 32GB VRAM을 얻음  
  5090의 약 1/3 대역폭을 1/3 가격에 얻되 같은 32GB VRAM을 갖는 셈이라, 더 큰 양자화 모델과 어느 정도 문맥을 낮은 예산으로 돌리고 싶다면 매력적인 절충임  
  아직 로컬 모델을 탐색 중이라 테스트에 $5000~$10000 상당을 쓰고 싶진 않고, 더 저렴하게 실험할 수 있다면 약간 느린 성능은 괜찮음  
  처음엔 70W TDP의 B50 16GB를 사서 내 스택에서 Intel 카드를 시험했는데 Ubuntu와 Vulkan에서 쉽게 동작했음  
  성가시고 못 쓸 물건이라는 글을 많이 봤지만, 대개 SYCL 관련인 듯하고 SYCL이 Vulkan보다 성능이 나아 보이지도 않는데 굳이 쓸 이유가 없어 보임  
  B50은 세금과 관세 포함 $370이었고, 말 그대로 Vulkan 라이브러리를 `apt install`하니 26.04의 기본 xe 드라이버와 llama.cpp의 Vulkan 빌드에서 동작했음  
  **SR-IOV PF/VF**도 qemu/kvm에서 별도 꼼수 없이 동작하고, 산 뒤 fwupdmgr가 펌웨어를 두 번 업데이트했으니 Intel이 이 제품들을 실제로 지원하려는 듯함

- 지금 스위트 스폿은 **3090 두 장**과 PCIe 4 메인보드, 64~128GB DDR4 RAM 조합이라고 봄  
  지금 $3k 정도로 맞출 수 있고, Qwen 27B/35B를 int4에서 엄청 빠르게 돌림

- 참고로 **5090**에서 gemma4 31B를 돌리고 있는데 꽤 훌륭함  
  QAT, MTP, 128k 문맥을 씀  
  Qwen 3.6 27B도 좋았지만 Gemma4가 조금 과소평가된 것 같음
  - 내 경험도 비슷함  
    4090에서 llm.cpp와 unsloth 모델로 **gemma4 31B**를 돌리고 있음  
    Qwen 3.6도 함께 쓰는데, Qwen은 더 빨라서 사고와 계획에 좋고, Gemma4는 첫 시도에서 생성 코드 품질이 훨씬 높음  
    Rust, C++, C# 기준으로 병합해도 괜찮다고 느끼는 수준까지 필요한 수정이 더 적음
  - Gemma4가 턴을 제대로 끝내게 만들지 못하고 있음  
    항상 갑자기 끊기거나 잘못된 도구 호출을 만들며, 아마 oMLX나 Opencode 설정을 내가 잘못한 것 같음
  - 좋음  
    4080 Super에서 **Qwen 3.5 9B Q6_M**와 Gemma4 12B Q4_K_M 사이를 오가며 씀  
    둘은 속도가 비슷하고 서로의 계획이나 변경분을 검토하게 할 수 있음  
    작은 프로젝트에서는 꽤 유능하고, 조금 더 어려운 작업에는 더 나은 양자화로 올릴 수 있음

- **통합 메모리 컴퓨터**를 사러 가기 전에, 예를 들어 DGX Spark, Mac, Ryzen AI Max 395 / Strix Halo 같은 장비에서는 밀집 모델이 대체로 느리다는 점을 알아야 함  
  전용 GPU가 밀집 모델을 훨씬 잘 돌림  
  살 장비의 벤치마크를 찾아보는 게 좋고, 정말 이런 장비를 원한다면 Qwen 3.6 35B나 다른 희소 MoE 모델을 돌리는 편이 더 나음

- **M3 Max 64GB RAM 16인치 MacBook Pro**에서 opencode로 qwen 3.6 35b a3b를 돌려왔고, 로컬 계획·코딩 용도로 아주 좋았음  
  솔직히 64GB가 이렇게 강력한 걸 보니 128GB로 미래 대비를 했어야 했나 싶을 때가 있음  
  반면 qwen보다 살짝 큰 모델 때문에 벽에 부딪힌 적도 아직 없음
  - Windows 노트북에서도 **Qwen 3.6 35B A3b**를 돌리고 있는데, 64GB RAM과 4GB GPU 조합으로 최소한 참을 만함  
    빠르진 않고 초당 몇 토큰, 읽는 속도보다 느리지만 작업을 던져두고 나중에 돌아오면 됨  
    몇 년 전 eBay에서 산 $600 노트북이지 $6000짜리 머신이 아님  
    통합 메모리 Mac이나 거대한 24GB 데스크톱 GPU들이 10~20배 비용에 걸맞게 초당 수십~수백 토큰을 내고 있는지 궁금함
  - 응답 속도가 어느 정도인지 궁금함, 초당 토큰 기준으로  
    경험상 20~35GB 모델과 키-값 캐시만으로도 기본 64GB를 많이 먹기 때문에, 브라우저와 편집기 등 다른 것들을 계속 띄워두려면 128GB 전체가 분명 도움이 됨