# GLM-5.2를 로컬에서 실행하는 방법

> Clean Markdown view of GeekNews topic #30760. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=30760](https://news.hada.io/topic?id=30760)
- GeekNews Markdown: [https://news.hada.io/topic/30760.md](https://news.hada.io/topic/30760.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-06-23T19:44:31+09:00
- Updated: 2026-06-23T19:44:31+09:00
- Original source: [unsloth.ai](https://unsloth.ai/docs/models/glm-5.2)
- Points: 1
- Comments: 1

## Topic Body

- Z.ai의 새 오픈 모델 **GLM-5.2**는 744B 파라미터, 40B 활성 파라미터, 1M 컨텍스트 윈도를 갖춘 대형 모델을 로컬에서 다루는 사례라는 점이 핵심임
- Unsloth는 **Dynamic GGUF**로 로컬 실행 경로를 제공하며, 권장 2-bit `UD-IQ2_M` quant는 239GB 디스크와 최소 245GB RAM급 환경을 요구함
- Dynamic 1-bit는 약 **76.2% top-1 accuracy**와 86% 크기 감소, Dynamic 2-bit는 약 82% accuracy와 84% 크기 감소를 보여 “작아진 비율만큼 성능이 나빠진다”는 해석과 다름
- 실행 방법은 **Unsloth Studio**와 `llama.cpp` 두 갈래이며, Studio는 MacOS·Windows·Linux에서 모델 검색·다운로드·실행, RAM offloading, multiGPU 감지를 지원함
- 긴 컨텍스트를 실제로 쓰려면 `llama.cpp`의 **KV cache quantization**으로 메모리를 줄여야 하며, `q4_0`는 약 3.5배, `q4_1`은 약 3.2배 긴 컨텍스트를 가능하게 함

---

### GLM-5.2 모델 개요
- **GLM-5.2**는 Z.ai의 새 오픈 모델이며, Unsloth Dynamic GGUF를 통해 로컬 하드웨어에서 실행할 수 있음
- 모델 사양은 다음과 같음
  - 전체 파라미터: **744B**
  - 활성 파라미터: **40B**
  - 최대 컨텍스트 윈도: **1,048,576**
- long-horizon coding, reasoning, agentic tasks에서 SOTA 성능을 제공한다고 소개됨
- Artificial Analysis와 여러 벤치마크 기준으로 **Claude 4.8 Opus**, **GPT-5.5**, **Gemini 3.1 Pro**와 동급 성능을 보인다고 함
- Unsloth는 Z.ai로부터 **day-zero access**를 제공받았다고 밝힘
- GLM-5.2용 GGUF 모델 파일은 Hugging Face의 [GLM-5.2-GGUF](https://huggingface.co/unsloth/GLM-5.2-GGUF)에서 받을 수 있음

### 권장 quant와 메모리 요구사항
- 접근성과 정확도 균형을 위해 **2-bit dynamic quant**인 `UD-IQ2_M` 사용을 안내함
  - 디스크 사용량: **239GB**
  - 256GB unified memory Mac에 직접 들어감
  - MoE offloading을 쓰면 **1x24GB GPU + 256GB RAM**에서도 잘 동작한다고 함
- 1-bit quant는 **223GB RAM**에 들어가며, 8-bit는 **810GB RAM**이 필요함
- 추론 하드웨어 요구사항 표에서 총 메모리는 **RAM + VRAM** 또는 unified memory를 뜻함
  - 표시된 총 메모리 수치: 223GB, 245GB, 290–360GB, 372–475GB, 570GB, 810GB
- 최적 성능을 내려면 VRAM과 시스템 RAM을 합친 사용 가능 메모리가 **quantized model file size**를 충분히 넘어야 함

### Thinking 모드와 샘플링 설정
- GLM-5.2는 3개의 **thinking mode**를 제공함
  - non-thinking
  - thinking High
  - thinking Max
- 복잡한 작업에는 **Max Thinking** 사용을 권장함
- Unsloth Studio에서는 UI로 High/Max Thinking과 non-Thinking을 토글할 수 있음
- 대부분의 사용 사례용 설정은 다음과 같음
  - `temperature = 1.0`
  - `top_p = 0.95`
  - 다른 모드에서는 `top_p = 1.0`
- GLM-5.2는 기본적으로 reasoning을 사용하며, `reasoning_effort`는 `"high"`, `"max"` 또는 비활성화를 선택할 수 있음
- thinking 비활성화 예시는 다음과 같음
  - 일반 셸: `--chat-template-kwargs '{"enable_thinking":false}'`
  - Windows PowerShell: `--chat-template-kwargs "{\"enable_thinking\":false}"`
- `llama.cpp`에서도 `--reasoning on` 또는 `--reasoning off`를 사용할 수 있음
- reasoning effort 설정 예시는 다음과 같음
  - `--chat-template-kwargs '{"reasoning_effort":"max"}'`
  - `--chat-template-kwargs '{"reasoning_effort":"high"}'`
  - `--chat-template-kwargs '{"enable_thinking":false}'`

### Dynamic GGUF 정확도와 KLD 해석
- Unsloth는 GLM-5.2-GGUF quantization 정확도를 평가하기 위해 **KLD(KL Divergence)** 벤치마크를 사용함
- Dynamic 4-bit `UD-Q4_K_XL`과 Dynamic 5-bit `UD-Q5_K_XL`은 대부분 lossless라고 안내됨
- 더 작은 quant도 중요한 레이어는 higher precision으로, 덜 중요한 레이어는 low bits로 두는 **동적 정밀도 배치** 방식으로 동작함
- pure top-1% accuracy 기준 수치는 다음과 같음
  - Dynamic 1-bit: 약 **76.2% accuracy**, 86% size reduction
  - Dynamic 2-bit: 약 **82% accuracy**, 84% size reduction
  - 정확도 비교: {b:76,82}
- 86% 작다는 말은 86% 나쁘다는 뜻이 아니며, Dynamic 1-bit는 전체 1.5TB 모델보다 약 24% 낮은 정확도라는 해석이 붙음
- “76% accuracy”는 “The capital of France is” 같은 질문에서 Paris 76%, Sydney 24%를 고른다는 뜻이 아님
  - 해당 예시에서는 Paris가 항상 100%, Sydney가 0%라고 함
  - 76% 수치는 전체 corpus의 filler words와 stop words 분포 변화까지 포함함
- “Create a novel” 프롬프트처럼 여러 올바른 시작이 가능한 경우에는 baseline과 quantized 모델의 토큰 분포가 달라질 수 있음
  - baseline이 `[I]`를 100% 선택할 수 있고, quantized 모델이 `[I]` 76%, `[The]` 24%처럼 분포를 나눌 수 있음
  - 이 수치는 24% 확률로 gibberish나 잘못된 출력을 낸다는 뜻이 아님
- KLD는 baseline인 BF16 또는 Q8_0 확률과 quantized version 확률 사이의 **거리**임
  - quantization의 목표는 `f(q(W))`와 `f(W)` 사이의 KL divergence 평균을 최소화하는 것임
  - `f`는 language model forward, `q`는 quantization operation, `W`는 모델 파라미터 또는 weights임
  - KLD가 0이면 모델을 완벽히 재구성한 것임
- 전체 학습 corpus 예시인 15T tokens 전체에 대해 KLD를 실행하는 것은 비용이 커서, Unsloth는 mean KLD와 작은 대표 subset sampling으로 최적화함
- 99.9% KLD도 일반적으로 좋다고 하며, 4bit 이상부터 더 큰 uplift가 있어 massive out-of-distribution tasks에는 Dynamic 4-bit가 아마 가장 적합하다고 함

### Unsloth Studio로 실행하기
- [Unsloth Studio](https://unsloth.ai/docs/models/glm-5.2#run-glm-5.2-in-unsloth-studio)는 local AI용 **오픈소스 web UI**이며 GLM-5.2 실행을 지원함
- 주요 기능은 다음과 같음
  - MacOS, Windows, Linux에서 로컬 모델 실행
  - GGUF와 safetensor 모델 검색, 다운로드, 실행
  - RAM offloading과 multiGPU setup 자동 감지
  - `llama.cpp`를 통한 빠른 CPU + GPU inference
- 설치 명령은 다음과 같음
  - MacOS, Linux, WSL: `curl -fsSL https://unsloth.ai/install.sh | sh`
  - Windows PowerShell: `irm https://unsloth.ai/install.ps1 | iex`
- 실행 명령은 다음과 같음
  - `unsloth studio -H 0.0.0.0 -p 8888`
  - 실행 후 브라우저에서 `http://127.0.0.1:8888` 또는 사용자별 URL을 열면 됨
- HTTPS로 Studio를 안전하게 실행하는 방법도 제공됨
  - Windows, Mac, Linux에서 `unsloth studio --secure`
  - 무료 Cloudflare tunnel을 사용함
- 첫 실행 시 계정 보안을 위해 **password**를 만들고 이후 다시 sign in해야 함
- Studio Chat 탭에서 검색창에 `GLM-5.2`를 검색한 뒤 원하는 model과 quant를 다운로드함
- 모델 실행 전 충분한 compute가 있는지 확인해야 함
- Studio에서는 inference parameters가 자동 설정되어야 하지만, 사용자가 context length, chat template, 기타 설정을 수동으로 바꿀 수 있음
- 추가 정보는 [Unsloth Studio inference guide](https://unsloth.ai/docs/new/studio/chat)에 있음

### llama.cpp로 실행하기
- [llama.cpp](https://unsloth.ai/docs/models/glm-5.2#run-in-llama.cpp) 튜토리얼은 `UD-IQ2_M` quant 실행을 다루며, 최소 **245GB RAM**이 필요함
- 빠른 로컬 inference를 위해 [llama.cpp](https://github.com/ggml-org/llama.cpp)를 사용함
- GPU가 없거나 CPU inference만 원하면 `-DGGML_CUDA=ON`을 `-DGGML_CUDA=OFF`로 바꿈
- Apple Mac / Metal 기기는 `-DGGML_CUDA=OFF`로 진행하면 되며, Metal support는 기본 활성화되어 있음
- 빌드 절차는 다음 흐름임
  - `apt-get update`
  - `apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y`
  - `git clone https://github.com/ggml-org/llama.cpp`
  - `cmake ... -DGGML_CUDA=ON`
  - `cmake --build ... --target llama-cli llama-mtmd-cli llama-server llama-gguf-split`
  - `cp llama.cpp/build/bin/llama-* llama.cpp`
- `llama.cpp`는 `ollama run`처럼 모델을 직접 load 및 download하는 데 사용할 수 있음
- 원하는 quantization type 예시로 `UD-IQ2_M`을 선택하고, `export LLAMA_CACHE="unsloth/GLM-5.2-GGUF"`로 저장 위치를 강제할 수 있음
- `llama.cpp`의 직접 다운로드 과정은 매우 느릴 수 있어 수동 다운로드 방식이 더 낫다고 안내함

### 수동 다운로드와 실행 예시
- 더 빠른 수동 다운로드에는 **huggingface_hub**를 사용함
  - `pip install huggingface_hub`
  - `hf download unsloth/GLM-5.2-GGUF --local-dir unsloth/GLM-5.2-GGUF --include "*UD-IQ2_M*"`
- near full precision용으로는 `--include "*UD-Q8_K_XL*"`을 사용할 수 있음
- 다운로드가 멈추면 [Hugging Face Hub, XET debugging](https://unsloth.ai/docs/basics/troubleshooting-and-faqs/hugging-face-hub-xet-debugging)을 확인하라고 안내함
- Dynamic 1-bit 다운로드 명령은 다음과 같음
  - `hf download unsloth/GLM-5.2-GGUF --local-dir unsloth/GLM-5.2-GGUF --include "*UD-IQ1_S*"`
- conversation mode의 모델 경로는 다음과 같음
  - 2-bit: `unsloth/GLM-5.2-GGUF/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf`
  - 1-bit: `unsloth/GLM-5.2-GGUF/UD-IQ1_S/GLM-5.2-UD-IQ1_S-00001-of-00006.gguf`
- `llama-cli` 실행 예시는 2-bit GGUF 첫 shard를 `--model`에 지정하고 다음 파라미터를 사용함
  - `--temp 1.0`
  - `--top-p 0.95`
  - `--min-p 0.01`
- 직접 실행 예시에는 `-hf unsloth/GLM-5.2-GGUF:UD-IQ2_M`도 사용됨

### 생성 예시로 확인한 동작
- 문서에는 2-bit GLM-5.2가 **tool-calling**과 SVG generation을 수행하는 예시가 포함됨
- `llama-cli` 실행 후 “short Flappy Bird game” 생성을 요청한 결과가 이어짐
- 생성된 단일 HTML/JavaScript 게임은 `Sunset Flier`라는 이름을 사용함
  - `canvas`, 시작 화면, 게임 오버 화면, HUD 점수, `NEW BEST!`, `RETRY` 버튼을 포함함
  - 외부 자산 없이 **Web Audio API**로 `flap`, `score`, `hit`, `die` 효과음을 생성함
  - 게임 상태는 `READY`, `PLAYING`, `DYING`, `OVER` 네 단계로 관리됨
  - 최고 점수는 `localStorage.getItem('sunsetFlierBest')`와 `localStorage.setItem()`으로 저장됨
- 게임 로직에는 중력, 플랩 임펄스, 무작위 파이프, 충돌, 파티클, 화면 흔들림, 메달 시스템이 포함됨
  - `GRAVITY = 0.42`
  - `MAX_FALL = 9`
  - `PIPE_W = 68`
  - `PIPE_GAP = 180`
  - `PIPE_SPEED = 2.6`
  - `PIPE_SPACING = 220`
- 입력은 마우스, 터치, 키보드 `Space`, `ArrowUp`, `Enter`를 지원함
- 이 게임 예시는 **1-bit quantization**에서도 잘 작동했고 소리도 정상적으로 동작했다는 맥락으로 제시됨

### 긴 컨텍스트와 KV cache quantization
- `llama.cpp`에서 긴 컨텍스트를 활용하려면 **KV cache quantization**으로 메모리 사용량을 줄여야 함
- `llama.cpp`는 최근 KV cache quantization에 더 높은 정확도를 위한 기법을 추가했으며, 관련 PR은 `https://github.com/ggml-org/llama.cpp/pull/21038`임
- 지원되는 KV cache dtype은 다음과 같음
  - `f32`
  - `f16`
  - `bf16`
  - `q8_0`
  - `q4_0`
  - `q4_1`
  - `iq4_nl`
  - `q5_0`
  - `q5_1`
- 기본값은 `f16`임
- `q4_0`는 weight당 약 4.5비트이므로 컨텍스트 길이를 `16 / 4.5`, 약 **3.5배** 늘릴 수 있음
  - 예시로 기존에 10K를 지원하던 모델은 35K까지 가능 범위에 들어올 수 있음
- `q4_1`은 shifting parameter가 추가되어 더 나을 가능성이 있고, weight당 5비트라 약 **3.2배** 긴 컨텍스트를 제공함
- KV cache quantization 실행 예시는 GLM-5.2 GGUF 모델과 샘플링 파라미터를 지정함
  - 모델 경로: `unsloth/GLM-5.2-GGUF/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf`
  - `--temp 1.0`
  - `--top-p 0.95`
  - `--min-p 0.01`
  - `--cache-type-k q4_1`
  - `--cache-type-v q4_1`

### 벤치마크 표에서 확인 가능한 수치
- 문서에는 GLM-5.2 벤치마크 표가 이어지지만, 제공된 내용에는 열 헤더가 없어 각 숫자가 어떤 모델 또는 설정에 대응하는지는 확인할 수 없음
- Reasoning 벤치마크에는 다음 행과 수치가 포함됨
  - `HLE`: 40.5, 49.8*, 41.4*, 45, 31, 41.4, 37, 37.7
  - `AIME 2026`: 99.2, 95.7, 98.3, 98.2, 95.3, 97, -, 94.6
  - `GPQA-Diamond`: 91.2, 93.6, 93.6, 94.3, 86.2, 90, 93, 90.1
- Coding 벤치마크에는 다음 행과 수치가 포함됨
  - `SWE-bench Pro`: 62.1, 69.2, 58.6, 54.2, 58.4, 60.6, 59, 55.4
  - `NL2Repo`: 48.9, 69.7, 50.7, 33.4, 42.7, 47.2, 42.1, 35.5
  - `Terminal Bench 2.1 (Terminus-2)`: 81.0, 85, 84, 74, 63.5, 75, 65, 64
- Agentic 벤치마크에는 다음 행과 수치가 포함됨
  - `MCP-Atlas (Public Set)`: 76.8, 77.8, 75.3, 69.2, 71.8, 76.4, 74.2, 73.6
  - `Tool-Decathlon`: 48.2, 59.9, 55.6, 48.8, 40.7, -, -, 52.8

## Comments


### Comment 60221

- Author: neo
- Created: 2026-06-23T19:44:32+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=48636377) 
- **Q4_K_XL**을 돌리고 있음. 약 **6tk/sec**를 내려면 RAM 512GB와 RTX 3090 2장, `llama.cpp -cmoe`면 충분함  
  지금은 구린 DDR4 2400MHz라서 그렇고, 3200MHz면 9tk/sec 정도까지 올라갈 듯함. CPU도 32코어 EPYC라 괜찮은 수준인데, 더 좋은 64코어면 11tk/sec까지 갈 수 있어 보임  
  하드웨어 가격이 미치기 전에 예산형으로 맞췄고 매일 후회하지만, 그래도 이 모델을 집에서 돌릴 수 있다는 건 훌륭함. 계획 세우기나 필요한 맥락을 다 모은 뒤 원샷 프롬프트에 좋음  
  전체 하드웨어 비용은 조립 당시 2,400달러였고, 발품을 팔면 이런 모델을 집에서도 돌릴 방법이 있음. 왜 그러냐거나 클라우드 API 쓰면 얼마나 아끼냐는 질문을 자주 받지만, Fable 사태가 **독립적으로 운영하는 것**의 가치를 보여줬다고 봄  
  unsloth 팀 고맙고, Q4_K_XL은 탄탄함. 양자화 모델을 받을 거라면 들어가기만 한다면 **K_XL 변형**을 받는 게 좋음
  - 이런 **홈브루 실험**으로 가능 범위를 밀어붙이는 사람들에게 박수를 보냄. 암호화폐처럼 AI도 장사꾼 소음에 묻혀 있지만, 회복탄력성을 키우는 이야기는 거의 없음  
    오픈소스 모델을 전동칫솔이나 Tamagotchi에 욱여넣으려는 연구자들도 마찬가지로 멋짐
  - 그 부하를 계속 돌리면 최소 **600W**라 하루 약 14kWh가 됨. kWh당 0.2달러면 하루 2.80달러, 전기 운영비만 연 1,000달러쯤 듦  
    프라이버시나 직접 소유하는 만족감이 꼭 필요한 게 아니라면, 하이퍼스케일러에 돈 내는 편이 더 싸고 편하고 초당 토큰도 훨씬 빠름  
    그래도 방향성은 마음에 들고, 2년 뒤에는 어떤 자가 호스팅 하드웨어가 나올지 기대됨
  - 거의 같은 구성을 갖고 있음. **RTX 3090 2장**, 조금 더 빠른 DDR4 512GB, 64코어 EPYC 구성임 [0]  
    꽤 즐겁게 쓰고 있고 이 모델도 빨리 돌려보고 싶음  
    로컬 모델 실행 말고도 이 장비를 주 원격 개발 플랫폼으로 사용함. 모든 Claude Code 세션을 이제 거기서 `tmux`로 돌리고 있음  
    계속 뜨거운 노트북을 만지지 않아도 돼서 손가락이 행복함. Claude Code가 배터리를 엄청 먹는다는 점도 있음  
    [0] [https://medium.com/@rathko/i-built-an-epyc-64-core-512gb-ram...](<https://medium.com/@rathko/i-built-an-epyc-64-core-512gb-ram-48gb-vram-llm-server-in-my-apartment-60a8b8a2d355>)
  - “돌리는 데 필요한 건 이 정도”라는 표현은 2,400달러에 샀다면 맞을 수 있지만, 지금 총가격은 **1만 달러**에 훨씬 가까움  
    RAM만 거의 5,000달러, GPU가 각각 2,000달러쯤이라 현재 기준으론 꽤 비싼 하드웨어임
  - 내가 이해하기로는 이 모델에 대한 `llama.cpp` 구현은 아직 **DSA 희소 어텐션** 지원이 빠져 있어서 꽤 미완성임  
    그래서 학습 때 쓰지 않은 다른 메커니즘으로 모델을 돌리게 되고, 품질과 성능이 낮아진다는 결과도 있었음  
    어쨌든 GLM 5.2는 여러 면에서 DeepSeek V4 계열만큼 흥미롭지는 않다고 봄. DeepSeek V4는 더 진보한 어텐션 메커니즘을 써서 특히 긴 문맥에서 KV 캐시 메모리를 많이 아낄 수 있음  
    그 결과 소비자용 플랫폼에서도 넓은 배치 처리가 가능해짐. GLM에는 그게 없고, 기저 성능 구조 면에서는 Kimi 2.6과 대체로 비슷하게 느껴짐. 둘 다 일반 하드웨어에서 풀 품질로 합리적으로 돌리기엔 조금 너무 무거움

- 거의 됐음. 내 장비는 **RAM 192GB + RTX 3090 24GB**인데 이걸 거의 돌릴 수 있을 뻔함  
  MoE 오프로딩에는 VRAM 24GB와 RAM 256GB가 필요하다고 나옴  
  [https://unsloth.ai/docs/models/glm-5.2#usage-guide](<https://unsloth.ai/docs/models/glm-5.2#usage-guide>)  
  예전 스레드에서는 누군가 하드웨어에 50만 달러가 든다고 했음  
  [https://news.ycombinator.com/item?id=48629970](<https://news.ycombinator.com/item?id=48629970>)
  - **50만 달러**는 엄청난 과대평가임. FP8이나 BF16에서 대규모 동시성을 노린다면 그럴 수는 있음  
    NVFP4로 적당한 속도, 대략 120 tok/s와 동시성은 현재 가격 기준 **8만~9만 달러** 선에서도 가능하고, 더 낮을 수도 있음  
    그 돈이면 RTX 6000 PRO Blackwell 6장, 괜찮은 CPU와 메인보드, 전원공급장치를 살 수 있음. VRAM은 576GB임  
    디코드 40 tok/s, 프리필 약 1200 tok/s로 괜찮다면 5만 달러 아래로도 가능함
  - 2비트로는 좋은 결과가 나오기 어려움. 코딩에 이상적인 범위는 적어도 **Q8**임
  - 이번 붐이 90년대 같은 **컴퓨팅 하드웨어 발전**을 다시 촉발하길 바라고 있음  
    지난 20년 동안 하드웨어가 상대적으로 정체된 이유 중 하나는 기업들이 하드웨어 교체를 정당화할 사용처가 부족했기 때문이라고 느낌  
    지난 15년 동안 돈과 에너지의 대부분은 모바일로 갔음  
    저렴한 로컬 추론이 서버, 데스크톱, 노트북 제조사들이 다시 움직이는 데 필요한 수익원이 될 수도 있음
  - RAM은 있지만 VRAM이 없음. **24GB RAM의 3090**으로 어떤 속도나 tok/s를 기대할 수 있을까?  
    24GB RAM이 있는 GPU를 하나 사볼까 조금 끌림
  - 재미삼아 Gemini에 물어봤더니, 양자화하지 않은 상태에서 괜찮은 처리량을 내려면 **50만 달러**라고 답했음

- “들어간다”는 말은 RAM 256GB에 들어간다는 뜻이지만, 심하게 양자화된 상태이고 여전히 매우 느리게 돌 것임  
  헤드라인 숫자는 토큰 생성 속도가 아니라 **프롬프트 처리 속도**임  
  10 tok/s가 나오고 API가 20~30 tok/s라면 겉보기엔 그렇게 나빠 보이지 않지만, Mac Studio나 전체를 GPU에 올리지 않는 장비는 순수 GPU 구성보다 프롬프트 처리가 20~50배 느림  
  이게 결국 GPU에 **5만 달러**를 쓰지 않으면 실제로는 못 쓰게 만드는 부분임. 게다가 여전히 심하게 양자화된 모델을 쓰게 됨
  - Nvidia의 Spark 같은 장비는 **통합 RAM 128GB**가 있음  
    이런 장비용 이중 포트 버전도 있음: [https://www.nvidia.com/content/dam/en-zz/Solutions/networkin...](<https://www.nvidia.com/content/dam/en-zz/Solutions/networking/ethernet-adapters/connectx-7-datasheet-Final.pdf>)  
    즉 2 x 100GB/s 포트이고, 어쩌면 2 x 200GB/s일 수도 있음. 직접 손에 넣어보면 더 알게 될 듯함  
    이런 장비들은 클러스터링도 가능함. 2대나 3대는, IP 서브넷 2개를 쓰면 꽤 명확함. 4대 이상은 네트워크 지연 시간이 얼마나 영향을 주는지에 따라 스위치가 필요할 수도 있음  
    Apple은 RAM을 많이 넣은 M 시리즈를 잊어버린 것 같음. Apple 매장에서 통합 RAM 96GB 넘는 구성을 못 찾겠고, 그마저도 신장 하나값임

- 여러 방향에서 동시에 밀어붙이고 있음: GB10을 쓰는 새 AI 데스크톱은 비교적 저렴하고 클러스터링으로 **VRAM 1TB**를 구성할 수 있음  
  Nvidia, AMD, Intel, Cerebras 등이 새 하드웨어를 밀고 있고, GLM 5.2 같은 오픈소스 모델은 말도 안 되게 좋아지고 있음  
  DeepSeek V4 Flash 같은 플래시 모델도 매우 좋아지고 있고, 양자화도 발전 중임  
  어려운 일에는 큰 모델, 잡일에는 작은 모델처럼 서로 다른 모델을 쓸 수 있는 하네스도 가능해지고 있음  
  그래서 API에서 벗어나고 싶은 사람들은 곧 합리적인 가격의 AI 데스크톱 클러스터를 집에서 호스팅하면서 **Opus급 성능**을 쓸 수 있기를 기대함
  - 여기서 “비교적”이라는 말이 꽤 많은 일을 하고 있음. **GB10 한 대가 약 4,000달러**라면 1TB 클러스터는 36,000달러임  
    동급 H200과 비교하면 싸지만, OpenAI나 Anthropic RSU로 자금이 뒷받침되지 않는 홈랩에는 여전히 손이 안 닿음

- 코딩까지 포함해 충분히 좋은 모델을 로컬에서 돌릴 수 있는 수준으로 **격차가 줄어드는 느낌**이고, 몇몇 회사는 좀 불안해할 것 같음. 내가 틀린 걸까?
  - 지금 RAM/GPU 부족이 아니었다면 그 회사들은 지금보다 더 불안했을 것임  
    하지만 현재로서는 이 모델을 효과적으로 돌릴 장비를 감당할 수 있는 사람이 매우 적음. 앞으로 몇 년은 크게 바뀌지 않을 듯함  
    Z.ai가 코딩 특화 **GLM-5.2 Flash** 같은 버전을 약 80B 매개변수 규모로 내놓는다면 미국 최전선 연구소들이 더 걱정할 것임  
    전반적으로 중국 AI 회사들은 더 적은 자원, 때로는 훨씬 적은 자원으로 같은 일을 하는 방법을 보여주고 있고, 이 흐름이 계속되면 최전선 연구소들을 불안하게 만들 것임  
    다만 중국 AI 회사들도 현재 주력 모델보다 훨씬 작으면서도 강력한 모델을 공개하지 않음으로써 자기 해자를 지키려 할 것임  
    Alibaba Qwen은 지금 그런 위치에 온 듯함. 최근에는 꽤 조용해졌고, 최신 395B 모델은 대부분의 사람이 집에서 돌리기엔 너무 큼. 이번에는 더 작은 모델을 낼 것 같은 낌새도 없음
  - 그렇지 않다고 봄. 회사가 자체 개발용으로 이런 모델을 호스팅하고 돌리기로 결정하는 건 쉽게 상상할 수 있음  
    개발팀이 10명쯤이면 **LLM 서버에 5만 달러**를 한 번 투자하는 선택이 꽤 매력적일 수 있음  
    무제한 토큰, 괜찮은 성능, 업그레이드 선택지, 제품 통합 가능성이 있음  
    일반적으로 LLM을 제품에 넣으려는 회사라면 로컬 LLM 방식이 더더욱 매력적일 것 같음. 다소 멍청한 모델도 사람들이 제품에 통합하는 많은 용도에는 충분히 좋음
  - 위협이 되려면 꼭 로컬에서 돌릴 필요도 없음. 많은 회사가 이런 모델을 호스팅해주는 제3자 업체에 비용을 내는 방식을 보고 있고, 가격은 **최전선 연구소**의 몇 분의 일 수준임
  - RAM 요구량은 아직 꽤 고통스러움
  - 로컬에서 돌리는 건 경제적이지 않음. 프라이버시에는 훌륭하고 재미있는 취미이긴 함  
    하지만 선택지는 엄청 느린 CPU 빌드와 **RAM 1만 달러**, GPU 9만 달러어치, 아니면 품질 비교가 어려운 심한 양자화 모델 중 하나임  
    재미로 하나 만들 수는 있겠지만, 그것만으로 경제성이 바뀌지는 않음. 그래도 가능하다는 사실은 흥미로움

- OpenAI와 Anthropic은 **GLM 5.2의 출시 시점**을 싫어할 것 같음  
  마법 같은 해자가 아니라 단지 선두 출발 이점이 있었다는 걸 꽤 보여줌

- **RAM 192GB Mac Studio**를 쓸 수 있는데, 명시된 최소 RAM보다 낮음  
  특히 MoE니까 빠른 디스크로 스와핑해서 어떻게든 작동하게 만들 수 있을까?
  - 그렇게 많이 스와핑을 걸면 NVMe SSD의 총 기록 수명(TBW)을 소모해서 수명을 크게 줄이는 좋은 방법처럼 보임  
    성능도 0.1 tok/s 수준으로 처참할 것임

- unsloth가 수백만 명이 로컬 AI를 시작하도록 도운 작업은 매우 존중하지만, 이 글은 약간 **다운로드 미끼**처럼 보임  
  너무 많은 레이어를 CPU로 오프로딩하면 전혀 잘 안 됨. 여러 번 해봤고, 결국 무거운 Hugging Face 캐시 폴더들에 `rm -rf`를 해야 했음  
  GLM 5.2의 1비트나 2비트 양자화를 대부분 VRAM 밖에서 돌리는 게, VRAM에 완전히 올라간 **Qwen3.6-27B Q8_0**보다 유용성에서 나을지도 의심스러움

- 글에서 뭐라고 하든 RAM 256GB 장비에서 이걸 돌리려는 사람은 좋은 시간을 보내기 어려울 것 같음  
  훨씬 현실적인 최소선은 **512GB**임  
  운 좋게도 가격이 오르기 전에 싸게 산 RAM 512GB 듀얼 Xeon 워크스테이션 2대가 홈오피스에 있어서 이것저것 실험해볼 수 있음