1P by GN⁺ | ★ favorite | 댓글 1개
  • Z.ai의 새 오픈 모델 GLM-5.2는 744B 파라미터, 40B 활성 파라미터, 1M 컨텍스트 윈도를 갖춘 대형 모델을 로컬에서 다루는 사례라는 점이 핵심임
  • Unsloth는 Dynamic GGUF로 로컬 실행 경로를 제공하며, 권장 2-bit UD-IQ2_M quant는 239GB 디스크와 최소 245GB RAM급 환경을 요구함
  • Dynamic 1-bit는 약 76.2% top-1 accuracy와 86% 크기 감소, Dynamic 2-bit는 약 82% accuracy와 84% 크기 감소를 보여 “작아진 비율만큼 성능이 나빠진다”는 해석과 다름
  • 실행 방법은 Unsloth Studiollama.cpp 두 갈래이며, Studio는 MacOS·Windows·Linux에서 모델 검색·다운로드·실행, RAM offloading, multiGPU 감지를 지원함
  • 긴 컨텍스트를 실제로 쓰려면 llama.cppKV cache quantization으로 메모리를 줄여야 하며, q4_0는 약 3.5배, q4_1은 약 3.2배 긴 컨텍스트를 가능하게 함

GLM-5.2 모델 개요

  • GLM-5.2는 Z.ai의 새 오픈 모델이며, Unsloth Dynamic GGUF를 통해 로컬 하드웨어에서 실행할 수 있음
  • 모델 사양은 다음과 같음
    • 전체 파라미터: 744B
    • 활성 파라미터: 40B
    • 최대 컨텍스트 윈도: 1,048,576
  • long-horizon coding, reasoning, agentic tasks에서 SOTA 성능을 제공한다고 소개됨
  • Artificial Analysis와 여러 벤치마크 기준으로 Claude 4.8 Opus, GPT-5.5, Gemini 3.1 Pro와 동급 성능을 보인다고 함
  • Unsloth는 Z.ai로부터 day-zero access를 제공받았다고 밝힘
  • GLM-5.2용 GGUF 모델 파일은 Hugging Face의 GLM-5.2-GGUF에서 받을 수 있음

권장 quant와 메모리 요구사항

  • 접근성과 정확도 균형을 위해 2-bit dynamic quantUD-IQ2_M 사용을 안내함
    • 디스크 사용량: 239GB
    • 256GB unified memory Mac에 직접 들어감
    • MoE offloading을 쓰면 1x24GB GPU + 256GB RAM에서도 잘 동작한다고 함
  • 1-bit quant는 223GB RAM에 들어가며, 8-bit는 810GB RAM이 필요함
  • 추론 하드웨어 요구사항 표에서 총 메모리는 RAM + VRAM 또는 unified memory를 뜻함
    • 표시된 총 메모리 수치: 223GB, 245GB, 290–360GB, 372–475GB, 570GB, 810GB
  • 최적 성능을 내려면 VRAM과 시스템 RAM을 합친 사용 가능 메모리가 quantized model file size를 충분히 넘어야 함

Thinking 모드와 샘플링 설정

  • GLM-5.2는 3개의 thinking mode를 제공함
    • non-thinking
    • thinking High
    • thinking Max
  • 복잡한 작업에는 Max Thinking 사용을 권장함
  • Unsloth Studio에서는 UI로 High/Max Thinking과 non-Thinking을 토글할 수 있음
  • 대부분의 사용 사례용 설정은 다음과 같음
    • temperature = 1.0
    • top_p = 0.95
    • 다른 모드에서는 top_p = 1.0
  • GLM-5.2는 기본적으로 reasoning을 사용하며, reasoning_effort"high", "max" 또는 비활성화를 선택할 수 있음
  • thinking 비활성화 예시는 다음과 같음
    • 일반 셸: --chat-template-kwargs '{"enable_thinking":false}'
    • Windows PowerShell: --chat-template-kwargs "{\"enable_thinking\":false}"
  • llama.cpp에서도 --reasoning on 또는 --reasoning off를 사용할 수 있음
  • reasoning effort 설정 예시는 다음과 같음
    • --chat-template-kwargs '{"reasoning_effort":"max"}'
    • --chat-template-kwargs '{"reasoning_effort":"high"}'
    • --chat-template-kwargs '{"enable_thinking":false}'

Dynamic GGUF 정확도와 KLD 해석

  • Unsloth는 GLM-5.2-GGUF quantization 정확도를 평가하기 위해 KLD(KL Divergence) 벤치마크를 사용함
  • Dynamic 4-bit UD-Q4_K_XL과 Dynamic 5-bit UD-Q5_K_XL은 대부분 lossless라고 안내됨
  • 더 작은 quant도 중요한 레이어는 higher precision으로, 덜 중요한 레이어는 low bits로 두는 동적 정밀도 배치 방식으로 동작함
  • pure top-1% accuracy 기준 수치는 다음과 같음
    • Dynamic 1-bit: 약 76.2% accuracy, 86% size reduction
    • Dynamic 2-bit: 약 82% accuracy, 84% size reduction
    • 정확도 비교: {b:76,82}
  • 86% 작다는 말은 86% 나쁘다는 뜻이 아니며, Dynamic 1-bit는 전체 1.5TB 모델보다 약 24% 낮은 정확도라는 해석이 붙음
  • “76% accuracy”는 “The capital of France is” 같은 질문에서 Paris 76%, Sydney 24%를 고른다는 뜻이 아님
    • 해당 예시에서는 Paris가 항상 100%, Sydney가 0%라고 함
    • 76% 수치는 전체 corpus의 filler words와 stop words 분포 변화까지 포함함
  • “Create a novel” 프롬프트처럼 여러 올바른 시작이 가능한 경우에는 baseline과 quantized 모델의 토큰 분포가 달라질 수 있음
    • baseline이 [I]를 100% 선택할 수 있고, quantized 모델이 [I] 76%, [The] 24%처럼 분포를 나눌 수 있음
    • 이 수치는 24% 확률로 gibberish나 잘못된 출력을 낸다는 뜻이 아님
  • KLD는 baseline인 BF16 또는 Q8_0 확률과 quantized version 확률 사이의 거리
    • quantization의 목표는 f(q(W))f(W) 사이의 KL divergence 평균을 최소화하는 것임
    • f는 language model forward, q는 quantization operation, W는 모델 파라미터 또는 weights임
    • KLD가 0이면 모델을 완벽히 재구성한 것임
  • 전체 학습 corpus 예시인 15T tokens 전체에 대해 KLD를 실행하는 것은 비용이 커서, Unsloth는 mean KLD와 작은 대표 subset sampling으로 최적화함
  • 99.9% KLD도 일반적으로 좋다고 하며, 4bit 이상부터 더 큰 uplift가 있어 massive out-of-distribution tasks에는 Dynamic 4-bit가 아마 가장 적합하다고 함

Unsloth Studio로 실행하기

  • Unsloth Studio는 local AI용 오픈소스 web UI이며 GLM-5.2 실행을 지원함
  • 주요 기능은 다음과 같음
    • MacOS, Windows, Linux에서 로컬 모델 실행
    • GGUF와 safetensor 모델 검색, 다운로드, 실행
    • RAM offloading과 multiGPU setup 자동 감지
    • llama.cpp를 통한 빠른 CPU + GPU inference
  • 설치 명령은 다음과 같음
  • 실행 명령은 다음과 같음
    • unsloth studio -H 0.0.0.0 -p 8888
    • 실행 후 브라우저에서 http://127.0.0.1:8888 또는 사용자별 URL을 열면 됨
  • HTTPS로 Studio를 안전하게 실행하는 방법도 제공됨
    • Windows, Mac, Linux에서 unsloth studio --secure
    • 무료 Cloudflare tunnel을 사용함
  • 첫 실행 시 계정 보안을 위해 password를 만들고 이후 다시 sign in해야 함
  • Studio Chat 탭에서 검색창에 GLM-5.2를 검색한 뒤 원하는 model과 quant를 다운로드함
  • 모델 실행 전 충분한 compute가 있는지 확인해야 함
  • Studio에서는 inference parameters가 자동 설정되어야 하지만, 사용자가 context length, chat template, 기타 설정을 수동으로 바꿀 수 있음
  • 추가 정보는 Unsloth Studio inference guide에 있음

llama.cpp로 실행하기

  • llama.cpp 튜토리얼은 UD-IQ2_M quant 실행을 다루며, 최소 245GB RAM이 필요함
  • 빠른 로컬 inference를 위해 llama.cpp를 사용함
  • GPU가 없거나 CPU inference만 원하면 -DGGML_CUDA=ON-DGGML_CUDA=OFF로 바꿈
  • Apple Mac / Metal 기기는 -DGGML_CUDA=OFF로 진행하면 되며, Metal support는 기본 활성화되어 있음
  • 빌드 절차는 다음 흐름임
    • apt-get update
    • apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
    • git clone https://github.com/ggml-org/llama.cpp
    • cmake ... -DGGML_CUDA=ON
    • cmake --build ... --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
    • cp llama.cpp/build/bin/llama-* llama.cpp
  • llama.cppollama run처럼 모델을 직접 load 및 download하는 데 사용할 수 있음
  • 원하는 quantization type 예시로 UD-IQ2_M을 선택하고, export LLAMA_CACHE="unsloth/GLM-5.2-GGUF"로 저장 위치를 강제할 수 있음
  • llama.cpp의 직접 다운로드 과정은 매우 느릴 수 있어 수동 다운로드 방식이 더 낫다고 안내함

수동 다운로드와 실행 예시

  • 더 빠른 수동 다운로드에는 huggingface_hub를 사용함
    • pip install huggingface_hub
    • hf download unsloth/GLM-5.2-GGUF --local-dir unsloth/GLM-5.2-GGUF --include "*UD-IQ2_M*"
  • near full precision용으로는 --include "*UD-Q8_K_XL*"을 사용할 수 있음
  • 다운로드가 멈추면 Hugging Face Hub, XET debugging을 확인하라고 안내함
  • Dynamic 1-bit 다운로드 명령은 다음과 같음
    • hf download unsloth/GLM-5.2-GGUF --local-dir unsloth/GLM-5.2-GGUF --include "*UD-IQ1_S*"
  • conversation mode의 모델 경로는 다음과 같음
    • 2-bit: unsloth/GLM-5.2-GGUF/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf
    • 1-bit: unsloth/GLM-5.2-GGUF/UD-IQ1_S/GLM-5.2-UD-IQ1_S-00001-of-00006.gguf
  • llama-cli 실행 예시는 2-bit GGUF 첫 shard를 --model에 지정하고 다음 파라미터를 사용함
    • --temp 1.0
    • --top-p 0.95
    • --min-p 0.01
  • 직접 실행 예시에는 -hf unsloth/GLM-5.2-GGUF:UD-IQ2_M도 사용됨

생성 예시로 확인한 동작

  • 문서에는 2-bit GLM-5.2가 tool-calling과 SVG generation을 수행하는 예시가 포함됨
  • llama-cli 실행 후 “short Flappy Bird game” 생성을 요청한 결과가 이어짐
  • 생성된 단일 HTML/JavaScript 게임은 Sunset Flier라는 이름을 사용함
    • canvas, 시작 화면, 게임 오버 화면, HUD 점수, NEW BEST!, RETRY 버튼을 포함함
    • 외부 자산 없이 Web Audio APIflap, score, hit, die 효과음을 생성함
    • 게임 상태는 READY, PLAYING, DYING, OVER 네 단계로 관리됨
    • 최고 점수는 localStorage.getItem('sunsetFlierBest')localStorage.setItem()으로 저장됨
  • 게임 로직에는 중력, 플랩 임펄스, 무작위 파이프, 충돌, 파티클, 화면 흔들림, 메달 시스템이 포함됨
    • GRAVITY = 0.42
    • MAX_FALL = 9
    • PIPE_W = 68
    • PIPE_GAP = 180
    • PIPE_SPEED = 2.6
    • PIPE_SPACING = 220
  • 입력은 마우스, 터치, 키보드 Space, ArrowUp, Enter를 지원함
  • 이 게임 예시는 1-bit quantization에서도 잘 작동했고 소리도 정상적으로 동작했다는 맥락으로 제시됨

긴 컨텍스트와 KV cache quantization

  • llama.cpp에서 긴 컨텍스트를 활용하려면 KV cache quantization으로 메모리 사용량을 줄여야 함
  • llama.cpp는 최근 KV cache quantization에 더 높은 정확도를 위한 기법을 추가했으며, 관련 PR은 https://github.com/ggml-org/llama.cpp/pull/21038
  • 지원되는 KV cache dtype은 다음과 같음
    • f32
    • f16
    • bf16
    • q8_0
    • q4_0
    • q4_1
    • iq4_nl
    • q5_0
    • q5_1
  • 기본값은 f16
  • q4_0는 weight당 약 4.5비트이므로 컨텍스트 길이를 16 / 4.5, 약 3.5배 늘릴 수 있음
    • 예시로 기존에 10K를 지원하던 모델은 35K까지 가능 범위에 들어올 수 있음
  • q4_1은 shifting parameter가 추가되어 더 나을 가능성이 있고, weight당 5비트라 약 3.2배 긴 컨텍스트를 제공함
  • KV cache quantization 실행 예시는 GLM-5.2 GGUF 모델과 샘플링 파라미터를 지정함
    • 모델 경로: unsloth/GLM-5.2-GGUF/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf
    • --temp 1.0
    • --top-p 0.95
    • --min-p 0.01
    • --cache-type-k q4_1
    • --cache-type-v q4_1

벤치마크 표에서 확인 가능한 수치

  • 문서에는 GLM-5.2 벤치마크 표가 이어지지만, 제공된 내용에는 열 헤더가 없어 각 숫자가 어떤 모델 또는 설정에 대응하는지는 확인할 수 없음
  • Reasoning 벤치마크에는 다음 행과 수치가 포함됨
    • HLE: 40.5, 49.8*, 41.4*, 45, 31, 41.4, 37, 37.7
    • AIME 2026: 99.2, 95.7, 98.3, 98.2, 95.3, 97, -, 94.6
    • GPQA-Diamond: 91.2, 93.6, 93.6, 94.3, 86.2, 90, 93, 90.1
  • Coding 벤치마크에는 다음 행과 수치가 포함됨
    • SWE-bench Pro: 62.1, 69.2, 58.6, 54.2, 58.4, 60.6, 59, 55.4
    • NL2Repo: 48.9, 69.7, 50.7, 33.4, 42.7, 47.2, 42.1, 35.5
    • Terminal Bench 2.1 (Terminus-2): 81.0, 85, 84, 74, 63.5, 75, 65, 64
  • Agentic 벤치마크에는 다음 행과 수치가 포함됨
    • MCP-Atlas (Public Set): 76.8, 77.8, 75.3, 69.2, 71.8, 76.4, 74.2, 73.6
    • Tool-Decathlon: 48.2, 59.9, 55.6, 48.8, 40.7, -, -, 52.8

댓글과 토론

Hacker News 의견들
  • Q4_K_XL을 돌리고 있음. 약 6tk/sec를 내려면 RAM 512GB와 RTX 3090 2장, llama.cpp -cmoe면 충분함
    지금은 구린 DDR4 2400MHz라서 그렇고, 3200MHz면 9tk/sec 정도까지 올라갈 듯함. CPU도 32코어 EPYC라 괜찮은 수준인데, 더 좋은 64코어면 11tk/sec까지 갈 수 있어 보임
    하드웨어 가격이 미치기 전에 예산형으로 맞췄고 매일 후회하지만, 그래도 이 모델을 집에서 돌릴 수 있다는 건 훌륭함. 계획 세우기나 필요한 맥락을 다 모은 뒤 원샷 프롬프트에 좋음
    전체 하드웨어 비용은 조립 당시 2,400달러였고, 발품을 팔면 이런 모델을 집에서도 돌릴 방법이 있음. 왜 그러냐거나 클라우드 API 쓰면 얼마나 아끼냐는 질문을 자주 받지만, Fable 사태가 독립적으로 운영하는 것의 가치를 보여줬다고 봄
    unsloth 팀 고맙고, Q4_K_XL은 탄탄함. 양자화 모델을 받을 거라면 들어가기만 한다면 K_XL 변형을 받는 게 좋음

    • 이런 홈브루 실험으로 가능 범위를 밀어붙이는 사람들에게 박수를 보냄. 암호화폐처럼 AI도 장사꾼 소음에 묻혀 있지만, 회복탄력성을 키우는 이야기는 거의 없음
      오픈소스 모델을 전동칫솔이나 Tamagotchi에 욱여넣으려는 연구자들도 마찬가지로 멋짐
    • 그 부하를 계속 돌리면 최소 600W라 하루 약 14kWh가 됨. kWh당 0.2달러면 하루 2.80달러, 전기 운영비만 연 1,000달러쯤 듦
      프라이버시나 직접 소유하는 만족감이 꼭 필요한 게 아니라면, 하이퍼스케일러에 돈 내는 편이 더 싸고 편하고 초당 토큰도 훨씬 빠름
      그래도 방향성은 마음에 들고, 2년 뒤에는 어떤 자가 호스팅 하드웨어가 나올지 기대됨
    • 거의 같은 구성을 갖고 있음. RTX 3090 2장, 조금 더 빠른 DDR4 512GB, 64코어 EPYC 구성임 [0]
      꽤 즐겁게 쓰고 있고 이 모델도 빨리 돌려보고 싶음
      로컬 모델 실행 말고도 이 장비를 주 원격 개발 플랫폼으로 사용함. 모든 Claude Code 세션을 이제 거기서 tmux로 돌리고 있음
      계속 뜨거운 노트북을 만지지 않아도 돼서 손가락이 행복함. Claude Code가 배터리를 엄청 먹는다는 점도 있음
      [0] https://medium.com/@rathko/i-built-an-epyc-64-core-512gb-ram...
    • “돌리는 데 필요한 건 이 정도”라는 표현은 2,400달러에 샀다면 맞을 수 있지만, 지금 총가격은 1만 달러에 훨씬 가까움
      RAM만 거의 5,000달러, GPU가 각각 2,000달러쯤이라 현재 기준으론 꽤 비싼 하드웨어임
    • 내가 이해하기로는 이 모델에 대한 llama.cpp 구현은 아직 DSA 희소 어텐션 지원이 빠져 있어서 꽤 미완성임
      그래서 학습 때 쓰지 않은 다른 메커니즘으로 모델을 돌리게 되고, 품질과 성능이 낮아진다는 결과도 있었음
      어쨌든 GLM 5.2는 여러 면에서 DeepSeek V4 계열만큼 흥미롭지는 않다고 봄. DeepSeek V4는 더 진보한 어텐션 메커니즘을 써서 특히 긴 문맥에서 KV 캐시 메모리를 많이 아낄 수 있음
      그 결과 소비자용 플랫폼에서도 넓은 배치 처리가 가능해짐. GLM에는 그게 없고, 기저 성능 구조 면에서는 Kimi 2.6과 대체로 비슷하게 느껴짐. 둘 다 일반 하드웨어에서 풀 품질로 합리적으로 돌리기엔 조금 너무 무거움
  • 거의 됐음. 내 장비는 RAM 192GB + RTX 3090 24GB인데 이걸 거의 돌릴 수 있을 뻔함
    MoE 오프로딩에는 VRAM 24GB와 RAM 256GB가 필요하다고 나옴
    https://unsloth.ai/docs/models/glm-5.2#usage-guide
    예전 스레드에서는 누군가 하드웨어에 50만 달러가 든다고 했음
    https://news.ycombinator.com/item?id=48629970

    • 50만 달러는 엄청난 과대평가임. FP8이나 BF16에서 대규모 동시성을 노린다면 그럴 수는 있음
      NVFP4로 적당한 속도, 대략 120 tok/s와 동시성은 현재 가격 기준 8만~9만 달러 선에서도 가능하고, 더 낮을 수도 있음
      그 돈이면 RTX 6000 PRO Blackwell 6장, 괜찮은 CPU와 메인보드, 전원공급장치를 살 수 있음. VRAM은 576GB임
      디코드 40 tok/s, 프리필 약 1200 tok/s로 괜찮다면 5만 달러 아래로도 가능함
    • 2비트로는 좋은 결과가 나오기 어려움. 코딩에 이상적인 범위는 적어도 Q8
    • 이번 붐이 90년대 같은 컴퓨팅 하드웨어 발전을 다시 촉발하길 바라고 있음
      지난 20년 동안 하드웨어가 상대적으로 정체된 이유 중 하나는 기업들이 하드웨어 교체를 정당화할 사용처가 부족했기 때문이라고 느낌
      지난 15년 동안 돈과 에너지의 대부분은 모바일로 갔음
      저렴한 로컬 추론이 서버, 데스크톱, 노트북 제조사들이 다시 움직이는 데 필요한 수익원이 될 수도 있음
    • RAM은 있지만 VRAM이 없음. 24GB RAM의 3090으로 어떤 속도나 tok/s를 기대할 수 있을까?
      24GB RAM이 있는 GPU를 하나 사볼까 조금 끌림
    • 재미삼아 Gemini에 물어봤더니, 양자화하지 않은 상태에서 괜찮은 처리량을 내려면 50만 달러라고 답했음
  • “들어간다”는 말은 RAM 256GB에 들어간다는 뜻이지만, 심하게 양자화된 상태이고 여전히 매우 느리게 돌 것임
    헤드라인 숫자는 토큰 생성 속도가 아니라 프롬프트 처리 속도
    10 tok/s가 나오고 API가 20~30 tok/s라면 겉보기엔 그렇게 나빠 보이지 않지만, Mac Studio나 전체를 GPU에 올리지 않는 장비는 순수 GPU 구성보다 프롬프트 처리가 20~50배 느림
    이게 결국 GPU에 5만 달러를 쓰지 않으면 실제로는 못 쓰게 만드는 부분임. 게다가 여전히 심하게 양자화된 모델을 쓰게 됨

    • Nvidia의 Spark 같은 장비는 통합 RAM 128GB가 있음
      이런 장비용 이중 포트 버전도 있음: https://www.nvidia.com/content/dam/en-zz/Solutions/networkin...
      즉 2 x 100GB/s 포트이고, 어쩌면 2 x 200GB/s일 수도 있음. 직접 손에 넣어보면 더 알게 될 듯함
      이런 장비들은 클러스터링도 가능함. 2대나 3대는, IP 서브넷 2개를 쓰면 꽤 명확함. 4대 이상은 네트워크 지연 시간이 얼마나 영향을 주는지에 따라 스위치가 필요할 수도 있음
      Apple은 RAM을 많이 넣은 M 시리즈를 잊어버린 것 같음. Apple 매장에서 통합 RAM 96GB 넘는 구성을 못 찾겠고, 그마저도 신장 하나값임
  • 여러 방향에서 동시에 밀어붙이고 있음: GB10을 쓰는 새 AI 데스크톱은 비교적 저렴하고 클러스터링으로 VRAM 1TB를 구성할 수 있음
    Nvidia, AMD, Intel, Cerebras 등이 새 하드웨어를 밀고 있고, GLM 5.2 같은 오픈소스 모델은 말도 안 되게 좋아지고 있음
    DeepSeek V4 Flash 같은 플래시 모델도 매우 좋아지고 있고, 양자화도 발전 중임
    어려운 일에는 큰 모델, 잡일에는 작은 모델처럼 서로 다른 모델을 쓸 수 있는 하네스도 가능해지고 있음
    그래서 API에서 벗어나고 싶은 사람들은 곧 합리적인 가격의 AI 데스크톱 클러스터를 집에서 호스팅하면서 Opus급 성능을 쓸 수 있기를 기대함

    • 여기서 “비교적”이라는 말이 꽤 많은 일을 하고 있음. GB10 한 대가 약 4,000달러라면 1TB 클러스터는 36,000달러임
      동급 H200과 비교하면 싸지만, OpenAI나 Anthropic RSU로 자금이 뒷받침되지 않는 홈랩에는 여전히 손이 안 닿음
  • 코딩까지 포함해 충분히 좋은 모델을 로컬에서 돌릴 수 있는 수준으로 격차가 줄어드는 느낌이고, 몇몇 회사는 좀 불안해할 것 같음. 내가 틀린 걸까?

    • 지금 RAM/GPU 부족이 아니었다면 그 회사들은 지금보다 더 불안했을 것임
      하지만 현재로서는 이 모델을 효과적으로 돌릴 장비를 감당할 수 있는 사람이 매우 적음. 앞으로 몇 년은 크게 바뀌지 않을 듯함
      Z.ai가 코딩 특화 GLM-5.2 Flash 같은 버전을 약 80B 매개변수 규모로 내놓는다면 미국 최전선 연구소들이 더 걱정할 것임
      전반적으로 중국 AI 회사들은 더 적은 자원, 때로는 훨씬 적은 자원으로 같은 일을 하는 방법을 보여주고 있고, 이 흐름이 계속되면 최전선 연구소들을 불안하게 만들 것임
      다만 중국 AI 회사들도 현재 주력 모델보다 훨씬 작으면서도 강력한 모델을 공개하지 않음으로써 자기 해자를 지키려 할 것임
      Alibaba Qwen은 지금 그런 위치에 온 듯함. 최근에는 꽤 조용해졌고, 최신 395B 모델은 대부분의 사람이 집에서 돌리기엔 너무 큼. 이번에는 더 작은 모델을 낼 것 같은 낌새도 없음
    • 그렇지 않다고 봄. 회사가 자체 개발용으로 이런 모델을 호스팅하고 돌리기로 결정하는 건 쉽게 상상할 수 있음
      개발팀이 10명쯤이면 LLM 서버에 5만 달러를 한 번 투자하는 선택이 꽤 매력적일 수 있음
      무제한 토큰, 괜찮은 성능, 업그레이드 선택지, 제품 통합 가능성이 있음
      일반적으로 LLM을 제품에 넣으려는 회사라면 로컬 LLM 방식이 더더욱 매력적일 것 같음. 다소 멍청한 모델도 사람들이 제품에 통합하는 많은 용도에는 충분히 좋음
    • 위협이 되려면 꼭 로컬에서 돌릴 필요도 없음. 많은 회사가 이런 모델을 호스팅해주는 제3자 업체에 비용을 내는 방식을 보고 있고, 가격은 최전선 연구소의 몇 분의 일 수준임
    • RAM 요구량은 아직 꽤 고통스러움
    • 로컬에서 돌리는 건 경제적이지 않음. 프라이버시에는 훌륭하고 재미있는 취미이긴 함
      하지만 선택지는 엄청 느린 CPU 빌드와 RAM 1만 달러, GPU 9만 달러어치, 아니면 품질 비교가 어려운 심한 양자화 모델 중 하나임
      재미로 하나 만들 수는 있겠지만, 그것만으로 경제성이 바뀌지는 않음. 그래도 가능하다는 사실은 흥미로움
  • OpenAI와 Anthropic은 GLM 5.2의 출시 시점을 싫어할 것 같음
    마법 같은 해자가 아니라 단지 선두 출발 이점이 있었다는 걸 꽤 보여줌

  • RAM 192GB Mac Studio를 쓸 수 있는데, 명시된 최소 RAM보다 낮음
    특히 MoE니까 빠른 디스크로 스와핑해서 어떻게든 작동하게 만들 수 있을까?

    • 그렇게 많이 스와핑을 걸면 NVMe SSD의 총 기록 수명(TBW)을 소모해서 수명을 크게 줄이는 좋은 방법처럼 보임
      성능도 0.1 tok/s 수준으로 처참할 것임
  • unsloth가 수백만 명이 로컬 AI를 시작하도록 도운 작업은 매우 존중하지만, 이 글은 약간 다운로드 미끼처럼 보임
    너무 많은 레이어를 CPU로 오프로딩하면 전혀 잘 안 됨. 여러 번 해봤고, 결국 무거운 Hugging Face 캐시 폴더들에 rm -rf를 해야 했음
    GLM 5.2의 1비트나 2비트 양자화를 대부분 VRAM 밖에서 돌리는 게, VRAM에 완전히 올라간 Qwen3.6-27B Q8_0보다 유용성에서 나을지도 의심스러움

  • 글에서 뭐라고 하든 RAM 256GB 장비에서 이걸 돌리려는 사람은 좋은 시간을 보내기 어려울 것 같음
    훨씬 현실적인 최소선은 512GB
    운 좋게도 가격이 오르기 전에 싸게 산 RAM 512GB 듀얼 Xeon 워크스테이션 2대가 홈오피스에 있어서 이것저것 실험해볼 수 있음