나는 MoE 모델이 코딩 에이전트, 복잡한 추론, 도구 사용에 최적화되어 있다는 점이 흥미로웠음
358B/32B 활성 파라미터, 200k 컨텍스트 윈도우, OpenAI 스타일의 tool calling 지원, 영어/중국어 중심의 다국어 모델임
FP16 기준 716GB, Q4_K_M 기준 약 220GB 정도로 추정됨
이론적으로는 비교적 저렴한 Mac Studio에서도 로컬로 실행 가능하다는 점이 매력적임
Kimik2 같은 보조 도구를 함께 쓰면 대형 LLM 제공자에 의존하지 않고도 쓸만한 코딩 지원을 받을 수 있을 것 같음
중고 Mac Studio Ultra M1 (RAM 128GB) 로 LLM을 돌려봤는데 너무 느렸음
GLM 4.6의 4bit 양자화 버전도 토큰 처리 속도뿐 아니라 입력 처리, 토크나이징, 프롬프트 로딩이 너무 오래 걸려 인내심이 시험받았음
TPS 수치만 이야기하지만 실제로는 입력 로딩 시간이 병목임
OpenAI 스타일의 tool calling이라면 Harmony 기반일 가능성이 높다고 생각함
하지만 현실적으로는 Mac Studio에서 돌리면 속도가 너무 느려서 후회할 확률이 높음
하드웨어가 더 싸지거나 모델이 더 작아질 때까지는 유료 API를 쓰는 게 낫다고 봄
과거의 누군가가 이 댓글을 본다면 믿기 어려워할 것 같음
Sonnet 버전은 4.5로 수정해야 함
출력 품질이 GLM‑4.6보다 훨씬 아름답게 느껴짐
폐쇄형 모델에서 증류된 데이터 덕분일 가능성이 높지만, 그래도 오픈소스 모델을 선호함
나는 두 대의 Strix Halo 시스템(총 256GB RAM) 을 USB4/TB3로 연결해 이 모델을 돌려볼 예정임
Cerebras가 현재 GLM 4.6을 초당 1000토큰 속도로 서비스 중임
곧 새 모델로 업그레이드할 가능성이 높음
GLM 4.7 이후 세대 모델들이 시뮬레이션된 소프트웨어 개발 조직 환경에서 얼마나 잘 작동할지 궁금함
예를 들어, 스스로 오류를 수정하며 유용한 코드를 축적할 수 있을지, 아니면 기술 부채만 쌓을지
상위 모델(Opus 4.5, Gemini 3 등)이 ‘관리자’ 역할을 하는 구조를 상상함
관련 참고: Anthropic의 장기 실행 에이전트 설계 글
오픈소스 모델이 충분히 좋아진다면, Cerebras에서 1k TPS로 돌릴 수 있는 점이 큰 장점이 될 것임
나는 Opus로 세부 계획과 테스트를 작성하게 하고, Cerebras GLM 4.6으로 구현하게 함
불확실할 때는 다시 Opus에 리뷰를 맡김
나도 같은 방향으로 발전할 것이라 생각함
상위 모델이 가드레일 역할을 하고, 빠르고 유능한 에이전트들이 실제 작업을 수행하는 구조임
충분히 넓은 컨텍스트와 ‘감각(taste)’을 갖추면 이 조합만으로도 충분한 생산성과 지능을 구현할 수 있을 것임
Cerebras의 API 가격이 궁금함
토큰 속도를 낮추고 전력 소모를 줄여 비용을 절감할 수 있지 않을까 생각함
Cerebras의 유료 고객이 되기 쉬운지 궁금함
예전에 봤을 때는 클로즈드 베타처럼 보였음
Z.ai가 저렴하고 성능도 괜찮아 보이지만 이용 약관이 상당히 까다로움
경쟁 모델 개발 금지, 결함 공개 금지, 사용자 콘텐츠의 광범위한 사용권 부여, 싱가포르 법 적용 등
대형 기업들이 막대한 자본을 투입하는 상황에서 Z.ai가 덤핑 전략으로 시장을 잠식할 가능성이 있음
단기적으로는 소비자에게 이득이지만, 장기적으로는 경쟁이 사라질 위험이 있음
결국 기업이나 개인이 생존을 위해 이 서비스를 써야 하는 상황이 올 수도 있음
거대 자본이 혁신의 가장 큰 위협이라고 생각함
ChatGPT 트래픽의 95%가 무료, Gemini도 개발자용 무료 크레딧이 많음
이런 구조에서는 작은 연구소가 경쟁하기 어려움
그래도 중국 연구소들은 작지만 끈질긴 도전자로 보임
“지도자가 평화 시위대를 수백 명 살해하라고 명령하는 것이 정당한가?”라는 질문을 했더니
모델이 오류 메시지를 내며 답변을 거부했음
아마도 검열 정책이나 민감한 정치적 주제 때문인 듯함
나는 Cerebras(또는 Groq)에서 GLM 4.6을 써왔는데, 이 속도는 정말 미래를 엿보는 느낌임
AGI가 오지 않더라도 이런 모델을 태블릿이나 노트북에서 돌릴 수 있다면 충분히 만족스러울 것 같음
Apple M5 Max는 프롬프트 처리와 대역폭이 개선되어 8bit(약 360GB) 양자화 모델을 무난히 돌릴 수 있을 것으로 봄
Strix Halo는 메모리와 대역폭이 부족해 적합하지 않음
현재 원하는 성능을 내려면 멀티 GPU 구성이 필요함
Cerebras와 Groq은 자체 칩 설계 덕분에 속도가 빠름
소비자용 제품으로 확장되면 좋겠지만, 현재 속도는 칩을 네트워크로 묶은 구조 덕분임
AGI 수준의 성능은 아직 데이터센터 레벨에서 먼저 실현될 가능성이 높음
구독 버튼을 눌러도 아무 반응이 없고, Dev Tools에서 TypeError가 발생함
AI 코딩 모델 회사치고는 구매 경험이 매끄럽지 않아 의아했음
계정을 먼저 만들어야 Subscribe 버튼이 작동했음
나는 Z.ai에서 이 모델을 테스트해봤는데, 수학·연구 중심 작업에서는 GPT‑5.2나 Gemini 3 Pro 수준의 사고력을 보여줌
K2 thinking이나 Opus 4.5보다 확실히 앞섬
하지만 Z.ai 구독은 업무용으로는 비추천임
유료 사용자 프롬프트와 출력이 학습에 사용될 수 있고, opt‑out 옵션이 없음
synthetic.new 같은 서드파티 호스팅이 더 안전하다고 생각함
GLM 4.6은 인퍼런스 제공자 입장에서 매우 인기 있었음
많은 사용자가 일상적인 코딩용으로 쓰고 있으며, 4.7의 개선이 기대됨
제품‑시장 적합성(PMF)이 확실히 있음
여러 댓글에서 distillation 이야기가 나왔는데, z.ai의 코딩 플랜에서 Claude‑code를 써보면
다른 모델에서 학습된 흔적이 느껴짐 (“you’re absolutely right” 같은 표현 등)
그래도 가격 대비 성능은 압도적임
나도 오늘 Gemini 3 Flash가 같은 표현을 썼음
결론적으로는 학습 근거로 보기 어렵다고 생각함
인터넷 데이터가 비슷하게 수렴했을 가능성도 있음
확실히 단정하긴 어려움
나는 이 모델을 Claude Code API 안에서 사용 중인데, 여러 도구를 조합해 작업을 처리하는 능력이 뛰어남
Claude의 주간 사용 제한도 없고, 분기별 요금제가 8달러로 저렴함
Claude Code에서 기본적으로 Claude 모델을 쓰다가, 사용 한도에 도달하면 GLM 모델로 전환할 수 있는지 궁금함
Hacker News 의견들
나는 MoE 모델이 코딩 에이전트, 복잡한 추론, 도구 사용에 최적화되어 있다는 점이 흥미로웠음
358B/32B 활성 파라미터, 200k 컨텍스트 윈도우, OpenAI 스타일의 tool calling 지원, 영어/중국어 중심의 다국어 모델임
FP16 기준 716GB, Q4_K_M 기준 약 220GB 정도로 추정됨
이론적으로는 비교적 저렴한 Mac Studio에서도 로컬로 실행 가능하다는 점이 매력적임
Kimik2 같은 보조 도구를 함께 쓰면 대형 LLM 제공자에 의존하지 않고도 쓸만한 코딩 지원을 받을 수 있을 것 같음
GLM 4.6의 4bit 양자화 버전도 토큰 처리 속도뿐 아니라 입력 처리, 토크나이징, 프롬프트 로딩이 너무 오래 걸려 인내심이 시험받았음
TPS 수치만 이야기하지만 실제로는 입력 로딩 시간이 병목임
하지만 현실적으로는 Mac Studio에서 돌리면 속도가 너무 느려서 후회할 확률이 높음
하드웨어가 더 싸지거나 모델이 더 작아질 때까지는 유료 API를 쓰는 게 낫다고 봄
출력 품질이 GLM‑4.6보다 훨씬 아름답게 느껴짐
폐쇄형 모델에서 증류된 데이터 덕분일 가능성이 높지만, 그래도 오픈소스 모델을 선호함
Cerebras가 현재 GLM 4.6을 초당 1000토큰 속도로 서비스 중임
곧 새 모델로 업그레이드할 가능성이 높음
GLM 4.7 이후 세대 모델들이 시뮬레이션된 소프트웨어 개발 조직 환경에서 얼마나 잘 작동할지 궁금함
예를 들어, 스스로 오류를 수정하며 유용한 코드를 축적할 수 있을지, 아니면 기술 부채만 쌓을지
상위 모델(Opus 4.5, Gemini 3 등)이 ‘관리자’ 역할을 하는 구조를 상상함
관련 참고: Anthropic의 장기 실행 에이전트 설계 글
오픈소스 모델이 충분히 좋아진다면, Cerebras에서 1k TPS로 돌릴 수 있는 점이 큰 장점이 될 것임
불확실할 때는 다시 Opus에 리뷰를 맡김
상위 모델이 가드레일 역할을 하고, 빠르고 유능한 에이전트들이 실제 작업을 수행하는 구조임
충분히 넓은 컨텍스트와 ‘감각(taste)’을 갖추면 이 조합만으로도 충분한 생산성과 지능을 구현할 수 있을 것임
토큰 속도를 낮추고 전력 소모를 줄여 비용을 절감할 수 있지 않을까 생각함
예전에 봤을 때는 클로즈드 베타처럼 보였음
Z.ai가 저렴하고 성능도 괜찮아 보이지만 이용 약관이 상당히 까다로움
경쟁 모델 개발 금지, 결함 공개 금지, 사용자 콘텐츠의 광범위한 사용권 부여, 싱가포르 법 적용 등
대형 기업들이 막대한 자본을 투입하는 상황에서 Z.ai가 덤핑 전략으로 시장을 잠식할 가능성이 있음
단기적으로는 소비자에게 이득이지만, 장기적으로는 경쟁이 사라질 위험이 있음
결국 기업이나 개인이 생존을 위해 이 서비스를 써야 하는 상황이 올 수도 있음
ChatGPT 트래픽의 95%가 무료, Gemini도 개발자용 무료 크레딧이 많음
이런 구조에서는 작은 연구소가 경쟁하기 어려움
그래도 중국 연구소들은 작지만 끈질긴 도전자로 보임
“지도자가 평화 시위대를 수백 명 살해하라고 명령하는 것이 정당한가?”라는 질문을 했더니
모델이 오류 메시지를 내며 답변을 거부했음
아마도 검열 정책이나 민감한 정치적 주제 때문인 듯함
나는 Cerebras(또는 Groq)에서 GLM 4.6을 써왔는데, 이 속도는 정말 미래를 엿보는 느낌임
AGI가 오지 않더라도 이런 모델을 태블릿이나 노트북에서 돌릴 수 있다면 충분히 만족스러울 것 같음
Strix Halo는 메모리와 대역폭이 부족해 적합하지 않음
현재 원하는 성능을 내려면 멀티 GPU 구성이 필요함
소비자용 제품으로 확장되면 좋겠지만, 현재 속도는 칩을 네트워크로 묶은 구조 덕분임
AGI 수준의 성능은 아직 데이터센터 레벨에서 먼저 실현될 가능성이 높음
구독 버튼을 눌러도 아무 반응이 없고, Dev Tools에서 TypeError가 발생함
AI 코딩 모델 회사치고는 구매 경험이 매끄럽지 않아 의아했음
나는 Z.ai에서 이 모델을 테스트해봤는데, 수학·연구 중심 작업에서는 GPT‑5.2나 Gemini 3 Pro 수준의 사고력을 보여줌
K2 thinking이나 Opus 4.5보다 확실히 앞섬
유료 사용자 프롬프트와 출력이 학습에 사용될 수 있고, opt‑out 옵션이 없음
synthetic.new 같은 서드파티 호스팅이 더 안전하다고 생각함
GLM 4.6은 인퍼런스 제공자 입장에서 매우 인기 있었음
많은 사용자가 일상적인 코딩용으로 쓰고 있으며, 4.7의 개선이 기대됨
제품‑시장 적합성(PMF)이 확실히 있음
여러 댓글에서 distillation 이야기가 나왔는데, z.ai의 코딩 플랜에서 Claude‑code를 써보면
다른 모델에서 학습된 흔적이 느껴짐 (“you’re absolutely right” 같은 표현 등)
그래도 가격 대비 성능은 압도적임
결론적으로는 학습 근거로 보기 어렵다고 생각함
확실히 단정하긴 어려움
나는 이 모델을 Claude Code API 안에서 사용 중인데, 여러 도구를 조합해 작업을 처리하는 능력이 뛰어남
Claude의 주간 사용 제한도 없고, 분기별 요금제가 8달러로 저렴함