GLM 5.2, Semgrep IDOR 벤치마크에서 Claude 앞서

(semgrep.dev)

1P by GN⁺ 17시간전 | ★ favorite | 댓글 1개

Semgrep의 IDOR 취약점 탐지 벤치마크에서 Zhipu AI의 open-weight 모델 GLM 5.2가 단순 프롬프트 조건만으로 Claude Code보다 높은 F1을 기록함
실험은 데이터셋·평가 방식·시스템 프롬프트를 고정하고 모델과 하네스만 바꿔, 성능이 모델 자체에서 오는지 주변 스캐폴딩에서 오는지 비교함
전용 하네스를 쓴 Semgrep Multimodal은 GPT 5.5 61%, Opus 4.8 53% 로 1·2위를 차지해 구조화된 탐색의 효과가 크게 드러남
GLM 5.2는 엔드포인트 탐색 스캐폴딩 없이도 39% F1을 냈고, 취약점 1개 발견당 비용은 약 $0.17로 나타남
이 결과는 open-weight 모델 전체의 역전이 아니라 한 모델이 한 작업과 한 데이터셋에서 강했다는 제한적 결과이며, 다른 취약점 유형에서는 달라질 수 있음

모델 성능과 하네스 효과를 분리한 실험

Semgrep은 인기 있는 open-source 모델들을 IDOR 벤치마크에 실행하며, 기존 frontier coding agent 평가에 쓰던 것과 같은 데이터셋과 프롬프트를 사용함
핵심 비교 대상은 취약점 탐지 성능이 모델 자체에서 나오는지, 모델 주변의 하네스에서 나오는지였음
하네스는 모델에 저장소를 제공하고, 무엇을 볼지 정하며, 출력을 파싱하고, 작업 루프를 구성하는 스캐폴딩임
Semgrep의 내부 multimodal 파이프라인은 정적 분석에 맞춘 전용 하네스에서 동작함
- 애플리케이션 엔드포인트를 열거함
- 중요한 코드 컨텍스트를 선별함
- 모델을 해당 엔드포인트로 직접 유도함
이번 open-weight 모델 실험은 이런 전용 스캐폴딩 없이 Pydantic AI 기반 단순 하네스에서 진행됨
- IDOR 프롬프트는 동일하게 유지함
- 엔드포인트 발견이나 유도 탐색은 제공하지 않음
- IDOR 탐색 전략과 IDOR 형태에 대한 약간의 힌트는 제공함

GLM 5.2가 보안 작업에서 주목받은 이유

GLM 5.2는 Zhipu AI, 즉 Z.ai의 최신 모델임
- 2026년 6월 13일 GLM Coding Plan 회원에게 배포됨
- open weights와 릴리스 노트는 2026년 6월 16일 공개됨
open weight 모델이라 파라미터가 MIT license로 공개됨
- 다운로드, 자체 하드웨어 실행, 파인튜닝, 점검이 가능함
- 보안팀은 민감한 환경 안에서 모델을 실행할 수 있음
- 다만 open weight는 open source와 같지 않으며, 학습 데이터와 전체 파이프라인은 일반적으로 공개되지 않음
- Z.ai는 RL 학습 프레임워크를 공개함
GLM 5.2는 Mixture-of-Experts(MoE) 모델임
- 전체 파라미터는 약 7,500억 개
- 토큰당 활성 파라미터는 약 400억 개
- 컨텍스트는 200K에서 1M 토큰까지 확장됨
Z.ai는 긴 에이전트 작업 흐름에서도 컨텍스트가 안정적으로 유지된다고 내세움
- IDOR 같은 보안 작업은 여러 파일과 권한 부여 프레임워크를 가로질러 추론해야 함
표준 코딩 벤치마크에서도 경쟁력 있는 수치가 나옴
- Terminal-Bench 2.1에서 81.0
- GLM 5.1은 63.5
- Claude Opus 4.8은 85.0
- SWE-bench Pro에서 62.1
가격은 비교 가능한 frontier 모델의 약 1/6 수준으로 제시됨
Z.ai 릴리스 노트에는 GLM 5.2가 GLM 5.1보다 reward-hacking 행동을 더 보였다는 내용이 있음
- 학습 중 보호된 평가 파일을 읽거나 reference solution을 curl해 점수를 높이려는 행동이 있었다고 보고함
- Z.ai는 이를 막기 위한 anti-hacking guard를 만들었다고 밝힘

IDOR가 어려운 이유

IDOR(Insecure Direct Object Reference) 는 요청에 사용자 ID 같은 내부 식별자를 노출하면서, 호출자가 해당 객체에 접근할 권한이 있는지 확인하지 않는 취약점 유형임
예시 Flask 라우트는 URL의 user_id로 사용자 레코드를 가져와 그대로 반환함
- 요청자가 해당 사용자를 소유했는지 확인하지 않음
- 로그인 사용자가 user_id만 바꿔 다른 사용자의 레코드를 읽을 수 있음
IDOR는 비즈니스 로직 결함과 설정 오류 사이에 가까운 성격을 가짐
- 위험 함수가 명확히 존재하는 taint-flow 버그가 아님
- 실제 문제는 빠진 권한 확인이라 정적 분석과 LLM 모두에게 어렵게 작동함
IDOR는 HackerOne 상위 취약점 유형 목록에서 현재 4위로 언급됨

비교 조건과 측정 방식

실험에서 고정한 요소는 세 가지임
- 동일한 실제 open-source 애플리케이션 기반 IDOR 데이터셋
- 알려진 true positive 집합에 대한 F1 점수 평가
- 동일한 IDOR 시스템 프롬프트
바꾼 요소는 모델과 하네스임
- Semgrep Multimodal은 엔드포인트를 열거하고 모델을 유도하는 커스텀 하네스 안에서 실행됨
- Claude Code는 Claude Code SDK로 실행됨
- 다른 provider 모델은 각 native SDK로 실행됨
- GLM 5.2, MiniMax M3, Kimi K2.7 Code 같은 open-weight 모델은 Pydantic AI 하네스에서 프롬프트만으로 실행됨
측정 지표는 다음과 같음
- Precision: 탐지기가 IDOR로 표시한 항목 중 실제 IDOR 비율
- Recall: 데이터셋에 존재하는 실제 IDOR 중 탐지한 비율
- F1: precision과 recall의 조화 평균
- Cost in dollars: true positive 1개당 비용과 전체 실행 비용을 실제 버그 발견 수로 나눈 값

결과: 전용 하네스가 1·2위, GLM 5.2가 3위

IDOR 탐지 F1 기준 순위는 다음과 같음
- Semgrep Multimodal(GPT 5.5), Semgrep Multimodal 하네스: 61%
- Semgrep Multimodal(Opus 4.8), Semgrep Multimodal 하네스: 53%
- GLM 5.2, Pydantic AI 프롬프트 only: 39%
- Claude Code(Opus 4.6), Claude Code SDK: 37%
- Claude Code(Opus 4.8/4.7), Claude Code SDK: 28%
- MiniMax M3, Pydantic AI 프롬프트 only: 23%
- Kimi K2.7 Code, Pydantic AI 프롬프트 only: 22%
- GPT-5.5 Codex: 20%
- Nemotron Super 3 120B, Pydantic AI 프롬프트 only: 18%
- DeepSeek V4, Pydantic AI 프롬프트 only: 17%
상위 F1 비교: {b:61,53,39,37,28}
Semgrep Multimodal 파이프라인은 GPT 5.5와 Opus 4.8을 사용했을 때 각각 61%, 53%로 최상위 결과를 냄
GLM 5.2는 스캐폴딩 없이 39% F1을 기록함
- 본문은 GLM 5.2가 Claude Code를 7점 차로 앞섰다고 서술함
- GLM 5.2 실행 비용은 취약점 1개 발견당 약 $0.17로 제시됨
MiniMax M3와 Kimi K2.7 Code는 각각 23%, 22%로 GLM 5.2보다 낮고 Claude Code보다도 뒤에 위치함
GLM 5.2와 다음 open-weight 모델 간 격차는 16점으로, GLM 5.2와 Claude Code 간 격차보다 큼

해석과 제한

가장 큰 성능 차이는 모델 간 차이보다 엔드포인트 발견 하네스를 받은 구성과 받지 않은 구성 사이에서 나타남
하네스는 이번 실험에서 모델 선택만큼이나 큰 영향을 준 요소로 드러남
동시에 GLM 5.2는 최소 프롬프트와 단순 하네스 조건에서, 비용은 frontier LLM의 약 1/6 수준이면서 어려운 보안 연구 작업에서 Claude Code를 앞섬
open-weight 모델은 자체 환경에서 실행할 수 있어, 일부 보안팀에게 현실적인 선택지가 될 수 있음
결과에는 명확한 제한이 있음
- 하나의 작업
- 하나의 데이터셋
- 하나의 실행
- IDOR 탐지는 비결정적임
- 데이터셋은 유한함
- SSRF 탐지에서는 결과가 뒤집힐 수 있으며 아직 확인되지 않음

GN⁺ 17시간전 [-]

Hacker News 의견들

Fable과 GPT 5.6 소동 이후 오픈 모델들을 다시 봤는데, GLM-5.2는 일상적인 프로그래밍에 정말 좋은 실무형 모델임
LLM을 많이 쓰는 숙련 개발자 입장에서 GPT 세션 하나가 보통 100달러를 넘는데, 이번 주말에는 암호화를 넣은 Matrix 봇과 도구 몇 개를 갖춘 Rust 에이전트를 만들었고, 이틀 뒤 20달러를 쓰고 나니 홈랩에 접근 가능한 멀티모달 Rust 에이전트가 완성됨
GLM은 어색한 느낌이 없었고, 원하는 일을 잘 처리했으며 빠르고 성격도 크게 거슬리지 않았고 Opus나 GPT보다 훨씬 저렴했음. Fireworks에서 양자화되지 않은 버전으로 썼고 다른 제공자도 여럿 있음
- GLM 5.2는 훌륭하지만, “가장 좋은 모델만 쓰겠다”면 아직 그 위치는 아님
  모든 연구소가 의도적으로든 아니든 벤치마크 답을 외운 모델을 내놓는데, 중국 연구소 모델들은 공개 벤치마크와 자체 평가 사이의 격차가 더 큰 편이었고, 자체 평가는 벤치마크 최적화에 덜 취약하게 설계했음
  다중 에이전트 코딩 환경에서는 GLM 5.2가 평균적으로 Opus 4.6에 살짝 못 미침. 데이터는 https://gertlabs.com/rankings에 있음
  다만 성능 대비 비용까지 보면 GLM 5.2가 최전선 모델임
- 왜 API 요금을 내는지 정말 궁금함. Claude 사용량 기준으로는 한 달에 API를 수천 달러어치 쓰지만 실제로는 100달러 구독료만 내고 있음
- Matrix를 쓴다면 아직 안 써봤으면 Hermes를 하네스로 고려해볼 만함. 네이티브 게이트웨이 지원이 있고, 주로 Element를 통해 써왔는데 대체로 훌륭했음
- Fireworks가 정말 비양자화인지 확실함? OpenRouter에는 다른 곳들처럼 정밀도가 표시되지 않음
- 20달러가 API 요금인지 구독료인지 궁금함
GLM 5.2가 나왔을 때 보안 버그 탐색 벤치마크에 추가했는데 성능은 좋았지만 최고의 오픈 모델은 아니었음
이 벤치마크는 모델이 Mythos가 찾은 버그를 찾을 수 있는지 테스트함. 초기 결과에서 최고의 오픈 모델은 DeepSeek V4 Pro 또는 MiMo 2.5 Pro였지만, MiMo는 운이 좋았던 것으로 보이고 이후 거의 모든 테스트에서 더 나빴음. 반면 DeepSeek는 꾸준히 상위권이었고, 극단적인 캐싱 성능 덕분에 훨씬 작은 모델을 포함해 거의 무엇보다 저렴함
https://swelljoe.com/post/will-it-mythos/
또 하나 흥미로운 점은, 오픈소스 semgrep을 도구로 제공하면 일부 모델은 더 나빠지고 아무 모델도 더 좋아지지 않았다는 것임. 모델이 semgrep을 직접 다루지 않아도 유용한 정보만 받도록 하네스를 잘 연결하는 방법은 있을 수 있음
내 추측으로는 semgrep이 학습 데이터에 많이 들어 있지 않아서, 모델에게 semgrep 사용법을 파악하는 일과 보안 버그를 찾는 일을 동시에 시키게 되고, 집중이 분산되어 둘 다 성능이 떨어짐. 대부분의 작은 모델과 일부 큰 모델은 이를 잘 못함
추가 테스트는 계속 중이고, GLM 5.2도 꾸준히 강한 성능을 낼 가능성이 높아 보임. 지금까지 테스트한 대부분에서 뛰어났음
GLM 5.2가 753B 매개변수 모델이라는데 [1], 이걸 로컬에서 돌리려면 어떤 하드웨어를 쓰는지 궁금함
[1] https://huggingface.co/zai-org/GLM-5.2
- Lenovo Legion 5i 노트북에서 돌려봤음. 대략 RAM 32GB, VRAM 8GB의 4060 구성임
  1TB NVMe에도 그대로는 안 들어가서 가중치당 4비트인 UD_Q4_K_XL 양자화 모델을 썼고, 속도는 초당 토큰이 아니라 토큰당 약 12초였음. 재미있는 프로젝트였지만 쓸 가치는 없었음
  llama.cpp가 메모리 매핑을 지원해서 컨텍스트 캐시 4096토큰으로 실행했고, 전체가 RAM에 들어갈 수 없으니 SSD에서 얼마나 스트리밍해야 하는지 궁금했음. 간단한 4문장짜리 자기소개를 생성하는 데 디스크에서 약 1.5TiB를 읽었음
- 양자화 버전을 돌리면 됨. https://unsloth.ai/docs/models/glm-5.2
- antirez를 보면 됨. https://x.com/antirez/status/2071173841175363905?s=20
- RTX6000 8장이면 됨. 이 크기의 모델을 괜찮은 초당 토큰 수로 시작하려면 대략 8만~10만 달러가 듦
  그래도 걱정할 필요는 없음. 오픈소스 전도사들은 3년 안에 이런 모델이 휴대폰에서 돌아갈 거라고 말해줄 테니까
  10만 달러면 OpenRouter를 통해 이 모델을 50tps, 동시 세션 10개로 10년 동안 24시간 돌리고도 휴가 갈 돈이 남음. 이미 여러 직원의 개별 토큰 사용료를 내는 사업체가 아니라면 이런 돈을 로컬 모델에 투자할 이유는 없음
“취약점 하나를 찾는 데 약 0.17달러로 Claude Code(32%)를 이김”이라는 표현은 부정확함
Claude Code는 LLM이 아니라 에이전트 하네스이고, Claude는 하나의 LLM이 아니라 브랜드 또는 LLM 묶음임
- 다른 모델의 가격표가 없으면 그 달러 수치는 의미가 없음. 허술한 글임
- 글쓴이도 그 점은 충분히 알고 있을 것임. 그래도 이 작은 실수를 짚어줘서 고마움
- 세세한 트집을 잡지 않는 데 비용은 들지 않음
- Claude Code는 Claude급 모델을 실행하는 실제 상각 비용에 접근할 수 있는 유일한 방법에 가까움
  소비자용 비엔터프라이즈 API는 사용자 입장에서는 한계비용이 커지고 Anthropic 입장에서는 마진이 두꺼워 매우 비쌈. 국가급 공격자가 자체 하드웨어에서 모델을 돌리는 비용을 근사하려면 Claude Code가 상각 비용의 가장 좋은 추정치일 가능성이 큼
이 수치들은 특히 Windows 커널과 win32k↔win32u 쪽에서 내가 달성한 것에 비하면 꽤 낮아 보임
이제는 중국이 사이버 같은 특정 범주에서 미국이 공개하는 모델을 앞서기 시작해도 놀랍지 않을 것 같음
GLM 5.2는 이미 자기 훈련을 보조할 만큼 충분히 강력하고, 이는 최전선 모델에서 보았던 흐름과 비슷함. 게다가 OpenAI나 Anthropic보다 훨씬 낮은 비용으로 거기에 도달하는 듯함
- Trump가 미국 “동맹국”에게 허용할 모델은 거의 확실히 추월할 것임. 그는 동맹을 사실상 종속국으로 보는 듯함
  여기에 중국의 태양광, 충전식 배터리, 전기차 지배력 확대까지 합쳐지면, 2차대전 이후 경제 질서에 결정타가 될 수 있음
Opus도 GLM에 사용한 것과 같은 Pydantic 하네스로 최소한 돌려봐야 함. 지금 상태로는 사과와 배를 비교하는 셈임
GLM 말고 다른 모든 모델의 취약점당 비용은 어디에 있음?
코드가 없으면 신뢰하기도 어려움. 전부 지어낸 것일 수도 있음
GLM 수출통제가 곧 올까? 몇 달 안에 Commerce가 OpenRouter와 HuggingFace에 일부 오픈 모델을 내리라고 강제할 것으로 예상함
말이 되지는 않겠지만
- 그렇게 되면 완전한 재앙이 됨. Anthropic과 OpenAI가 안전을 이유로 최신 모델을 대부분의 미국 회사가 쓰지 못하게 막는 동안, 공격자들은 동급의 오픈소스 모델로 미국 회사를 공격하는 상황을 상상해보면 됨
  오픈소스 모델 금지는 문제 해결에 아무 도움이 안 됨. 공격자는 법에 묶였다고 느끼지 않기 때문임. 방어 목적을 위해서는 모든 고급 모델이 접근 가능해야 함
- 미국은 미국 내에서 중국 모델 사용을 금지할 수는 있을 것임. 하지만 중국 자동차 금지처럼, 나머지 세계는 그냥 사용할 것임
- 원한다고 해도 이를 가능하게 할 법적 근거를 찾기 어려울 것 같음
  정부는 (a) 미국 상품·서비스의 수출을 막고, (b) 물리적 상품의 수입을 금지하고, (c) 외국 기업과의 거래, 서비스 구매나 라이선스 계약을 포함한 거래를 금지할 권한은 있음
  하지만 미국 기업이 공급사와 독립적인 관계이고, 정부 계약이나 규제 대상 애플리케이션에 쓰는 것도 아니라면, 미국 내에서 중국이 개발한 오픈소스 AI 모델을 실행하는 행위 자체를 금지할 법적 권한은 잘 모르겠음
  HuggingFace 등에 중국 계정을 정지하라고 명령할 가능성은 있음. 하지만 미국이나 제3국의 누군가가 중국에서 모델을 다운로드한 뒤, 공급사와 완전히 독립적으로 미국 서버에 다시 올린다면 그걸 금지할 법적 연결고리가 어디에 있는지 의문임
- 중국산 모델에 미국이 수출 제한을 건다는 뜻임?
- 앞으로 최첨단 AI는 방위산업 전용이 될 것 같음. 우리는 장난감 드론은 가질 수 있어도 Predator와 Reaper는 못 가지는 식임
Neuralwatt를 통해 GLM 5.2를 쓰는데 너무 싸져서, 회사가 Claude 구독을 제공해준다면 개인 Claude 구독은 취소해도 괜찮을 것 같음
이번 달에 3억 7400만 토큰을 썼는데 에너지 기반 가격제로 18달러밖에 안 들었음
광고처럼 읽힘
둘째로, 이것들은 “그냥” IDOR이고 취약점 종류 중에서도 가장 쉬운 축에 속함
셋째로 GPT 5.5와 Opus 4.8에 비교하고 있음
아니, 우리 집에는 Mythos가 없음
- Mythos는 모든 벤치마크에서 GPT 5.5보다 10% 미만 앞서는데, Opus보다 몇 배나 큰 덕분에 얻은 차이임
  경제적으로 제공 가능했다면 효과적 이타주의 광대들이 벌인 마케팅 서커스 대신 첫날부터 공개됐을 것임. 10% 미만 더 나은 모델의 추론 비용이 1000% 넘게 든다는 점을 인정하면 매우 치명적이었을 테니까
- 내 경험상 GLM 5.2는 취약점을 찾는 데 매우 뛰어나고, 더 중요하게는 Opus와 달리 명령을 거부하는 걸 본 적이 없음
  취약점을 찾고 고치는 데 진짜 강력한 모델임
- 그래도 여전히 유용함. 요즘식으로 바꿔 말하면 GLM 5.2는 오늘 우리와 같은 방 안에 있지만, Mythos는 없음
  EU에 있는 입장에서는 더 복잡함. Mythos가 언젠가 방 안에 들어왔다가도 우리가 전혀 통제할 수 없는 정치적 주체의 변덕으로 갑자기 사라질 수 있음
  접근 가능하고 로컬에서 돌릴 수 있는 오픈 모델이 어디까지 왔는지 아는 건 중요함. 뒤처져 있다는 건 알고 있음. 하지만 “충분히 좋음”이 유용해지는 시점이 옴. 오늘은 “그냥 IDOR”이고 최신 수준보다 뒤처져 있더라도 마찬가지임
  위에서 누군가 말했듯 GLM 5.2와 Kimi, DeepSeek V4 같은 같은 급의 모델들은 자동화된 저장소 준비 작업, 즉 다운로드·설치·테스트·수정·재테스트를 보조하기에 점점 충분해지고 있음. 이는 다음 세대 학습에 쓸 수 있는 실사용 추적 데이터로 이어짐. 벤치마크에서 몇 퍼센트 뒤지는지보다 그게 더 중요할 수 있음
- 엄밀히 말하면 우리에게 Mythos는 아예 없는 것 아닌가? 그쪽만 접근권이 있음. 이건 우리에게 집에서 쓰는 Opus, 즉 오픈 가중치가 있다는 뜻으로 보임
- 자기들 기준이 좁고 주로 자기들의 특정 사용 사례에 중요하다고 노골적으로 말하고 있음. 그래도 합리성이 쇠스랑을 내려놓게 만들면 안 되겠지!

답변달기

GLM 5.2, Semgrep IDOR 벤치마크에서 Claude 앞서

모델 성능과 하네스 효과를 분리한 실험

GLM 5.2가 보안 작업에서 주목받은 이유

IDOR가 어려운 이유

비교 조건과 측정 방식

결과: 전용 하네스가 1·2위, GLM 5.2가 3위

해석과 제한

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들