# Project Glasswing: 초기 업데이트

> Clean Markdown view of GeekNews topic #29790. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=29790](https://news.hada.io/topic?id=29790)
- GeekNews Markdown: [https://news.hada.io/topic/29790.md](https://news.hada.io/topic/29790.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-05-23T17:45:51+09:00
- Updated: 2026-05-23T17:45:51+09:00
- Original source: [anthropic.com](https://www.anthropic.com/research/glasswing-initial-update)
- Points: 1
- Comments: 1

## Topic Body

- **Project Glasswing**은 강력한 AI 모델 악용에 앞서 중요 소프트웨어를 보호하려는 협력 프로젝트로, 약 50개 파트너가 참여함
- Claude Mythos Preview는 파트너 코드에서 **1만 개 이상**의 높음·치명적 취약점을 찾았고, 여러 파트너의 발견 속도는 10배 이상 빨라짐
- 오픈소스 1,000개 이상에서 **23,019개 취약점**을 추정했으며, 검증된 1,752개 중 90.6%가 실제 양성으로 확인됨
- 병목은 취약점 발견에서 **검증·보고·패치·배포**로 이동했으며, 높은·치명적 버그는 평균 패치까지 2주가 걸림
- Anthropic은 Mythos급 모델을 아직 일반 공개하지 않았고, 개발자와 방어자는 **패치 주기 단축**과 기본 보안 통제 강화가 필요함

---

### 초기 결과와 공개 원칙
- [Project Glasswing](https://www.anthropic.com/glasswing)은 더 강력한 AI 모델이 악용되기 전에 세계적으로 중요한 소프트웨어를 보호하기 위한 협력 프로젝트임
- Anthropic과 약 **50개 파트너**는 Claude Mythos Preview로 중요 소프트웨어에서 심각도 높음 또는 치명적 수준의 취약점을 **1만 개 이상** 찾아냄
- 소프트웨어 보안의 병목은 새 취약점을 찾는 속도에서, AI가 찾아낸 대량의 취약점을 **검증·공개·패치**하는 속도로 옮겨감
- ## 취약점 공개 방식
  - 일반적인 취약점 공개 관행은 새 취약점 발견 후 **90일 뒤** 공개하거나, 90일 전에 패치가 준비되면 패치 제공 후 약 **45일 뒤** 공개하는 방식임
  - Anthropic의 [Coordinated Vulnerability Disclosure policy](https://www.anthropic.com/coordinated-vulnerability-disclosure)도 이 방식을 따르며, 최종 사용자가 공격 전에 업데이트할 시간을 확보하려는 절차임
  - Mythos Preview가 찾은 파트너 취약점의 세부 내용을 조기 공개하면 최종 사용자가 위험해질 수 있어, 현재는 **대표 예시**와 **집계 통계** 중심으로 공유 중
  - 패치가 널리 배포된 뒤에는 더 상세한 기술 내용이 공개될 예정임

### 파트너와 외부 평가에서 드러난 성능
- Project Glasswing의 초기 파트너들은 인터넷과 필수 인프라 작동에 핵심적인 소프트웨어를 만들고 유지함
- 이 코드의 결함을 고치면 해당 소프트웨어에 의존하는 많은 조직과 **수십억 최종 사용자**의 위험이 줄어듦
- 프로젝트 시작 한 달 뒤 대부분의 파트너는 각자 수백 개의 치명적 또는 높은 심각도 취약점을 찾았고, 전체 발견 수는 **1만 개 이상**에 도달함
- 여러 파트너의 버그 발견 속도는 **10배 이상** 빨라짐
- [Cloudflare](https://blog.cloudflare.com/cyber-frontier-models/)는 핵심 경로 시스템에서 **2,000개 버그**를 찾았고, 그중 **400개**는 높은 또는 치명적 심각도였으며, 오탐률은 인간 테스터보다 낫다고 평가함
- ## 외부 테스트와 벤치마크
  - 영국 [AI Security Institute](https://www.aisi.gov.uk/blog/how-fast-is-autonomous-ai-cyber-capability-advancing)는 Mythos Preview를 자사 두 개의 사이버 레인지, 즉 다단계 사이버 공격 시뮬레이션을 처음으로 끝까지 해결한 모델로 평가함
  - [Mozilla](https://blog.mozilla.org/en/privacy-security/ai-security-zero-day-vulnerabilities/)는 Firefox 150 테스트에서 [271개 취약점](https://hacks.mozilla.org/2026/05/behind-the-scenes-hardening-firefox/)을 찾아 수정했으며, 이는 Firefox 148에서 Claude Opus 4.6으로 찾은 수보다 **10배 이상** 많음
  - 독립 보안 플랫폼 [XBOW](https://xbow.com/blog/mythos-offensive-security-xbow-evaluation)는 Mythos Preview가 웹 익스플로잇 벤치마크에서 기존 모든 모델보다 “상당한 도약”을 보였고, 토큰당 기준으로 “전례 없는 정밀도”를 제공한다고 평가함
  - [ExploitBench](http://exploitbench.ai)와 [ExploitGym](https://arxiv.org/abs/2605.11086)은 익스플로잇 개발 역량을 측정하는 최근 학술 벤치마크이며, Mythos Preview가 가장 강한 성능을 보임
- ## 패치 배포 속도의 변화
  - Palo Alto Networks의 최신 릴리스에는 평소보다 [5배 이상](https://www.paloaltonetworks.com/blog/2026/05/defenders-guide-frontier-ai-impact-cybersecurity-may-2026-update/) 많은 패치가 포함됨
  - Microsoft는 새 패치 수가 “한동안 계속 증가 추세를 보일 것”이라고 [밝힘](https://www.microsoft.com/en-us/msrc/blog/2026/05/a-note-on-patch-tuesday)
  - Oracle은 제품과 클라우드 전반에서 취약점을 이전보다 [여러 배 빠르게](https://blogs.oracle.com/security/accelerating-vulnerability-detection-and-response-at-oracle) 찾고 수정하는 중
  - Mythos Preview는 취약점 탐지 외 보안 작업에도 쓰였으며, 한 Glasswing 파트너 은행에서는 위협 행위자가 고객 이메일 계정을 침해하고 스푸핑 전화까지 사용한 뒤 시도한 **150만 달러** 규모의 사기 송금을 탐지하고 차단하는 데 기여함

### 오픈소스 스캔 결과
- Anthropic은 최근 몇 달간 Mythos Preview로 인터넷과 자체 인프라의 상당 부분을 떠받치는 **1,000개 이상 오픈소스 프로젝트**를 스캔함
- Mythos Preview는 이 프로젝트들에서 총 **23,019개** 취약점을 추정했으며, 그중 **6,202개**를 높은 또는 치명적 심각도로 평가함
- ## 검증된 취약점 수치
  - 높은 또는 치명적 심각도로 평가된 취약점 중 **1,752개**는 6개 독립 보안 연구 업체 또는 일부 경우 Anthropic이 신중히 평가함
  - 이 중 **90.6%**, 즉 **1,587개**가 실제 양성으로 확인됨
  - 이 중 **62.4%**, 즉 **1,094개**는 높은 또는 치명적 심각도로 확정됨
  - 현재 사후 분류 기준의 실제 양성률을 적용하면, Mythos Preview가 더 이상 새 취약점을 찾지 않아도 오픈소스 코드에서 거의 **3,900개**의 높은 또는 치명적 심각도 취약점이 드러날 전망임
  - Anthropic은 오픈소스 코드 스캔을 당분간 계속할 예정이므로 이 숫자는 더 늘어날 것으로 예상됨
- ## wolfSSL 취약점 예시
  - [wolfSSL](https://www.wolfssl.com/)은 보안성으로 알려진 오픈소스 암호화 라이브러리이며 전 세계 수십억 기기에서 사용됨
  - Mythos Preview는 공격자가 인증서를 위조할 수 있게 하는 [익스플로잇](https://www.wolfssl.com/how-claude-mythos-preview-helped-harden-wolfssl/)을 구성함
  - 이 취약점은 공격자가 은행이나 이메일 제공업체의 가짜 웹사이트를 운영할 수 있게 만들며, 최종 사용자에게는 정상 사이트처럼 보이지만 실제로는 공격자가 제어하는 사이트가 됨
  - 해당 취약점은 이미 패치됐고 [CVE-2026-5194](https://nvd.nist.gov/vuln/detail/CVE-2026-5194)가 부여됨
  - 전체 기술 분석은 향후 몇 주 안에 공개될 예정임

### 검증·공개·패치 병목
- Mythos Preview로 취약점 발견은 크게 쉬워졌지만, 병목은 버그를 **분류·보고·패치 설계·배포**하는 인간 처리 역량에 있음
- Anthropic은 스캔한 [오픈소스 취약점 대시보드](https://red.anthropic.com/2026/cvd/)를 공개해 조율된 공개 절차의 각 단계와 진행 상황을 추적함
- 각 단계에서 수가 크게 줄어드는 현상은 취약점 하나하나를 검증하고 수정하는 데 필요한 **인간 작업량**을 반영함
- Anthropic 또는 외부 보안 업체는 Mythos가 찾은 문제를 재현하고 심각도를 다시 평가한 뒤, 기존 수정 여부를 확인하고 유지관리자에게 보낼 상세 보고서를 작성함
- 오픈소스 유지관리자들은 기존 유지관리 부담에 더해 품질 낮은 AI 생성 버그 보고서의 홍수까지 감당하는 중
- 여러 유지관리자는 처리 역량이 심각하게 제한돼 있으며, 일부는 패치를 설계할 시간이 필요하다며 공개 속도를 늦춰 달라고 요청함
- Mythos Preview가 찾은 높은 또는 치명적 심각도 버그는 평균적으로 **패치까지 2주**가 걸림
- ## 공개와 패치 현황
  - 유지관리자 요청에 따라 추가 평가 없이 버그를 직접 공개하는 경우도 있음
  - 현재까지 검증되지 않은 버그 **1,129개**가 직접 보고됐고, 그중 Mythos Preview가 높은 또는 치명적 심각도로 추정한 것은 **175개**임
  - 현재까지 유지관리자에게 공개한 높은 또는 치명적 심각도 버그는 약 **530개**로 추산됨
  - 추가로 **827개**의 확인된 취약점이 있으며, 같은 방식으로 높은 또는 치명적 심각도로 추정되고 최대한 빠르게 공개될 예정임
  - 보고된 높은 또는 치명적 심각도 버그 **530개** 중 **75개**가 패치됐고, 그중 **65개**에는 공개 권고문이 부여됨
  - [Coordinated Vulnerability Disclosure policy](https://www.anthropic.com/coordinated-vulnerability-disclosure)의 **90일 창구**가 아직 초기 단계라 앞으로 더 많은 패치가 나올 것으로 예상됨
  - 일부 취약점은 공개 권고문 없이 패치되므로, Claude로 직접 패치 여부를 스캔해야 해 패치 수가 과소 집계됐을 가능성이 있음
  - 취약점 발견은 쉬워졌지만 수정은 느린 불균형이 사이버보안의 큰 과제로 떠오르며, 이를 잘 다루면 소프트웨어는 이전보다 훨씬 안전해질 수 있음

### 새로운 사이버보안 국면에 대한 대응
- Mythos Preview와 비슷한 사이버보안 역량을 가진 모델은 곧 더 널리 사용 가능해질 전망임
- 소프트웨어 업계 전반에서 이런 모델들이 만들어낼 대량의 발견 결과를 관리하기 위한 **더 큰 규모의 노력**이 필요함
- 취약점 발견, 패치 작성, 최종 사용자에게 패치가 널리 배포되는 시점 사이에는 지금도 긴 지연이 자주 존재함
- Mythos급 모델은 취약점을 찾고 악용하는 데 필요한 시간과 비용을 크게 줄여, 이러한 지연이 만들어내는 위험을 키움
- 장기적으로 Mythos급 모델은 배포 전에 버그를 잡아 개발자가 훨씬 안전한 소프트웨어를 만들도록 도울 수 있음
- 하지만 취약점은 빠르게 발견되고 패치는 느리게 이뤄지는 중간 시기에는 새로운 위험이 생김
- ## 소프트웨어 개발자에게 필요한 조치
  - 개발자는 **패치 주기**를 줄이고 보안 수정 사항을 가능한 한 빠르게 제공해야 함
  - 공개적으로 이용 가능한 AI 모델을 신중히 활용하면 이 작업에 도움이 될 수 있음
  - 사용자가 최신 버전을 유지하도록 업데이트 설치를 최대한 쉽게 만들어야 함
  - 알려진 취약점이 있는 소프트웨어를 계속 실행하는 사용자에게는 가능한 범위에서 더 끈질기게 업데이트를 유도해야 함
- ## 네트워크 방어자에게 필요한 조치
  - 네트워크 방어자는 패치 테스트와 배포 일정을 단축해야 함
  - [National Institute of Standards and Technology](https://www.nist.gov/cyberframework)와 영국 [National Cyber Security Centre](https://www.ncsc.gov.uk/collection/10-steps/risk-management)가 제시한 핵심 통제는 특정 패치가 제때 적용되는지에 의존하지 않고 보안을 높이므로 더 중요해짐
  - 기본 네트워크 설정 강화, 다중 인증 강제, 탐지와 대응을 위한 포괄적 로그 유지 같은 조치가 여기에 포함됨

### 공개 AI 모델을 활용한 방어 도구
- 일반적으로 이용 가능한 많은 모델도 가장 정교한 취약점을 찾거나 Claude Mythos Preview만큼 효과적으로 악용하지는 못하지만, 이미 많은 소프트웨어 취약점을 찾을 수 있음
- Project Glasswing은 여러 조직이 일반 공개 모델로 자체 코드베이스를 점검하도록 촉진했으며, Anthropic은 이를 더 쉽게 만들기 위한 작업을 진행 중
- ## Claude Security
  - [Claude Security](https://claude.com/product/claude-security)는 Claude Enterprise 고객을 대상으로 공개 베타로 출시됨
  - 팀이 코드베이스의 취약점을 스캔하고 제안 수정안을 생성하도록 돕는 도구임
  - 출시 후 3주 동안 Claude Opus 4.7은 **2,100개 이상 취약점**을 패치하는 데 사용됨
  - 기업은 자체 코드를 고치는 반면 오픈소스 수정은 보통 조율된 공개 절차와 자원봉사 유지관리자가 필요해, Claude Security의 패치 속도가 앞선 오픈소스 패치보다 빠름
- ## Cyber Verification Program
  - [Cyber Verification Program](https://support.claude.com/en/articles/14604842-real-time-cyber-safeguards-on-claude)은 보안 전문가가 합법적 사이버보안 목적에 Anthropic 모델을 사용할 수 있게 함
  - 취약점 연구, 침투 테스트, 레드팀 활동 같은 용도에서는 사이버 오용 방지를 위한 일부 보호장치 없이 모델을 사용할 수 있음
- ## Mythos Preview와 함께 쓰인 도구
  - Anthropic과 파트너가 Mythos Preview와 함께 사용한 도구는 자격을 갖춘 고객 보안팀에 요청 기반으로 제공됨
  - 목표는 복잡한 설정 없이도 강력한 공개 모델의 성능을 더 잘 활용하도록 돕는 것임
  - [skills](https://code.claude.com/docs/en/skills): Anthropic과 파트너가 만들고 공유한 반복 작업용 사용자 지정 지침
  - 하네스(harness): Claude가 코드베이스를 매핑하고, 스캔 하위 에이전트를 띄우고, 발견 사항을 분류하고, 보고서를 작성하도록 돕는 구성
  - 위협 모델 빌더: 코드베이스를 매핑해 잠재적 공격 대상을 식별하고 모델 작업의 우선순위를 정함
  - Cisco는 Project Glasswing 파트너 중 하나이며, 다른 방어자가 Cisco와 유사한 평가 시스템을 만들 수 있도록 [Foundry Security Spec](https://blogs.cisco.com/ai/announcing-foundry-security-spec)을 최근 오픈소스로 공개함

### 생태계 지원과 다음 단계
- Anthropic은 Open Source Security Foundation의 Alpha-Omega 프로젝트와 [파트너십](https://openssf.org/press-release/2026/03/17/linux-foundation-announces-12-5-million-in-grant-funding-from-leading-organizations-to-advance-open-source-security/)을 맺어, 유지관리자가 버그 보고서를 처리하고 분류하는 작업을 지원함
- Anthropic은 프런티어 AI 모델의 익스플로잇 개발 역량을 시간에 따라 추적할 수 있는 새 벤치마크 [ExploitBench](http://exploitbench.ai)와 [ExploitGym](https://rdi.berkeley.edu/blog/exploitgym/) 개발을 지원함
- 이 벤치마크 관련 내용은 [Frontier Red Team blog](https://red.anthropic.com/2026/exploit-evals/)에서 더 다룸
- [External Researcher Access Program](https://support.claude.com/en/articles/9125743-what-is-the-external-researcher-access-program)을 통해 다른 고품질 정량 벤치마크 개발도 지원함
- [Claude for Open Source](https://claude.com/contact-sales/claude-for-oss)는 유지관리자와 기여자를 지원하며, Anthropic은 앞으로 자체적으로 채택하는 모든 오픈소스 패키지를 스캔하겠다고 밝힘
- AI 발전 속도를 고려하면 Mythos Preview만큼 강력한 모델은 곧 여러 AI 회사에서 개발될 전망임
- 현재 Anthropic을 포함한 어떤 회사도 이런 모델이 오용되어 심각한 피해를 일으키는 것을 막을 만큼 강력한 보호장치를 개발하지 못함
- 이 때문에 Anthropic은 아직 **Mythos급 모델**을 일반에 공개하지 않음
- Project Glasswing은 비슷한 역량의 모델이 충분한 보호장치 없이 공개될 경우, 세계 거의 누구에게나 결함 있는 소프트웨어를 악용하는 일이 훨씬 싸고 쉬워질 수 있다는 문제의식에서 시작됨
- Glasswing은 가장 시스템적으로 중요한 사이버 방어자가 **비대칭적 우위**를 얻도록 돕지만, 가능한 한 많은 조직이 방어력을 강화해야 할 긴급한 필요가 있음
- Anthropic은 미국 및 동맹국 정부를 포함한 핵심 파트너와 협력해 Project Glasswing을 추가 파트너로 확대할 예정임
- 필요한 훨씬 강력한 보호장치를 개발한 뒤, 가까운 미래에 Mythos급 모델을 일반 출시 형태로 제공하는 것을 목표로 함
- 장기 목표는 중요한 코드가 현재보다 훨씬 더 강하게 보호되고, 해킹이 훨씬 덜 흔한 환경을 만드는 것임

## Comments



### Comment 58109

- Author: neo
- Created: 2026-05-23T17:45:51+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=48240419) 
- Codex Security를 실험 삼아 켰다가 1주도 안 돼서 팀 전체에 필수 도구가 됨  
  정확도가 놀라울 정도였고, 기존 코드에서 보안 이슈를 많이 찾아냈으며, 커밋할 때마다 계속 잡아줌  
  우리 기준으로는 약 **90% 정확도**이고, “Low”로 표시된 항목도 파고들어 보면 실제로 악용 가능했던 경우가 많았음  
  이런 실수는 주니어부터 시니어까지 모두 하는 **버그의 한 종류**라서, 앞으로는 AI로 코딩하고 AI로 리뷰하고 AI로 취약점을 찾는 흐름이 개발 생명주기의 일반적인 일부가 될 것 같음
  - 그럼 Claude Code가 **보안 버그**를 만들고, Claude Security가 찾고, Claude Code가 수정안을 만들면서 토큰을 쓰고, 수익을 내는 구조라는 건가?
  - [https://blog.chuanxilu.net/en/posts/2026/05/dual-pass-review...](<https://blog.chuanxilu.net/en/posts/2026/05/dual-pass-review-recall-precision-tradeoff/>)  
    설계부터 코딩까지 개발의 각 단계에서 문제와 버그를 파고드는 **반복 루프**를 써서, 결과 소프트웨어가 의도대로 제대로 동작하는지 확인하는 방식으로 해봤음
  - 비슷한 경험을 했음  
    UI가 조금 헷갈리는데, “스캔 5개”라고 표시되지만 스캔 1개는 저장소의 기본 브랜치를 **지속적으로 감시**하는 걸 뜻함  
    영향도가 높은 발견 항목은 거의 전부 정확했고, 특히 문서 품질과 수정 제안이 좁고 정확한 점이 놀라웠음  
    Codex는 보통 필요한 것보다 코드를 꽤 많이 만드는 데 익숙했지만, 보안 모델의 수정안은 자주 **10줄 미만**이고 정확한 위치만 겨냥함  
    베타가 끝나면 꽤 비싸질 것 같지만, 기업 입장이라면 바로 도입하고 싶을 정도로 좋음
  - LLM에서 본 문제 중 하나는 “안전”을 명분으로 **불필요한 코드**를 추가하고, 예전에는 유용했지만 지금은 표준 라이브러리가 제대로 처리하는 것들을 자신 있게 잔뜩 생성한다는 점임  
    코드에서는 적을수록 좋다고 보는 편이라, 이런 흐름이 꽤 답답함  
    이 함정을 어떻게 피함?
  - gpt-5.5-cyber를 **오케스트레이터**로 두고 deepseek-v4-flash나 다른 빠르고 저렴한 모델을 작업자 모델로 쓰는 구성을 추천함  
    이 구성으로 꽤 좋은 결과가 나오고 있음

- Anthropic의 업데이트와 여기 일부 과열된 반응을, curl 유지보수자 Daniel Steinberg의 최근 평가와 어떻게 조화시켜야 할지 잘 모르겠음  
  “이 설정[Mythos]이 Mythos 이전 다른 도구들보다 특별히 더 높거나 진보된 수준으로 이슈를 찾아낸다는 증거는 보이지 않는다. 이 모델이 조금 더 나을 수는 있지만, 그렇다 해도 코드 분석에 의미 있는 변화를 만들 정도로 낫지는 않다.”  
  [https://daniel.haxx.se/blog/2026/05/11/mythos-finds-a-curl-v...](<https://daniel.haxx.se/blog/2026/05/11/mythos-finds-a-curl-vulnerability/>)
  - 맞는 말이고, 유효한 데이터 포인트임  
    하지만 **영국 정부 보고서**도 데이터 포인트이고 Firefox 보고서도 데이터 포인트라서, 현세대 모델보다 실제로 상당히 낫다는 신호를 줌  
    어쩌면 curl이 대부분의 프로젝트보다 훨씬 더 잘 단단해진 코드일 수도 있음  
    어쨌든 크게 중요하지는 않은데, Anthropic도 인정하듯 다음 수준의 모델들이 오고 있고 Mythos는 그중 하나일 뿐임  
    현세대 모델도 복잡한 시스템에서 데이터 흐름을 추적하는 데 이미 잘하고, 그 능력이 한계에 도달했다고 볼 이유가 없음  
    1년 안에 취약점을 저렴하게 찾을 수 있는 상용 모델이 여러 개 나올 가능성이 커 보임  
    반면 이런 이슈의 **해결책 설계**에서는 훨씬 덜 진전된 것 같음
  - Daniel의 요지를 오해하는 경우가 있는 것 같지만, 글 전체 맥락에서 보면 더 분명함  
    도구 전반은 보안 버그를 찾는 능력이 많이 좋아지고 있고, Daniel의 사용 경험만으로는 Mythos 자체가 거대한 도약인지 불명확했지만, **Mythos 세대 LLM**은 확실히 그렇다고 봄  
    다만 Daniel은 Mythos를 다소 간접적으로 사용했음  
    Mythos 논쟁에서 얻은 결론은, a) Anthropic의 GPU 부족 때문에 Mythos 접근을 제한할 수밖에 없었을 가능성이 있고, 그래서 일반 공개 여부 계산에도 영향을 줬을 것이며, b) Mythos나 비슷한 모델로 버그를 찾는 일은 여전히 비쌈  
    curl에 **2만 달러나 10만 달러 규모의 Mythos 실행**을 했다면 Firefox 같은 다른 프로젝트와 비슷한 수준의 이슈가 나왔을 수도 있지만, Daniel은 그런 접근 권한을 받지 못했음  
    오늘 LinkedIn에 올린 일반 업데이트가 더 넓은 맥락을 보여줌  
    [https://www.linkedin.com/feed/update/urn:li:activity:7463481...](<https://www.linkedin.com/feed/update/urn:li:activity:7463481424176824322/>)  
    “이번 curl 릴리스 주기의 절반도 지나지 않았는데 이미 확인된 취약점이 11개이고, 평가 대기 중인 것이 3개 남아 있으며 새 제보가 하루 1개가 넘는 속도로 계속 들어오고 있다.”  
    “한 번의 릴리스에서 CVE 11개를 발표한 것은 2016년 Cure 53의 첫 보안 감사 이후 기록이다.”  
    “내가 기억하는 curl 역사상 가장 강도 높은 시기다.”
  - curl은 더 많은 눈이 보고, 더 많은 도구가 투입됐고, 소프트웨어의 99%보다 테스트가 잘 되어 있으며 아마 개발도 더 잘 되어 있음  
    전형적인 사례가 전혀 아니어서, 그런 요인이 있었을 가능성이 있어 보임  
    물론 편향이 있는지 확신할 수는 없고, Daniel이 그냥 맞을 수도 있음
  - 서로 다른 사람이 서로 다른 경험을 해도 모순은 아님  
    curl 소스 코드가 애초에 꽤 깨끗했을 수도 있음
  - Daniel은 몇 달, 어쩌면 몇 년 동안 보안 연구자와 여러 자동화 도구로부터 얼마나 많은 **검증 압력**을 받는지 계속 써왔음  
    curl이 Mythos의 평균 사례일 거라고 기대하지 않음

- Mythos를 두고 “그냥 기존 공개 모델에서 안전장치를 뺀 것”이라는 식의 냉소가 많았지만, 이 수치는 다르게 보임  
  “높음 또는 치명 등급 취약점 1,752개가 6개의 독립 보안 연구 회사, 또는 소수의 경우 우리 자체 평가를 통해 신중히 검토됐다. 그중 90.6%(1,587개)가 유효한 참양성으로 입증됐고, 62.4%(1,094개)는 높음 또는 치명 심각도로 확인됐다.”  
  Opus, Codex, 오픈소스 모델로 취약점 스캔을 해본 사람이라면 **참양성 비율**과 발견량이 분명한 단계 변화라는 걸 알 수 있음[0]  
  Glasswing의 약 50개 파트너 대부분은 이전에도 다른 모델로 하네스를 돌려봤고, 대체로 “와, 이건 다르다”는 반응을 보였음  
  이제 문제는 2단계와 3단계 접근 권한이 어떤 모습일지, 어떤 시스템군을 먼저 보호할지임  
  라우터, 방화벽, SaaS, ERP, 공장 제어기, SCADA, 제로 트러스트 VPN 게이트웨이, 통신 장비와 네트워크, 의료기기까지 할 일이 너무 많음  
  그래서 Mythos는 당분간 비공개로 남을 거라고 봄  
  보호해야 할 공격 표면이 너무 넓고, 분류하고 고치고 배포해야 할 것이 너무 많음  
  이는 Anthropic에도 맞을 수 있는데, 비공개 모델은 증류할 수 없기 때문임  
  또한 발견·분류·수정 데이터에서 모델 개선의 **폭주 효과**가 생김  
  이미 지금까지 모인 것 중 가장 강력하게 큐레이션된 공격 데이터 말뭉치일 가능성이 높고, 앞으로 더 좋아질 것임  
  중국 기업이 조만간, 또는 영원히 접근권을 받는 그림은 잘 안 보임  
  곧 CISA가 감사를 의무화하고, Mythos에 견디는 VPN 게이트웨이나 가정용 라우터를 사려면 미국산[1]을 사야 하는 세상이 올 수도 있음  
  [0] 일반 감사 도구의 약 30% 안팎과 비교  
  [1] 또는 동맹국산
  - 발견·분류·수정 데이터 말뭉치는 미국 기업이든 아니든 모든 경쟁자가 접근할 수 있음  
    이걸 복제할 수 없다는 말은 믿기 어려움  
    CVE와 패치처럼 주석 달린 데이터가 이미 충분히 있고, Mythos 덕분에 더 늘어나고 있으니, 이 시나리오에 맞춰 **강화학습**을 하면 Mythos 접근 없이도 취약점 탐지 성능을 높일 수 있다고 봄
  - Mythos 접근 권한이 있는 **미국 보안 회사**에 외주를 주면 안 될 이유가 없어 보임
  - GPT-2 시절이 떠오름  
    OpenAI가 “인류가 아직 준비되지 않았다”며 처음으로 모델 접근을 제한했는데, 그 모델은 시를 잘 쓰거나 하는 정도였음  
    그 이후 OAI/Anthropic의 모델 발표 중 비슷한 문구를 쓰지 않은 것을 기억하지 못함  
    유출됐다는 모델 발표도 마케팅이고, 위험하다는 것도 마케팅이고, 세상이 준비되지 않았다는 것도 마케팅임  
    접근권을 받은 이들이 “와”라고 말하는 것 역시 믿거나 말거나 **마케팅**임  
    이미 일반적으로 사용할 수 있는 상위 5~10개 모델로 같은 결과를 얻을 수 있음  
    Mythos는 이전 아이디어가 민주화된 뒤 Anthropic이 새 아이디어를 팔기 위한 방식임
  - 비공개 모델은 외부에서 증류할 수 없더라도 내부에서는 가능함  
    **Sonnet 4.8**에서 대단한 걸 기대해도 될 듯함

- 코드베이스에 아직 **정적 분석**과 린터를 적용하지 않고 있다면, 왜 비싼 LLM 도구를 적용하려 하는지 먼저 물어봐야 함  
  이런 도구가 정적 도구가 못 잡는 취약점을 못 잡는다는 뜻은 아니고, 잡을 수 있다고 봄  
  다만 우리는 이미 흔한 취약점의 넓은 영역을 자동으로 잡을 능력이 있는데도, 비용 같은 이유로 선택하지 않아 왔음  
  이미 여러 겹의 분석과 린팅을 적용하는 팀이 그 위에 이걸 추가하려는 거라면 전적으로 찬성함
  - 대부분의 이슈는 **비즈니스 로직**에 있고, 정적 분석기가 그런 건 잡지 못하기 때문임
  - 정적 분석은 처음부터 끝까지 동작하는 **원클릭 익스플로잇**을 만들어주지 않음  
    FAANG에 있는데도, 우리 정적 분석 도구조차 실제로 도달 가능한 이슈가 몇 개인지 식별하는 데 훌륭하지 않음  
    이상적으로는 둘 다 써야 함  
    정적 분석을 하네스의 일부로 가진 AI 모델이 각 잠재 발견 항목을 평가하는 방식이 좋음
  - 정적 분석은 종종 **거짓 양성**을 많이 보여줌  
    더 지능적인 도구는 제한된 엔지니어링 시간을 낭비하지 않게 도와줄 수 있음
  - 다수 개발자에게 가장 솔직한 답이 다운보트되고 플래그까지 먹은 게 꽤 마음에 듦  
    지금 이걸 하는 대부분은 정적 분석 도구를 불필요한 추가물로 봤기 때문에 쓰지 않았음

- 지금 당장 고쳐줬으면 하는 취약점은 GitHub에서 도난당한 **3,800개 저장소**에 있는 것들뿐임  
  “인터넷을 만드는 소프트웨어의 취약점”보다 “인터넷을 만드는 소프트웨어가 릴리스를 만드는 데 쓰는 플랫폼”이 솔직히 더 높은 우선순위임  
  그 내부 저장소를 산 사람들이 GitHub에 침입해 소프트웨어 릴리스를 자르거나, 원격에서 GitHub Actions를 오염시키는 방법을 찾는다면 모두가 아주 심각한 상황에 빠짐  
  그 3,800개 저장소 안에는 아마 **npmjs.org 자체**도 있을 가능성이 높다는 걸 잊으면 안 됨

- 소비자용 최전선 모델로 법률 기술에서 우리가 “lexploits”라고 부르는 걸 개발해왔는데, 통합된 파이프라인 전반의 버그를 찾는 데 말도 안 되게 뛰어남  
  완화책을 만드는 데도 놀랄 만큼 잘함  
  보안 취약점도 중요하지만, 법률에서는 에이전트의 법적 맥락 충실도를 보호하는 **지식 보안**이라는 개념을 제시함  
  소프트웨어 버그는 소프트웨어 엔지니어가 관리하므로 훨씬 다루기 쉬워 보이고, 우리가 찾는 파이프라인 “취약점”은 그렇지 않음  
  법률 문서가 겉보기와 다른 한 가지 경로에 대해 여기 조금 써둠: [https://tritium.legal/blog/noroboto](<https://tritium.legal/blog/noroboto>)  
  지금 노출된 지식 영역은 이런 식으로 많을 것이고, 대부분 인력이 부족하며 비기술자가 관리하기 때문에 더 걱정됨  
  Mythos가 필요하지도 않음

- “다음으로 미국 및 동맹국 정부를 포함한 핵심 파트너와 협력해 Project Glasswing을 추가 파트너로 확대하겠다”는 말은, 일반 공개 전에 **큰돈을 벌겠다**는 뜻으로 보임  
  좋은 전략임

- 믿기 어렵다  
  이 도구가 찾는 것 중 상당수는 그냥 틀렸고, 코드의 상위·하위 계층 때문에 실제 취약점으로 악용될 가능성이 묻혀 있는데도 참으로 보고되는 경우가 있음  
  성능과 보안 사이의 **트레이드오프**이기도 하고, 언제나 그랬음  
  추가 검사와 다른 조치는 실제로 보안 목적상 수행되어야 함  
  마케팅은 언제나 훌륭하지만, 많은 사람이 가진 장밋빛 관점은 대리만족처럼 어긋나 보임
  - 글에서는 모든 취약점이 실제로 **종단 간 악용 가능**하고, 1,000개 넘는 항목이 독립적으로 치명적이라고 검증됐다고 설명함  
    도달 불가능한 취약점이 아님
  - 정확히 무엇이 발견됐는지는 [https://red.anthropic.com/2026/cvd/](<https://red.anthropic.com/2026/cvd/>)에서 볼 수 있음
  - 특히 이게 몇 년째 OAI/Anthropic의 **상투적인 방식**이었을 때는 더 그렇음

- “이런 버그를 고치는 병목은 분류하고, 보고하고, 패치를 설계·배포할 사람의 역량이다. Mythos Preview 덕분에 처음 발견하는 일은 훨씬 더 단순해졌다.”  
  이건 항상 병목이었음  
  자동화 도구는 취약점 표시를 좋아하지만 거의 전부 **거짓 양성**이고, 사람이 분류하고 평가해야 함  
  그래도 괜찮음  
  아예 놓치는 것보다 신중한 검토 후 거짓 양성을 닫는 편이 낫다고 봄  
  사람을 병목이라고 부르는 건 적절하지 않음  
  사람은 과정의 필수 요소이고, Mythos도 그 과정의 **촉매**가 될 것임
  - 10년 전 대부분의 취약점 제거에서 사람의 수정 작업이 병목이었다는 건 분명히 사실이 아님  
    취약점을 입증하는 일이 해결하는 일보다 훨씬 어려웠음

- 오늘 꽤 재미있는 하루였음  
  AF_ALG가 꺼져 있고 nscd가 켜진 시스템에서 Dirty Frag로 루트 권한을 얻기 위한 패치를 deepseek-v4-flash **하위 에이전트**들에게 만들게 했음  
  원래 공개된 익스플로잇은 동작하지 않았지만, 패치한 것은 아주 잘 작동했음  
  적당한 지능의 하위 에이전트 100개면 Mythos와 같은 결과를 낼 수 있다고 아직 믿고 있음  
  언젠가 Mythos를 직접 써보고 이 생각이 깨질 준비도 되어 있고, 여기 다른 사람들도 Mythos를 써봤을 거라고 봄
  - 그럴 가능성은 있지만, 하위 에이전트 100개라고 하면 시간당 100달러가 드는 구성이고 Mythos는 취약점 하나를 찾는 데 2만 달러가 든다는 이야기임  
    그래서 질문은 “더 멍청한 모델도 이걸 할 수 있느냐”가 아니라, Mythos 추론으로 익스플로잇 하나를 찾는 비용이 **GPU 5,000시간**이라면 더 멍청한 모델로는 GPU 시간이 얼마나 드느냐임
