# AI 사이버보안의 새로운 경계: Mythos 이후의 현실

> Clean Markdown view of GeekNews topic #28428. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=28428](https://news.hada.io/topic?id=28428)
- GeekNews Markdown: [https://news.hada.io/topic/28428.md](https://news.hada.io/topic/28428.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-04-12T09:36:59+09:00
- Updated: 2026-04-12T09:36:59+09:00
- Original source: [aisle.com](https://aisle.com/blog/ai-cybersecurity-after-mythos-the-jagged-frontier)
- Points: 2
- Comments: 1

## Topic Body

- Anthropic의 **Claude Mythos**가 대규모 제로데이 취약점을 자동 탐지한 이후, **소형 오픈 모델들도 동일한 취약점 탐지에 성공**  
- **3.6B~5.1B 파라미터급 모델**이 FreeBSD·OpenBSD 버그를 재현하며, 일부는 Mythos와 다른 **창의적 익스플로잇 경로**를 제시  
- 실험 결과 **모델 크기와 성능은 비선형적**이며, 특정 과제에서는 **소형 모델이 대형 모델보다 정확**  
- **AI 보안 능력은 매끄럽게 확장되지 않고 ‘들쭉날쭉’** 하며, 진정한 경쟁력은 **모델이 아닌 시스템 설계와 검증 파이프라인**에 있음  
- 따라서 **보안의 해자는 모델이 아니라 시스템**이며, **전문가 지식이 내장된 오케스트레이션 구조**가 AI 보안의 핵심  
  
---  
  
### 시스템이 해자이며, 모델이 아님  
- 2026년 4월 7일 Anthropic은 **Claude Mythos Preview**와 **Project Glasswing**을 공개, Mythos 모델을 활용해 주요 소프트웨어의 보안 취약점을 자동 탐지·패치하는 컨소시엄을 구성  
  - **1억 달러 규모의 사용 크레딧**과 **400만 달러의 오픈소스 보안 단체 기부**를 약속  
  - Mythos는 **수천 개의 제로데이 취약점**을 발견했으며, **OpenBSD 27년 된 버그**, **FFmpeg 16년 된 버그**, **FreeBSD 원격 코드 실행 취약점** 등을 자율적으로 탐지하고 익스플로잇을 생성  
- AISLE은 동일한 취약점을 **소형·저가·오픈 가중치 모델**로 재현  
  - **8개 중 8개 모델**이 FreeBSD 익스플로잇을 탐지  
  - **3.6B 파라미터 모델**(토큰당 $0.11)도 탐지 성공  
  - **5.1B 모델**은 OpenBSD 버그의 핵심 체인을 복원  
  - 일부 과제에서는 **소형 오픈 모델이 대형 모델보다 우수**  
- 결과적으로 **AI 보안 능력은 비선형적이며 들쭉날쭉(jagged)**  
  - 특정 모델이 모든 과제에서 우수하지 않음  
  - **보안 경쟁력의 핵심은 모델이 아니라 시스템**이며, **전문가 지식이 내장된 오케스트레이션 구조**가 중심  
  
### AI 보안의 현재 위치  
- AISLE은 2025년 중반부터 **AI 기반 취약점 탐지·패치 시스템**을 실제 타깃에 적용  
  - OpenSSL에서 **15건의 CVE**, curl에서 **5건**, 총 **180건 이상**의 외부 검증된 CVE를 발견  
  - OpenSSL CTO는 “보고서 품질과 협력 과정이 우수하다”고 평가  
- 다양한 모델을 사용했으나 **Anthropic 모델이 항상 우수하지는 않음**  
  - 과제별로 최적 모델이 달라 **모델 불가지론적 접근**을 채택  
  
### AI 보안 파이프라인의 분해  
- 실제 AI 보안은 단일 모델이 아닌 **다단계 파이프라인**으로 구성  
  - **광범위 스캐닝**, **취약점 탐지**, **검증 및 분류**, **패치 생성**, **익스플로잇 구성** 등 단계별로 **확장 특성이 상이**  
- Anthropic은 첫 번째 입력(모델 지능)을 극대화하지만, AISLE은 **토큰당 비용·속도·보안 전문성** 등 다양한 요소를 동등하게 중시  
  
### 결론: 해자는 시스템  
- Mythos의 기술 포스트에 언급된 **컨테이너 실행, 파일 스캔, ASan 검증, 우선순위 평가** 등의 구조는 AISLE 시스템과 유사  
- **가치의 중심은 모델이 아니라 타깃팅·검증·신뢰 구축 과정**  
- **소형 모델을 대량 병렬 배치**해 전체 코드를 광범위하게 탐색하는 방식이 **경제성과 탐지 효율**을 동시에 확보  
- Mythos는 카테고리를 입증했지만, **운영 규모와 신뢰성 확보**는 여전히 과제로 남음  
  
### 실험 결과: 들쭉날쭉한 보안 능력  
- Mythos 발표의 대표 취약점을 대상으로 **소형·저가 모델 실험** 수행  
  - ### FreeBSD NFS 버그, OpenBSD SACK 버그, OWASP 오탐 테스트  
    - 결과적으로 **모델 크기·세대·가격과 성능이 비선형적**  
    - FreeBSD 탐지는 모든 모델이 성공, OpenBSD는 일부만 성공, OWASP는 소형 모델이 대형 모델보다 정확  
    - **FreeBSD 탐지**: 8개 모델 모두 버퍼 오버플로우 탐지  
    - 3.6B 모델도 정확히 계산하며 **RCE 가능성 평가** 수행  
    - DeepSeek R1은 실제 스택 구조와 일치하는 계산 수행  
    - **익스플로잇 논리**에서도 모든 모델이 **ROP 체인 전략**을 제시  
    - 일부 모델은 Mythos와 다른 창의적 해결책 제시 (예: **커널 모드 대신 사용자 모드에서 루트 상승**)  
    - **OpenBSD SACK 버그**: 5.1B 모델이 전체 체인 복원 및 올바른 패치 제안  
    - Qwen3 32B는 FreeBSD에서는 완벽했으나 여기서는 “안전하다”고 오판  
    - **모델별 성능 순위가 과제마다 완전히 뒤바뀜**  
- ## OWASP 오탐 테스트: 단순 자바 코드에서소형 모델이 대형 모델보다 정확  
  - GPT-OSS-20b, DeepSeek R1, OpenAI o3는 “현재는 안전하나 취약 가능성 있음”으로 정확히 판단  
  - Anthropic 및 GPT-4.x 계열 다수는 **잘못된 SQL 인젝션 탐지**  
  
### 패치 인식 테스트 (2026년 4월 9일 업데이트)  
- FreeBSD 패치 버전 코드에 대해 **버그 탐지와 수정 인식 능력** 비교  
  - 모든 모델이 미패치 버그는 탐지했으나, **패치 후 코드에서 오탐 다수 발생**  
  - GPT-OSS-120b만 양방향 모두 정확  
  - 대부분의 모델은 `oa_length` 부호 해석 오류로 잘못된 취약 주장  
- 이는 **민감도(탐지력)** 는 높지만 **특이도(정확성)** 는 낮음을 보여주며,  
  **모델 외부의 검증·트리아지 시스템이 필수**임을 강조  
  
### 익스플로잇 구성의 경계  
- Mythos의 **다단계 브라우저 샌드박스 탈출, 커널 ROP 체인** 등은 매우 고도화된 사례  
- 오픈 모델은 **익스플로잇 가능성·기법·우회 전략**을 논리적으로 설명하지만,  
  **제약된 환경에서의 창의적 전달 메커니즘**은 아직 부족  
- 그러나 **방어적 워크플로우**에서는 완전한 익스플로잇보다 **탐지·패치 신뢰성**이 더 중요  
  
### 거시적 관점  
- Mythos 발표는 **AI 보안의 현실성과 산업적 중요성**을 입증  
  - 오픈소스 보안에 대한 자금과 관심이 확대  
- 그러나 “이 능력이 특정 폐쇄형 모델에만 존재한다”는 주장은 과장  
  - 실제로 **탐지·분석 단계는 이미 광범위하게 접근 가능**  
  - **보안 전문성·시스템 설계·신뢰 구축**이 진정한 병목  
- ## 지금 필요한 것은 모델이 아니라 시스템 구축  
  - 스캐폴드, 파이프라인, 협업 체계, 개발 워크플로우 통합  
  - 모델은 이미 충분히 준비되어 있음  
  
### 한계와 주의점  
- **테스트 범위 제한**: 모델에 취약 함수와 힌트를 직접 제공, 완전 자율 탐색은 아님  
- **도구 접근 없음**: 코드 실행·루프·샌드박스 환경 미사용  
- **모델 업데이트 반영**: 일부 최신 Anthropic 모델은 이후 개선됨  
- **주장 범위 명확화**: Mythos의 능력을 부정하지 않으며,  
  **탐지 능력의 독점성은 과장**되었음을 지적  
  
### 부록 요약  
- ## FreeBSD 탐지 인용  
  - Kimi K2: “`oa_length`는 검증 없이 복사되어 오버플로우 가능”  
  - Gemma 4: “128바이트 스택 버퍼 초과 가능”  
- ## 과제별 성능 비교표  
  - FreeBSD 탐지는 전 모델 성공, OpenBSD는 일부만 성공, OWASP는 소형 모델 우세  
- ## 패치 코드 테스트  
  - 대부분의 모델이 `oa_length` 부호 오류로 오탐  
  - GPT-OSS-120b만 완전 정확  
  - **결론:**  
  - AI 보안의 핵심 경쟁력은 **모델의 크기나 독점성**이 아니라,  
  - **전문가 지식이 내장된 시스템적 설계와 신뢰 가능한 운영 구조**에 있음.  
  - **작은 모델도 충분히 강력하며**, 이를 활용한 **대규모 자동화 방어 체계 구축**이 이미 가능한 단계임.

## Comments


### Comment 55129

- Author: neo
- Created: 2026-04-12T09:37:00+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47732020) 
- Anthropic의 [Mythos Preview](https://red.anthropic.com/2026/mythos-preview/) 글을 보면, OpenBSD에서 가장 **치명적인 취약점**을 발견했다고 함  
  천 번의 실행에 총비용이 2만 달러 미만이었고, 그중 한 번의 실행은 50달러 미만으로 버그를 찾았다고 함  
  하지만 이는 사후적으로만 의미가 있는 수치이며, 실제로는 어떤 실행이 성공할지 알 수 없다는 점을 강조함  
  Mythos가 대륙 전체를 금광처럼 뒤졌다는 비유를 들며, FreeBSD 전체 코드베이스를 대상으로 같은 실험을 하면 **잡음이 너무 많아질 것**이라 예상함
  - Mythos의 스캐폴딩은 사실상 bash 루프로 모든 파일을 순회하며 모델에게 취약점을 찾게 하는 방식이었음  
    Anthropic이 **false positive 비율**을 공개했는지 궁금함  
    Xitter에서 다른 공개 모델로 실험한 사람들이 Mythos가 찾은 일부만 재현했다는 이야기를 봤음  
    Mythos는 기존 모델 대비 **점진적이지만 큰 개선**을 보여주었고, 동시에 복잡성도 커졌다고 생각함  
    “공개하기엔 너무 강력하다”는 식의 마케팅은 사실 “코드베이스 전체를 돌리면 2만 달러 든다”는 현실을 포장한 것 같음  
    Nicholas Carlini의 발표에서도 Opus를 사용했는데, 보안은 이미 오래전부터 Anthropic이 집중하던 영역임
  - Mythos도 **헛소리 취약점**을 많이 만들어냈지만, 일부는 실제로 테스트를 통해 검증했음  
    핵심은 작은 모델들도 이런 검증 단계를 수행할 수 있는지, 그리고 더 저렴하게 가능한지임
  - 반대로, 다른 연구에서는 너무 극단적으로 접근했다고 봄  
    취약한 함수만 따로 떼어 모델에게 주고 평가했는데, 이는 “금이 숨겨진 방을 직접 알려준 것”과 같음  
    실제로는 대륙 전체에서 그 방을 찾는 게 더 어려운 부분임
  - OpenBSD의 **DoS 취약점** 하나 찾는 데 2만 달러를 쓴 건 비효율적으로 느껴짐  
    Mythos가 트로피처럼 다뤄지는 분위기지만, 차라리 OpenBSD 재단에 기부하는 게 낫다고 생각함
  - 작은 모델로도 같은 취약점을 찾을 수 있다면, 왜 그 회사는 이미 그걸 못 찾았는지 의문임

- 작은 오픈 모델들이 Mythos의 FreeBSD 취약점을 8개 중 8개 모두 탐지했다는 연구가 있었음  
  하지만 **관련 코드만 따로 떼어** 테스트했기 때문에 실제 사용 사례와는 다르다고 생각함  
  전체 코드베이스를 던져서 스캔할 수 있는 게 진짜 가치임
  - 연구팀도 스스로 한계를 인정했음  
    모델에게 직접 취약 함수와 힌트를 줬기 때문에, 이는 완전 자율 탐색의 **상한선**일 뿐임  
    다만 잘 설계된 스캐폴드는 이런 맥락을 자동으로 만들어내므로, **핵심은 시스템(모트)** 이지 모델이 아님
  - Anthropic의 기술 포스트에 따르면, 컨테이너를 띄우고 모델이 파일을 스캔하며 가설을 세우고 ASan으로 검증하는 구조임  
    즉, **프레임워크(하네스)** 가 대부분의 일을 하고, 모델은 교체 가능하다는 주장임
  - 작은 모델로도 모든 파일이나 함수 단위로 반복적으로 프롬프트를 던지는 **자동 하네스**를 만들 수 있음  
    일관되게 취약점으로 지목된 부분만 큰 모델로 재검증하면 됨  
    결국 중요한 건 모델이 아니라 하네스임
  - 결국 차이는 하네스뿐임. 나도 코드를 함수 단위로 쪼개서 분석 에이전트에 넣는 하네스를 만들 수 있음

- Heartbleed 예시처럼, **취약 코드만 따로 보여주면 누구나 버그를 찾을 수 있음**  
  하지만 대규모 코드에서 그 부분을 찾아내는 게 진짜 어려움  
  Aisle이 이런 글을 쓴 게 의외임
  - 광고성 글이긴 하지만, HN 상단에 오른 건 사람들의 “새 모델도 별거 아니네” 심리를 자극했기 때문이라 생각함
  - 큰 프로젝트를 하다 보면 잠시 쉬었다 돌아왔을 때 스스로 쓴 코드가 엉망으로 보이는 경우가 많음  
    **맥락 유지의 어려움**이 버그의 근본 원인 중 하나임
  - 인간은 반복적이고 세밀한 작업에 약함  
    반면 머신은 지루함 없이 계속해서 코드를 훑을 수 있음  
    “충분한 눈이 있으면 모든 버그는 얕다”는 말은 현실과 다름
  - 그렇다면 “가까이서 보는” 과정을 자동화하면 됨  
    코드베이스를 순회하며 LLM에게 “이 코드에 취약점이 있다면 찾아라”라고 반복 프롬프트하는 도구를 만들면 됨  
    즉, **도구(하네스)** 가 LLM을 똑똑하게 만드는 핵심임
  - 이는 문제 해결과 검증을 혼동하는 것과 같음  
    “누가 소인수분해를 알려줬다면 PKI 깨는 건 쉽다”는 식의 비유임

- 이 글의 방법론은 완전히 **잘못된 비교**라고 생각함  
  취약 함수와 힌트를 직접 주는 건 전혀 다른 과제임  
  실제로는 코드 조각을 나눠 작은 모델에 던져도 대형 모델 수준의 결과를 얻기 어렵다고 봄  
  나는 단순한 셸 스크립트 파이프라인으로 Redis 버그를 많이 찾았음  
  약한 모델로는 안 됐음. 직접 실험해보면 차이를 알 수 있음  
  또한, 작은 모델이 80%를 찾더라도 나머지 20%를 찾는 **더 강한 모델**이 필요함
  - Anthropic도 발견한 취약점 중 1% 미만만 공개했다고 함  
    오픈 모델에게 구버전 Linux 환경을 주고 얼마나 찾는지 실험해보면 좋겠음
  - 하지만 다른 사람은 이 접근이 합리적이라고 봄  
    작은 모델이 false positive를 잘 걸러냈고, **적절한 하네스**를 쓰면 큰 모델과 비슷한 결과를 낼 수 있음  
    작은 모델은 빠르고 저렴하므로, 숙련된 사용자가 다루면 훨씬 효율적임  
    앞으로 이런 **경량 모델+하네스 조합**이 대세가 될 것이라 생각함
  - “Thanks Dario, very cool!”이라며 풍자적으로 반응한 사람도 있었음

- 많은 댓글이 “코드를 분리했으니 무효”라고 하지만, Anthropic도 같은 방식으로 파일 단위로 모델을 돌렸음  
  Mythos의 하네스는 각 파일에 **중요도 점수**를 매기고, 그 파일에 집중하도록 Claude Code 인스턴스를 생성하는 구조였음  
  따라서 코드 분리 자체가 결과를 무효화하지 않음

- Nicholas Carlini의 [발표 영상](https://youtu.be/1sd26pWhfmg?t=204)에서도 같은 기법이 소개됨  
  LLM에게 한 번에 한 파일씩 집중적으로 리뷰하게 하면 효과가 높음  
  Mythos의 “혁신”은 사실 이 단순한 **파일 단위 프롬프트 자동화**였음  
  이런 방식 때문에 비용이 2만 달러까지 올라갔을 가능성이 큼  
  나도 Opus 4.6과 GPT 5.4로 같은 방법을 써봤는데, 훨씬 철저히 검토함  
  즉, 한 세션을 한 파일에 집중시키면 모델이 훨씬 깊이 분석함
  - 하지만 이렇게 하면 **파일 간 상호작용**에서 생기는 취약점은 놓칠 수 있음

- “작은 모델이 같은 분석을 복원했다”는 표현은 **정량화되지 않아** 신뢰하기 어려움  
  취약점 검증은 PoC로 명확히 측정 가능하므로, 그런 증거가 필요함  
  또한 “관련 코드만 미리 제공”한 건 공정한 비교가 아님

- **false positive 비율**을 공개하지 않으면 분석은 무의미함  
  모든 줄에 버그가 있다고 하면 탐지율 100%지만 쓸모없음  
  Anthropic과 OpenAI도 이런 수치를 공개하지 않아 신뢰하기 어려움
  - 하지만 검증 가능한 **오라클(oracle)** 이 있다면 false positive는 무시할 수 있다는 반론도 있었음
  - 실제로 작은 모델은 false positive 테스트에서 정답을 맞췄고, Opus는 틀렸음  
    다만 Mythos 수준의 **익스플로잇 검증**까지는 못 갔음  
    Deepseek R1의 결과는 꽤 설득력 있었지만, 실제로 동작했는지는 불분명함
  - 최소한 Anthropic이 얻은 커버리지는 동일하게 달성해야 의미가 있음

- 핵심은 “**관련 코드를 분리했다**”는 점임  
  복잡한 제로데이는 여러 파일의 상호작용으로 생기므로, 이 접근은 한계가 있음  
  - 하지만 어떤 사람은 Mythos도 결국 같은 방식으로 파일 단위 분석을 했다고 주장함  
  - Mythos가 실제로 파일 간 취약점을 찾았는지는 불분명함

- Mythos는 전체 코드베이스를 평가했지만, 이번 연구는 **취약 코드만 따로 떼어** 테스트했음  
  이는 “정글에서 공을 찾은 개”와 “공이 있는 구역만 알려준 개”의 차이와 같음
  - 심지어 그 공에 냄새를 묻히고, 개에게 그 냄새를 맡게 한 뒤 좁은 구역에 풀어준 수준이라고 비유함  
  - Mythos는 전체 코드를 한 번에 넣지 못하므로, 여러 **하위 에이전트**가 나눠 처리했을 가능성이 큼  
    결국 중요한 건 모델이 아니라 **하네스(도구 체계)** 임