AI 사이버보안의 새로운 경계: Mythos 이후의 현실
(aisle.com)- Anthropic의 Claude Mythos가 대규모 제로데이 취약점을 자동 탐지한 이후, 소형 오픈 모델들도 동일한 취약점 탐지에 성공
- 3.6B~5.1B 파라미터급 모델이 FreeBSD·OpenBSD 버그를 재현하며, 일부는 Mythos와 다른 창의적 익스플로잇 경로를 제시
- 실험 결과 모델 크기와 성능은 비선형적이며, 특정 과제에서는 소형 모델이 대형 모델보다 정확
- AI 보안 능력은 매끄럽게 확장되지 않고 ‘들쭉날쭉’ 하며, 진정한 경쟁력은 모델이 아닌 시스템 설계와 검증 파이프라인에 있음
- 따라서 보안의 해자는 모델이 아니라 시스템이며, 전문가 지식이 내장된 오케스트레이션 구조가 AI 보안의 핵심
시스템이 해자이며, 모델이 아님
- 2026년 4월 7일 Anthropic은 Claude Mythos Preview와 Project Glasswing을 공개, Mythos 모델을 활용해 주요 소프트웨어의 보안 취약점을 자동 탐지·패치하는 컨소시엄을 구성
- 1억 달러 규모의 사용 크레딧과 400만 달러의 오픈소스 보안 단체 기부를 약속
- Mythos는 수천 개의 제로데이 취약점을 발견했으며, OpenBSD 27년 된 버그, FFmpeg 16년 된 버그, FreeBSD 원격 코드 실행 취약점 등을 자율적으로 탐지하고 익스플로잇을 생성
- AISLE은 동일한 취약점을 소형·저가·오픈 가중치 모델로 재현
- 8개 중 8개 모델이 FreeBSD 익스플로잇을 탐지
- 3.6B 파라미터 모델(토큰당 $0.11)도 탐지 성공
- 5.1B 모델은 OpenBSD 버그의 핵심 체인을 복원
- 일부 과제에서는 소형 오픈 모델이 대형 모델보다 우수
- 결과적으로 AI 보안 능력은 비선형적이며 들쭉날쭉(jagged)
- 특정 모델이 모든 과제에서 우수하지 않음
- 보안 경쟁력의 핵심은 모델이 아니라 시스템이며, 전문가 지식이 내장된 오케스트레이션 구조가 중심
AI 보안의 현재 위치
- AISLE은 2025년 중반부터 AI 기반 취약점 탐지·패치 시스템을 실제 타깃에 적용
- OpenSSL에서 15건의 CVE, curl에서 5건, 총 180건 이상의 외부 검증된 CVE를 발견
- OpenSSL CTO는 “보고서 품질과 협력 과정이 우수하다”고 평가
- 다양한 모델을 사용했으나 Anthropic 모델이 항상 우수하지는 않음
- 과제별로 최적 모델이 달라 모델 불가지론적 접근을 채택
AI 보안 파이프라인의 분해
- 실제 AI 보안은 단일 모델이 아닌 다단계 파이프라인으로 구성
- 광범위 스캐닝, 취약점 탐지, 검증 및 분류, 패치 생성, 익스플로잇 구성 등 단계별로 확장 특성이 상이
- Anthropic은 첫 번째 입력(모델 지능)을 극대화하지만, AISLE은 토큰당 비용·속도·보안 전문성 등 다양한 요소를 동등하게 중시
결론: 해자는 시스템
- Mythos의 기술 포스트에 언급된 컨테이너 실행, 파일 스캔, ASan 검증, 우선순위 평가 등의 구조는 AISLE 시스템과 유사
- 가치의 중심은 모델이 아니라 타깃팅·검증·신뢰 구축 과정
- 소형 모델을 대량 병렬 배치해 전체 코드를 광범위하게 탐색하는 방식이 경제성과 탐지 효율을 동시에 확보
- Mythos는 카테고리를 입증했지만, 운영 규모와 신뢰성 확보는 여전히 과제로 남음
실험 결과: 들쭉날쭉한 보안 능력
- Mythos 발표의 대표 취약점을 대상으로 소형·저가 모델 실험 수행
-
FreeBSD NFS 버그, OpenBSD SACK 버그, OWASP 오탐 테스트
- 결과적으로 모델 크기·세대·가격과 성능이 비선형적
- FreeBSD 탐지는 모든 모델이 성공, OpenBSD는 일부만 성공, OWASP는 소형 모델이 대형 모델보다 정확
- FreeBSD 탐지: 8개 모델 모두 버퍼 오버플로우 탐지
- 3.6B 모델도 정확히 계산하며 RCE 가능성 평가 수행
- DeepSeek R1은 실제 스택 구조와 일치하는 계산 수행
- 익스플로잇 논리에서도 모든 모델이 ROP 체인 전략을 제시
- 일부 모델은 Mythos와 다른 창의적 해결책 제시 (예: 커널 모드 대신 사용자 모드에서 루트 상승)
- OpenBSD SACK 버그: 5.1B 모델이 전체 체인 복원 및 올바른 패치 제안
- Qwen3 32B는 FreeBSD에서는 완벽했으나 여기서는 “안전하다”고 오판
- 모델별 성능 순위가 과제마다 완전히 뒤바뀜
-
-
OWASP 오탐 테스트: 단순 자바 코드에서소형 모델이 대형 모델보다 정확
- GPT-OSS-20b, DeepSeek R1, OpenAI o3는 “현재는 안전하나 취약 가능성 있음”으로 정확히 판단
- Anthropic 및 GPT-4.x 계열 다수는 잘못된 SQL 인젝션 탐지
패치 인식 테스트 (2026년 4월 9일 업데이트)
- FreeBSD 패치 버전 코드에 대해 버그 탐지와 수정 인식 능력 비교
- 모든 모델이 미패치 버그는 탐지했으나, 패치 후 코드에서 오탐 다수 발생
- GPT-OSS-120b만 양방향 모두 정확
- 대부분의 모델은
oa_length부호 해석 오류로 잘못된 취약 주장
- 이는 민감도(탐지력) 는 높지만 특이도(정확성) 는 낮음을 보여주며,
모델 외부의 검증·트리아지 시스템이 필수임을 강조
익스플로잇 구성의 경계
- Mythos의 다단계 브라우저 샌드박스 탈출, 커널 ROP 체인 등은 매우 고도화된 사례
- 오픈 모델은 익스플로잇 가능성·기법·우회 전략을 논리적으로 설명하지만,
제약된 환경에서의 창의적 전달 메커니즘은 아직 부족 - 그러나 방어적 워크플로우에서는 완전한 익스플로잇보다 탐지·패치 신뢰성이 더 중요
거시적 관점
- Mythos 발표는 AI 보안의 현실성과 산업적 중요성을 입증
- 오픈소스 보안에 대한 자금과 관심이 확대
- 그러나 “이 능력이 특정 폐쇄형 모델에만 존재한다”는 주장은 과장
- 실제로 탐지·분석 단계는 이미 광범위하게 접근 가능
- 보안 전문성·시스템 설계·신뢰 구축이 진정한 병목
-
지금 필요한 것은 모델이 아니라 시스템 구축
- 스캐폴드, 파이프라인, 협업 체계, 개발 워크플로우 통합
- 모델은 이미 충분히 준비되어 있음
한계와 주의점
- 테스트 범위 제한: 모델에 취약 함수와 힌트를 직접 제공, 완전 자율 탐색은 아님
- 도구 접근 없음: 코드 실행·루프·샌드박스 환경 미사용
- 모델 업데이트 반영: 일부 최신 Anthropic 모델은 이후 개선됨
-
주장 범위 명확화: Mythos의 능력을 부정하지 않으며,
탐지 능력의 독점성은 과장되었음을 지적
부록 요약
-
FreeBSD 탐지 인용
- Kimi K2: “
oa_length는 검증 없이 복사되어 오버플로우 가능” - Gemma 4: “128바이트 스택 버퍼 초과 가능”
- Kimi K2: “
-
과제별 성능 비교표
- FreeBSD 탐지는 전 모델 성공, OpenBSD는 일부만 성공, OWASP는 소형 모델 우세
-
패치 코드 테스트
- 대부분의 모델이
oa_length부호 오류로 오탐 - GPT-OSS-120b만 완전 정확
- 결론:
- AI 보안의 핵심 경쟁력은 모델의 크기나 독점성이 아니라,
- 전문가 지식이 내장된 시스템적 설계와 신뢰 가능한 운영 구조에 있음.
- 작은 모델도 충분히 강력하며, 이를 활용한 대규모 자동화 방어 체계 구축이 이미 가능한 단계임.
- 대부분의 모델이
Hacker News 의견들
-
Anthropic의 Mythos Preview 글을 보면, OpenBSD에서 가장 치명적인 취약점을 발견했다고 함
천 번의 실행에 총비용이 2만 달러 미만이었고, 그중 한 번의 실행은 50달러 미만으로 버그를 찾았다고 함
하지만 이는 사후적으로만 의미가 있는 수치이며, 실제로는 어떤 실행이 성공할지 알 수 없다는 점을 강조함
Mythos가 대륙 전체를 금광처럼 뒤졌다는 비유를 들며, FreeBSD 전체 코드베이스를 대상으로 같은 실험을 하면 잡음이 너무 많아질 것이라 예상함- Mythos의 스캐폴딩은 사실상 bash 루프로 모든 파일을 순회하며 모델에게 취약점을 찾게 하는 방식이었음
Anthropic이 false positive 비율을 공개했는지 궁금함
Xitter에서 다른 공개 모델로 실험한 사람들이 Mythos가 찾은 일부만 재현했다는 이야기를 봤음
Mythos는 기존 모델 대비 점진적이지만 큰 개선을 보여주었고, 동시에 복잡성도 커졌다고 생각함
“공개하기엔 너무 강력하다”는 식의 마케팅은 사실 “코드베이스 전체를 돌리면 2만 달러 든다”는 현실을 포장한 것 같음
Nicholas Carlini의 발표에서도 Opus를 사용했는데, 보안은 이미 오래전부터 Anthropic이 집중하던 영역임 - Mythos도 헛소리 취약점을 많이 만들어냈지만, 일부는 실제로 테스트를 통해 검증했음
핵심은 작은 모델들도 이런 검증 단계를 수행할 수 있는지, 그리고 더 저렴하게 가능한지임 - 반대로, 다른 연구에서는 너무 극단적으로 접근했다고 봄
취약한 함수만 따로 떼어 모델에게 주고 평가했는데, 이는 “금이 숨겨진 방을 직접 알려준 것”과 같음
실제로는 대륙 전체에서 그 방을 찾는 게 더 어려운 부분임 - OpenBSD의 DoS 취약점 하나 찾는 데 2만 달러를 쓴 건 비효율적으로 느껴짐
Mythos가 트로피처럼 다뤄지는 분위기지만, 차라리 OpenBSD 재단에 기부하는 게 낫다고 생각함 - 작은 모델로도 같은 취약점을 찾을 수 있다면, 왜 그 회사는 이미 그걸 못 찾았는지 의문임
- Mythos의 스캐폴딩은 사실상 bash 루프로 모든 파일을 순회하며 모델에게 취약점을 찾게 하는 방식이었음
-
작은 오픈 모델들이 Mythos의 FreeBSD 취약점을 8개 중 8개 모두 탐지했다는 연구가 있었음
하지만 관련 코드만 따로 떼어 테스트했기 때문에 실제 사용 사례와는 다르다고 생각함
전체 코드베이스를 던져서 스캔할 수 있는 게 진짜 가치임- 연구팀도 스스로 한계를 인정했음
모델에게 직접 취약 함수와 힌트를 줬기 때문에, 이는 완전 자율 탐색의 상한선일 뿐임
다만 잘 설계된 스캐폴드는 이런 맥락을 자동으로 만들어내므로, 핵심은 시스템(모트) 이지 모델이 아님 - Anthropic의 기술 포스트에 따르면, 컨테이너를 띄우고 모델이 파일을 스캔하며 가설을 세우고 ASan으로 검증하는 구조임
즉, 프레임워크(하네스) 가 대부분의 일을 하고, 모델은 교체 가능하다는 주장임 - 작은 모델로도 모든 파일이나 함수 단위로 반복적으로 프롬프트를 던지는 자동 하네스를 만들 수 있음
일관되게 취약점으로 지목된 부분만 큰 모델로 재검증하면 됨
결국 중요한 건 모델이 아니라 하네스임 - 결국 차이는 하네스뿐임. 나도 코드를 함수 단위로 쪼개서 분석 에이전트에 넣는 하네스를 만들 수 있음
- 연구팀도 스스로 한계를 인정했음
-
Heartbleed 예시처럼, 취약 코드만 따로 보여주면 누구나 버그를 찾을 수 있음
하지만 대규모 코드에서 그 부분을 찾아내는 게 진짜 어려움
Aisle이 이런 글을 쓴 게 의외임- 광고성 글이긴 하지만, HN 상단에 오른 건 사람들의 “새 모델도 별거 아니네” 심리를 자극했기 때문이라 생각함
- 큰 프로젝트를 하다 보면 잠시 쉬었다 돌아왔을 때 스스로 쓴 코드가 엉망으로 보이는 경우가 많음
맥락 유지의 어려움이 버그의 근본 원인 중 하나임 - 인간은 반복적이고 세밀한 작업에 약함
반면 머신은 지루함 없이 계속해서 코드를 훑을 수 있음
“충분한 눈이 있으면 모든 버그는 얕다”는 말은 현실과 다름 - 그렇다면 “가까이서 보는” 과정을 자동화하면 됨
코드베이스를 순회하며 LLM에게 “이 코드에 취약점이 있다면 찾아라”라고 반복 프롬프트하는 도구를 만들면 됨
즉, 도구(하네스) 가 LLM을 똑똑하게 만드는 핵심임 - 이는 문제 해결과 검증을 혼동하는 것과 같음
“누가 소인수분해를 알려줬다면 PKI 깨는 건 쉽다”는 식의 비유임
-
이 글의 방법론은 완전히 잘못된 비교라고 생각함
취약 함수와 힌트를 직접 주는 건 전혀 다른 과제임
실제로는 코드 조각을 나눠 작은 모델에 던져도 대형 모델 수준의 결과를 얻기 어렵다고 봄
나는 단순한 셸 스크립트 파이프라인으로 Redis 버그를 많이 찾았음
약한 모델로는 안 됐음. 직접 실험해보면 차이를 알 수 있음
또한, 작은 모델이 80%를 찾더라도 나머지 20%를 찾는 더 강한 모델이 필요함- Anthropic도 발견한 취약점 중 1% 미만만 공개했다고 함
오픈 모델에게 구버전 Linux 환경을 주고 얼마나 찾는지 실험해보면 좋겠음 - 하지만 다른 사람은 이 접근이 합리적이라고 봄
작은 모델이 false positive를 잘 걸러냈고, 적절한 하네스를 쓰면 큰 모델과 비슷한 결과를 낼 수 있음
작은 모델은 빠르고 저렴하므로, 숙련된 사용자가 다루면 훨씬 효율적임
앞으로 이런 경량 모델+하네스 조합이 대세가 될 것이라 생각함 - “Thanks Dario, very cool!”이라며 풍자적으로 반응한 사람도 있었음
- Anthropic도 발견한 취약점 중 1% 미만만 공개했다고 함
-
많은 댓글이 “코드를 분리했으니 무효”라고 하지만, Anthropic도 같은 방식으로 파일 단위로 모델을 돌렸음
Mythos의 하네스는 각 파일에 중요도 점수를 매기고, 그 파일에 집중하도록 Claude Code 인스턴스를 생성하는 구조였음
따라서 코드 분리 자체가 결과를 무효화하지 않음 -
Nicholas Carlini의 발표 영상에서도 같은 기법이 소개됨
LLM에게 한 번에 한 파일씩 집중적으로 리뷰하게 하면 효과가 높음
Mythos의 “혁신”은 사실 이 단순한 파일 단위 프롬프트 자동화였음
이런 방식 때문에 비용이 2만 달러까지 올라갔을 가능성이 큼
나도 Opus 4.6과 GPT 5.4로 같은 방법을 써봤는데, 훨씬 철저히 검토함
즉, 한 세션을 한 파일에 집중시키면 모델이 훨씬 깊이 분석함- 하지만 이렇게 하면 파일 간 상호작용에서 생기는 취약점은 놓칠 수 있음
-
“작은 모델이 같은 분석을 복원했다”는 표현은 정량화되지 않아 신뢰하기 어려움
취약점 검증은 PoC로 명확히 측정 가능하므로, 그런 증거가 필요함
또한 “관련 코드만 미리 제공”한 건 공정한 비교가 아님 -
false positive 비율을 공개하지 않으면 분석은 무의미함
모든 줄에 버그가 있다고 하면 탐지율 100%지만 쓸모없음
Anthropic과 OpenAI도 이런 수치를 공개하지 않아 신뢰하기 어려움- 하지만 검증 가능한 오라클(oracle) 이 있다면 false positive는 무시할 수 있다는 반론도 있었음
- 실제로 작은 모델은 false positive 테스트에서 정답을 맞췄고, Opus는 틀렸음
다만 Mythos 수준의 익스플로잇 검증까지는 못 갔음
Deepseek R1의 결과는 꽤 설득력 있었지만, 실제로 동작했는지는 불분명함 - 최소한 Anthropic이 얻은 커버리지는 동일하게 달성해야 의미가 있음
-
핵심은 “관련 코드를 분리했다”는 점임
복잡한 제로데이는 여러 파일의 상호작용으로 생기므로, 이 접근은 한계가 있음- 하지만 어떤 사람은 Mythos도 결국 같은 방식으로 파일 단위 분석을 했다고 주장함
- Mythos가 실제로 파일 간 취약점을 찾았는지는 불분명함
-
Mythos는 전체 코드베이스를 평가했지만, 이번 연구는 취약 코드만 따로 떼어 테스트했음
이는 “정글에서 공을 찾은 개”와 “공이 있는 구역만 알려준 개”의 차이와 같음- 심지어 그 공에 냄새를 묻히고, 개에게 그 냄새를 맡게 한 뒤 좁은 구역에 풀어준 수준이라고 비유함
- Mythos는 전체 코드를 한 번에 넣지 못하므로, 여러 하위 에이전트가 나눠 처리했을 가능성이 큼
결국 중요한 건 모델이 아니라 하네스(도구 체계) 임