Mythos가 curl 취약점을 발견하다

▲

GN⁺ 4시간전 | parent | ★ favorite | on: Mythos가 curl 취약점을 발견하다(daniel.haxx.se)

Hacker News 의견들

인용문: “이 모델에 대한 큰 과열은 주로 마케팅이었다는 결론 말고는 내릴 수 없다. 이 구성이 Mythos 이전 도구들보다 특별히 더 높은 수준이나 더 고도화된 방식으로 문제를 찾는다는 증거를 보지 못했다. 조금 더 나을 수는 있지만, 코드 분석에 의미 있는 변화를 만들 정도로 좋아 보이지는 않는다”
이 분야의 경쟁이 거칠고, 노골적이거나 미묘한 마케팅이 많이 섞여 있다는 점을 모두에게 상기시켜 줌
- Anthropic이 자기 모델이 더 진보했고 더 잘 만들었고, AI가 위협이라 규제가 필요하며 그 해답은 자기들뿐이라고 설득하려 마케팅을 쓴다니 놀랍지도 않음
  더 진지하게는, 지금까지 Mythos가 보안 중심 코드 분석 장치를 붙인 Opus 이상이라는 신호는 별로 못 봄. 그래도 이런 버그를 자동으로 찾을 수 있다는 사실 자체가 과장광고를 제외하면 더 중요한 포인트임
  탐지의 오류율이 궁금함. 90%가 틀리고 마케팅에 쓸 만한 사례만 듣고 있다면 별 의미가 없음
- 대략 예상하던 결과지만, 큰 단서는 이미 기존 LLM 기반 도구들이 광범위하게 감사된 코드베이스에 쓰이고 있었다는 점임
  그래서 Anthropic의 마케팅이 과장일 수는 있어도, 애초에 남아 있는 것이 별로 없었고 글에서도 그 점을 말함
  다른 종류의 프로젝트에 큰 진전인지 판단하기는 어렵지만, 오늘 당장 모두가 기존 코드 감사를 위해 AI 코드 리뷰 도구를 써야 하며 실제로는 모두가 그러고 있지 않다는 점은 분명해짐
- curl은 좋은 데이터 포인트가 아님. 존재하는 코드베이스 중에서도 가장 많이 파헤쳐진 축이고, 보안 테스트 관행도 매우 탄탄함
  Mythos와 비슷하지만 완전히 같지는 않은 모델을 쓰는 연구자들이 지금까지 버그를 보고할 시간도 충분했음. Daniel이 Mythos가 curl에는 판도를 바꾸는 도구가 아니었다고 보는 건 맞을 수 있지만, 거의 모든 다른 코드베이스에서는 전제조건이 다름. 진짜 마케팅은 오히려 curl의 성숙도에 대한 그의 겸손일지도 모름
- Mozilla가 Anthropic 대신 마케팅을 해주는 건가?
  Anthropic과의 지속적인 협업의 일환으로 Claude Mythos Preview의 초기 버전을 Firefox에 적용할 기회가 있었음. 이번 주 Firefox 150 릴리스에는 이 초기 평가에서 확인된 취약점 271개에 대한 수정이 포함됨
  이런 능력이 더 많은 방어자에게 도달하면서, 많은 팀이 처음 결과가 뚜렷해졌을 때 우리가 느꼈던 같은 현기증을 겪고 있음. 단단히 다져진 대상에서 이런 버그 하나만 나와도 2025년 기준으로 적색경보였을 텐데, 한꺼번에 이렇게 많이 나오면 과연 따라잡을 수 있는지 멈춰 생각하게 됨
  https://blog.mozilla.org/en/privacy-security/ai-security-zer...
- 과열이 주로 마케팅이었을 가능성은 충분함
  다른 가능성은 Curl이 충분히 안전해서 다른 프로젝트보다 찾을 게 훨씬 적었다는 것임
“정말 놀라울 정도로 성공한 마케팅 이벤트”라는 말에 동의함. Anthropic이 잘했음
네덜란드의 작은 준정부 조직 CISO에게까지 닿았고, Mythos와 함께 온다는 취약점 쓰나미 발표에 약간 패닉함
덕분에 이사회에서 더 많은 예산과 우선순위를 얻었음. 좋은 마케팅 공포는 낭비하면 안 됨
- “쓰나미는 안 보인다”에는 동의하지 않음. Firefox에서 100개 넘는 버그와 더 많은 오픈소스 프로젝트들, 이전에 보지 못했던 오래된 OpenBSD/Linux 원격 코드 실행 취약점들, Linux 자체에서도 불과 2~3주 사이 몇 개의 로컬 권한 상승이 나왔음
  보기에는 마케팅 공포가 아니라, 고품질·낮은 오탐의 취약점 공개가 급증하는 것이 감지됨. 몇 년치 고품질 버그 보고를 불과 몇 주 만에 빠르게 훑고 있는 느낌임
- Anthropic은 같은 수법을 반복하면서 고객 호감을 빠르게 망치고 있음. 개인적으로는 끔찍한 마케팅임
  회사가 일반적인 LLM의 사이버보안 위협을 연구하는 것과, “우리 새 모델이 너무 강력하다” 식으로 논의를 그쪽으로 돌리는 것은 완전히 다름. 끈적하고 불쾌함
- 그는 curl이 거의 한계까지 소프트웨어 공학적으로 다듬어졌음을 자세히 설명함. 정말 대부분의 코드가 그렇게 고도로 연마됐다고 생각하나?
AI 에이전트가 어떤 소프트웨어 유틸리티에서 버그를 0개 찾았다면, 왜 그 AI 에이전트가 버그 찾기에 별로라는 의미로 봐야 하나?
실제로 버그가 0개라면 어떡하나?
“문제 5개는 광범위한 목록을 기대했던 우리에게 아무것도 아닌 것처럼 느껴졌다”는 기대가 현실과 맞지 않았을 수 있음. 하지만 그 이유가 꼭 Mythos의 능력이 주장보다 낮아서인 것은 아님. curl은 현재 상태에서 보안 취약점이 많지 않은, 잘 강화된 도구일 수 있음
- 글쓴이도 남아 있는 버그에 대해 같은 점을 고려했음
  “더 찾을 것들. 이것들이 찾거나 보고할 마지막 버그는 절대 아니다. 이 블로그 글 초안을 쓰는 동안에도 보안 연구자들로부터 의심되는 문제에 대한 보고를 더 받았다. AI 도구는 더 개선될 것이고, 연구자들은 기존 AI가 더 많이 찾도록 새롭고 다른 프롬프트 방식을 찾을 수 있다. 우리는 아직 끝에 도달하지 않았다. Mythos와 다른 AI로 curl 스캔을 반복해서 계속 수행하고, 정말로 새 문제를 더 이상 찾지 못할 때까지 이어갈 수 있기를 바란다”
  말이 됨. 남은 제대로 된 발견이 딱 1개뿐이었고, 그게 Mythos 출시 시점에 하필 Mythos만 찾아냈으며 다른 프로젝트들은 그 직전까지 모든 발견을 빠르게 쓸어 담고 있었다고 보는 건 꽤 큰 우연을 요구함. 가능은 하지만, 의문을 제기할 때 가장 안전한 출발점은 아님
curl은 성격상 비교적 단순하고 잘 경계가 잡힌 도구라고 생각할 수밖에 없음. 운영체제, 웹 브라우저, 데이터베이스, 수십억 달러 회사의 코드베이스와 비교해보면 됨
Mythos/ChatGPT 5.5가 curl에는 없는 복잡성에서 훨씬 더 잘할 수 있다는 건 어느 정도 말이 됨. curl은 “무엇이든 가능한 클라이언트”로 기능이 매우 많긴 하지만, 우리가 의존하는 다른 소프트웨어보다 복잡도가 몇 자릿수 낮음
- curl은 생각보다 훨씬 복잡함. 대부분은 HTTP(S) 엔드포인트를 호출해 출력하는 명령줄 도구로만 알지만, 실제로는 거의 모든 파일 전송 프로토콜을 지원하고, 오래 실행되는 프로세스를 위해 설계된 라이브러리임
  오래 실행되는 프로세스를 염두에 두기 때문에 연결과 자원을 파이프라이닝하고 재사용하기 위해 가능한 온갖 기법을 씀. 기존 이벤트 루프에 통합할 수 있도록 비동기 API도 있음
  웹 브라우저나 데이터베이스가 더 복잡하냐면 당연히 그럴 가능성이 큼. 그것들은 정말 거대한 문제를 풀고 있음. 하지만 curl은 그것을 사용하는 대부분의 애플리케이션 코드보다 확실히 더 복잡함
- 꽤 기본적인 도구라는 데는 동의하지만, 글에서 말하듯 코드 길이는 전쟁과 평화보다 김. 그 정도 규모라면 보안 취약점이 생길 여지는 여전히 충분함
- 글에서 인용하면: “curl은 빈 줄을 제외하면 현재 C 코드 176,000줄이다. 소스 코드는 660,000단어로 구성되어 있으며, 이는 소설 전쟁과 평화 영어판 전체보다 12% 더 많은 단어다”
  “curl은 200억 개가 넘는 인스턴스에 설치되어 있다. 110개가 넘는 운영체제와 28개 CPU 아키텍처에서 실행된다. 지구상의 모든 스마트폰, 태블릿, 자동차, TV, 게임 콘솔, 서버에서 실행된다”
  이걸 단순하거나 잘 경계가 잡혔다고 부르기는 어렵다. 대부분의 운영체제나 웹 브라우저도 자동차나 TV에서 돌아가지는 않음
“딱히 위험하지 않다”는 결론은 잘 따라오지 않는 듯함. 언급된 것처럼 curl은 이미 사용 가능한 모든 도구로 철저히 분석됐고, 대부분의 소프트웨어는 그 수준이 아님
- 하지만 Mythos는 기존 도구들이 이미 할 수 있는 일을 조금 더 잘하는 도구가 아니라, 혁명으로 마케팅되고 있음
- Mythos는 위험하거나 위험하지 않거나 둘 중 하나임. 여기서 위험하다는 의미를 “사용 가능한 도구로 찾는 버그보다 훨씬 많은 취약점을 찾는다”로 두고 있음
  Mythos가 추가로 찾은 취약점은 하나뿐이고, x+1은 x보다 훨씬 크지 않으므로 위 정의에 따르면 Mythos는 위험하지 않다는 결론이 나옴
- 맞지만, 이건 Mythos를 다른 모델과 비교한 판정 아닌가?
  그렇다면 여전히 결론은 성립함. “대부분의 소프트웨어”는 curl만큼 분석되지 않았고, 다른 도구나 다른 모델로도 분석되지 않았음. 그런 도구들이 Mythos와 거의 같은 결과를 낼 수 있다면, Mythos가 특별히 위험하다고 보기는 어려움
- “딱히 위험하지 않다”는 말은 발견된 취약점에 대한 것이 아니었나? 낮은 심각도를 무엇으로 보는지는 그들이 잘 알 것 같음
- curl은 현재 고품질 버그/취약점 보고를 기록적으로 많이 받고 있음. 예전의 저품질 물량 공세와는 꽤 급격히 달라진 흐름이라, 찾을 것이 없다는 뜻은 아님
  이들 중 다수 또는 대부분은 AI 도구의 도움을 받은 인간 전문가가 찾은 것으로 보이지만, Mythos가 정말 혁명적이라면 이런 문제를 스스로 찾을 수 있어야 함
  https://daniel.haxx.se/blog/2026/04/22/high-quality-chaos/, 원문 글에서 링크됨
“확인된 단일 취약점은 낮은 심각도의 CVE가 될 예정이며, 6월 말 예정된 다음 curl 릴리스 8.21.0과 맞춰 공개할 계획”이라는 부분이 인상적임
아직도 cURL에 들어간 품질과 정제 수준을 이해하기 어려움. 너무 제대로 만들어져서 사람들이 거의 두 번 생각하지 않는 것의 완벽한 예임
- 쉽다. 프로그래밍 언어와 무관하게 커밋·리뷰·병합되는 코드 한 줄 한 줄에 높은 품질 기준을 적용하면 무엇이 가능한지 보여줌
  하지만 바닥을 향한 경쟁, 헐값 오프쇼어링, 이제는 LLM 기반 코드 생성의 시대에는 책임 소재가 생기지 않는 한 대부분의 회사가 이런 품질에 관심을 두지 않을 것임
- Curl과 SQLite는 제대로 공학적으로 만들고 엄격히 테스트한 “무엇이든”의 가장 좋아하는 예임. 정말 철학적임
  이 프로젝트들의 기여 요건은 그런 엄격함을 요구하고, 유지관리자들은 그 요구를 지킴. 이를 가능하게 하는 것은 하중을 받지 않는 문서, 즉 프로젝트 코드가 아닌 문서임. Einstein의 사고실험이 GPS 같은 실질적 프로젝트로 이어진 것이나, 모든 문제는 합리적 사고로 풀 수 있다는 Descartes의 믿음을 떠올리게 함
- 그렇게까지 잘 만들어 놓고 사람들이 결국 curl ... | bash를 하면서 아무 문제도 못 느끼는 걸 보면 아이러니함. 그러고는 “위협 모델” 같은 말로 회피함
  나는 curl-bash는 넘겨주고, 암호학적으로 서명된 패키지 설치기를 쓰겠음
Mythos 과열이 Anthropic의 마케팅 일부라는 건 알지만, 고도로 검토된 코드베이스라면 현재 상태에서 눈에 띄는 보안 익스플로잇이 없을 가능성도 있지 않나?
아무것도 찾지 못했다는 사실이 꼭 불리한 증거는 아님. 특히 다른 도구들이 이전에 수백 개의 취약점을 이미 식별했다면 더욱 그렇다. 지금은 완전히 파헤쳐진 상태처럼 보임
마케팅은 항상 섞여 있고, 사람들은 마케팅을 맥락에 맞게 볼 수 있어야 함
또한 curl은 오픈소스 프로젝트이고, 비교적 작지만 핵심적이며, 잘 알려져 있고 어디서나 쓰임. 이미지 라이브러리를 제외하면 curl이나 sudo, su, passwd 같은 도구들도 내가 먼저 시도해볼 대상임
Mythos가 실제로 무엇을 할 수 있는지는 아직 전혀 알려지지 않음. 10조 매개변수 모델이 비용과 벤치마크 관점에서 무엇을 의미하나?
그래도 LLM이 이런 문제를 찾는 데 인간보다 훨씬 좋아지기 시작한 게 반년 전쯤이라면, 어느 시점에는 모두가 외면하던 문제를 직시해야 함. 오늘날에는 보안 스캔에 LLM을 추가로 써야 하며, 이를 진지하게 받아들여야 함
최악의 경우라도 Anthropic의 마케팅을 이용해 이제 필수이며 뭔가가 바뀌었다고 말할 수 있음
- “10조 매개변수 모델이 비용과 벤치마크 관점에서 무엇을 의미하나?”라는 질문에 대해, 내게는 스케일링 효과의 S-곡선 상단에 도달했다는 의미임
  그 규모에도 도구가 눈에 띄게 더 낫지 않다면, 수확 체감 구간에 확실히 들어선 것임
- “Mythos가 무엇을 할 수 있는지는 아직 전혀 알려지지 않았다”는 건 의도적인 상태임. 그래도 사람들이 이미 무엇을 할 수 있다고 믿는지 생각해보면 됨
- “LLM이 이런 문제를 찾는 데 인간보다 훨씬 좋아졌다”는 말에는 눈을 굴리게 됨. 일반적인 정적 분석기도 수십 년 동안 특정 기계적 작업에서는 인간보다 나았고, 특정 기계적 작업에서 인간보다 낫다는 건 큰 의미가 없음
  새롭게 흥미로운 것은 글에서 설명한 LLM이 식별할 수 있는 잠재적인 “흐릿한 버그” 유형임. 예를 들면 주석이 설명하는 코드와 맞지 않거나, 서드파티 라이브러리를 흔치 않게 쓰거나, 코드와 구현한 프로토콜이 어긋나거나, 그냥 전반적으로 이상해 보여 누군가 더 들여다봐야 하는 코드 같은 것들임. 이는 전통적인 디버깅 도구 상자의 빈틈을 메우지만, 그것들을 대체해서는 안 됨
내가 보기에는 Mythos를 둘러싼 메시지는 최고 보안 전문가와 최고 수준의 언어·프로토콜·코드 전문가의 전문성을 접근 권한이 있는 누구에게나 제공한다는 것임
위험은 방어자들이 그 수준의 전문성에 접근하기 전에 전 세계에 그 접근권을 주는 데 있었음
Curl은 모든 것의 중심에 있기 때문에 수년 동안 보안·프로토콜·언어 전문가들이 들여다봐 왔음. Mythos가 무언가를 찾았다는 사실은 흥미롭지만, 마케팅 과열일 뿐이고 위험하지 않다는 신호는 아님
프로젝트의 99.99%는 curl만큼 안전하지 않다고 봐도 됨. 오픈소스든 폐쇄소스든 상관없음. LLM은 폐쇄소스 프로젝트도 기꺼이 디컴파일해 탐색할 것임. 프로젝트가 퍼징되고 기존 AI 도구와 전문가에게 검토된 것이 아니라면, 이미 뚫릴 수 있다고 예상해야 함. 지금 있는 도구만으로도 그렇고, Mythos 같은 것은 더 적은 전문성의 더 넓은 사용자층이 그런 능력에 접근하게 만듦
- 동의함. Anthropic은 초인간적 성능을 주장한 적이 없고, 속도와 규모만 주장했음
  잘 연구된 소프트웨어에서 새 취약점을 많이 찾지 못했다는 사실은 위험한 오용 가능성 전반에 대해 아무것도 말해주지 않음
“curl은 현존하는 C 코드베이스 중 가장 많이 퍼징되고 감사된 축이다. OSS-Fuzz, Coverity, CodeQL, 여러 유료 감사가 있었다. 핫패스인 HTTP/1, TLS, URL 파싱 핵심에서 뭔가를 찾기는 어렵다”는 식으로 읽힘
이 표현은 LLM이 시도하고 실패했다기보다, 아예 시도를 접은 것처럼 들림. Claude가 스스로 도전하도록 캐묻지 않으면 자주 그렇게 하는 걸 봤는데, 여기서 실제로 무슨 일이 있었는지 궁금함