4P by GN⁺ 22시간전 | ★ favorite | 댓글 2개
  • Anthropic Mythos는 curl 취약점 5개를 보고했지만 실제로는 1개만 남음
  • curl 보안팀 검토 결과 3개는 오탐, 1개는 일반 버그로 분류됨
  • 확인된 취약점은 심각도 낮음 CVE로, curl 8.21.0과 함께 6월 말 공개될 예정
  • 보고서에는 약 20개 버그가 포함됐고, curl 팀은 동의한 항목을 수정 중임
  • Daniel Stenberg는 curl 결과만으로 Mythos가 특별히 위험한 수준이라는 증거는 약하다고 봄

Anthropic Mythos의 curl 접근 경로

  • Anthropic은 2026년 4월 새 AI 모델 Mythos가 소스 코드의 보안 결함을 찾는 데 “위험할 정도로 좋다”고 결론 내리며 큰 관심을 일으킴
  • Anthropic은 Mythos를 즉시 공개하지 않고, 일부 회사에 먼저 제한적으로 제공해 중요한 문제를 고칠 시간을 주는 방식을 택함
  • project Glasswing의 일부로 Anthropic은 Linux Foundation을 통해 “오픈소스 프로젝트”에도 최신 AI 모델 이용 권한을 제공함
  • Linux Foundation은 이 부분을 Alpha Omega가 맡게 했고, curl의 리드 개발자 Daniel Stenberg에게 제안이 전달됨
  • 이용 계약은 체결됐지만 실제 접근은 지연됐고, 결국 Mythos 접근 권한을 가진 다른 사람이 curl을 스캔·분석한 뒤 보고서를 전달하는 방식으로 진행됨

이미 진행 중이던 curl의 AI 보안 분석

  • curl은 Mythos 보고서 이전에도 여러 AI 기반 도구로 분석을 받아왔고, 일반 정적 코드 분석기, 까다로운 컴파일러 옵션, 수년간의 퍼징도 계속 사용해옴
  • 주로 AISLE, Zeropath, OpenAI’s Codex Security가 curl 코드를 AI로 점검함
  • 이들 도구의 분석은 최근 약 8~10개월 동안 curl에 병합된 200~300개 버그 수정으로 이어짐
  • AI 도구가 보고한 항목 중 일부는 실제 취약점으로 확인돼 CVE로 공개됐고, 그 수는 “아마 12개 이상”임
  • GitHub CopilotAugment code도 풀 리퀘스트 검토에 쓰이며, 지적된 문제를 고쳐 더 나은 코드를 병합하는 데 도움을 줌
  • AI 리뷰는 사람의 리뷰를 대체하지 않고 추가 검토 수단으로 쓰이며, 병합 품질을 높이는 데 기여함
  • 보안 연구자들도 AI를 광범위하고 효과적으로 사용하면서 고품질 보안 보고가 많이 들어오고 있음
  • curl 프로젝트에서 보안은 최우선순위이며, 결함을 줄이기 위한 여러 소프트웨어 엔지니어링 지침과 절차가 적용됨
  • 결함 스캔은 curl을 안전하게 유지하기 위한 여러 단계 중 하나일 뿐이며, curl만큼 소프트웨어 보안을 많이 하거나 더 멀리 가는 프로젝트를 찾기는 어려워 보임

2026년 5월 6일 Mythos 첫 분석 결과

  • Mythos로 생성된 첫 소스 코드 분석 보고서는 curl을 개선할 영역과 고칠 버그를 찾을 기회가 됨
  • 초기 스캔은 curl의 git 저장소와 master 브랜치의 특정 최근 커밋을 대상으로 수행됨
  • 분석 대상은 src/lib/ 하위 디렉터리의 17만 8천 줄 코드였음
  • 보고서는 여러 접근법과 방법으로 어떤 결함을 찾으려 했는지 상세히 다룸
  • 보고서 상단에는 curl이 “OSS-Fuzz, Coverity, CodeQL, 여러 유료 감사”를 받은 가장 많이 퍼징되고 감사된 C 코드베이스 중 하나라며, HTTP/1, TLS, URL 파싱 핵심 경로에서 무언가를 찾기는 어려울 것이라는 설명이 있었음
  • Mythos는 해당 핵심 경로에서 실제로 문제를 찾지 못함

curl 코드베이스의 규모와 보안 이력

  • curl은 빈 줄을 제외하면 현재 17만 6천 줄의 C 코드로 구성됨
  • 소스 코드는 66만 단어로 이뤄져 있으며, 이는 영어판 소설 War and Peace 전체보다 12% 많은 단어 수임
  • curl의 프로덕션 소스 코드 한 줄은 평균적으로 작성된 뒤 다시 작성된 횟수가 4.14회
  • 현재 git master에 남아 있는 기존 프로덕션 코드는 573명의 개별 기여자가 작성함
  • 지금까지 curl git 저장소에는 총 1,465명의 기여자가 제안한 변경이 병합됨
  • curl은 현재까지 188개의 CVE 를 공개함
  • curl은 200억 개 이상의 인스턴스에 설치돼 있음
  • curl은 110개 이상 운영체제28개 CPU 아키텍처에서 실행됨
  • curl은 스마트폰, 태블릿, 자동차, TV, 게임 콘솔, 서버에서 실행됨

“확인된 취약점 5개”가 실제로는 1개로 줄어듦

  • Mythos 보고서는 “Confirmed security vulnerabilities” 5개를 찾았다고 결론 내림
  • curl 보안팀이 몇 시간 동안 세부 내용을 검토한 뒤, 5개 중 실제 확인된 취약점은 1개만 남음
  • 나머지 4개 중 3개는 API 문서에 문서화된 한계를 지적한 오탐으로 판단됨
  • 나머지 1개는 취약점이 아니라 일반 버그로 판단됨
  • 확인된 단일 취약점은 심각도 낮음(severity low) CVE가 될 예정임
  • 해당 CVE는 다음 curl 릴리스인 8.21.0과 맞춰 6월 말 공개될 계획임
  • 해당 취약점의 자세한 내용은 공개 전까지 공개되지 않음
  • Mythos 보고서에는 취약점은 아니라고 결론 난 여러 버그도 포함됐고, curl 팀은 동의하는 항목을 하나씩 조사하고 수정 중임
  • 보고서에는 약 20개 버그가 잘 정리돼 있었고, 오탐은 거의 없었음
  • 이번 보고서 덕분에 curl은 개선되고 있지만, 발견량만 보면 이전에 사용한 AI 도구들이 더 많은 버그 수정을 이끌어냄
  • 초기 도구들이 더 많고 쉬운 버그를 먼저 찾았고, 그동안 문제가 수정되면서 새 결함을 찾기가 점점 어려워진 상황도 반영됨
  • 버그는 작을 수도 크기도 하므로 단순히 숫자만 비교하는 것은 항상 공정하지 않음

Mythos는 특별히 “위험한” 수준으로 보이지 않음

  • curl 분석 결과만 놓고 보면 Mythos를 둘러싼 큰 관심은 주로 마케팅으로 보인다는 결론에 이르게 됨
  • Mythos 설정이 이전 도구들보다 특별히 더 높은 수준이나 더 고도화된 수준으로 문제를 찾는다는 증거는 보이지 않음
  • Mythos가 조금 더 나을 가능성은 있지만, 코드 분석에 중대한 차이를 만들 만큼 낫다고 보이지는 않음
  • 다만 이 평가는 curl이라는 하나의 소스 코드 저장소에서 나온 결과에 한정됨
  • Mythos가 다른 대상에서는 훨씬 더 나을 가능성은 배제되지 않음

AI 코드 분석기는 여전히 매우 강력함

  • AI 기반 코드 분석기는 과거의 전통적 코드 분석기보다 소스 코드의 보안 결함과 실수를 찾는 데 상당히 더 뛰어남
  • 현대 AI 모델들은 이 작업에 모두 잘 맞고, 시간과 실험 의지가 있는 사람은 보안 문제를 찾을 수 있음
  • 고품질 혼돈은 실제로 일어나고 있음
  • 아직 AI 기반 도구로 소스 코드를 스캔하지 않은 프로젝트는 이 세대 도구를 통해 많은 결함, 버그, 잠재 취약점을 찾을 가능성이 큼
  • Mythos뿐 아니라 다른 여러 AI 도구도 그런 결과를 낼 수 있음
  • 프로젝트에서 AI 코드 분석기를 사용하지 않으면, 찾지 못한 결함을 공격자와 악의적 행위자가 찾아 악용할 시간과 기회를 남기게 됨

AI 분석기가 기존 분석기와 다른 지점

  • AI 분석기는 주석이 코드에 대해 말하는 내용과 실제 코드 동작이 다를 때 이를 찾아낼 수 있음
  • 일반적으로 분석기를 실행할 수 없는 플랫폼과 설정의 코드도 점검할 수 있음
  • 서드파티 라이브러리와 API 세부 사항을 “알고” 있어 오용이나 잘못된 가정을 감지할 수 있음
  • curl이 구현하는 프로토콜 세부 사항을 “알고” 있어, 코드가 프로토콜 사양을 위반하거나 모순되는 것처럼 보이는 지점을 문제 삼을 수 있음
  • 기존 분석기에서는 지루하고 어려울 수 있는 결함 요약과 설명을 대체로 잘 수행함
  • 발견한 문제에 대한 패치를 생성해 제안할 수 있지만, 그 패치가 보통 100% 완전한 수정은 아님

Mythos 보고서 세부 내용

  • Mythos 보고서는 메모리 안전성 취약점은 0개라고 결론 내림
  • 방법론상 이 검토는 LLM 하위 에이전트를 사용해 병렬 파일 읽기를 수행한 수동 주도 분석이었음
  • 기록 전 모든 후보 발견 사항은 메인 세션에서 직접 소스 검사를 통해 다시 검증됨
  • CVE와 변종 탐색의 매핑은 curl 자체의 vuln.json에서 구축됨
  • 자동 SAST 도구는 사용되지 않음
  • 이 결과는 curl이 가장 많이 퍼징되고 감사된 C 코드베이스 중 하나라는 상태와 일치함
  • curl의 방어 인프라는 보통 이 규모 코드베이스에서 성과가 나기 쉬운 버그 유형을 체계적으로 닫고 있음
  • 방어 요소로는 제한된 dynbuf, 모든 숫자 파싱에서 명시적 최대값을 쓰는 curlx_str_number, 오버플로 가드가 있는 curlx_memdup0, CURL_PRINTF 포맷 문자열 강제, 프로토콜별 응답 크기 제한, pingpong 64KB 라인 제한이 포함됨
  • 커버리지는 모든 소규모 프로토콜, 모든 파일 파서, 모든 TLS 백엔드 검증 경로, HTTP/1·2·3, FTP 전체 깊이, mprintf, x509asn1, DoH, 모든 인증 메커니즘, 콘텐츠 인코딩, 연결 재사용, 세션 캐시, CLI 도구, 플랫폼별 코드, CI·빌드 공급망까지 포함함

AI는 기존 유형의 오류를 새로 찾아냄

  • AI 도구들은 이미 알려진 일반적이고 확립된 종류의 오류를 찾고 있으며, 새로운 인스턴스를 찾아낼 뿐임
  • 지금까지 AI가 완전히 새로운 종류의 취약점이나 전에 없던 유형의 취약점을 보고한 적은 없었음
  • AI가 보안 분야 자체를 그런 방식으로 재창조하지는 않음
  • 다만 이전의 어떤 도구보다 더 많은 문제를 파내고 있음

아직 끝나지 않은 결함 찾기

  • 이번 결과가 마지막 버그 발견이나 보고는 아님
  • 당시에도 보안 연구자들로부터 의심되는 문제에 대한 추가 보고가 들어오고 있었음
  • AI 도구는 더 개선될 것이고, 연구자들은 기존 AI에 더 많은 문제를 찾게 하는 새롭고 다른 프롬프트 방식을 찾을 수 있음
  • curl은 Mythos와 다른 AI로 반복적인 스캔을 계속 받아, 새 문제가 정말 더 이상 나오지 않을 때까지 진행되기를 기대함
Hacker News 의견들
  • 인용문: “이 모델에 대한 큰 과열은 주로 마케팅이었다는 결론 말고는 내릴 수 없다. 이 구성이 Mythos 이전 도구들보다 특별히 더 높은 수준이나 더 고도화된 방식으로 문제를 찾는다는 증거를 보지 못했다. 조금 더 나을 수는 있지만, 코드 분석에 의미 있는 변화를 만들 정도로 좋아 보이지는 않는다”
    이 분야의 경쟁이 거칠고, 노골적이거나 미묘한 마케팅이 많이 섞여 있다는 점을 모두에게 상기시켜 줌

    • Anthropic이 자기 모델이 더 진보했고 더 잘 만들었고, AI가 위협이라 규제가 필요하며 그 해답은 자기들뿐이라고 설득하려 마케팅을 쓴다니 놀랍지도 않음
      더 진지하게는, 지금까지 Mythos가 보안 중심 코드 분석 장치를 붙인 Opus 이상이라는 신호는 별로 못 봄. 그래도 이런 버그를 자동으로 찾을 수 있다는 사실 자체가 과장광고를 제외하면 더 중요한 포인트임
      탐지의 오류율이 궁금함. 90%가 틀리고 마케팅에 쓸 만한 사례만 듣고 있다면 별 의미가 없음
    • 대략 예상하던 결과지만, 큰 단서는 이미 기존 LLM 기반 도구들이 광범위하게 감사된 코드베이스에 쓰이고 있었다는 점임
      그래서 Anthropic의 마케팅이 과장일 수는 있어도, 애초에 남아 있는 것이 별로 없었고 글에서도 그 점을 말함
      다른 종류의 프로젝트에 큰 진전인지 판단하기는 어렵지만, 오늘 당장 모두가 기존 코드 감사를 위해 AI 코드 리뷰 도구를 써야 하며 실제로는 모두가 그러고 있지 않다는 점은 분명해짐
    • curl은 좋은 데이터 포인트가 아님. 존재하는 코드베이스 중에서도 가장 많이 파헤쳐진 축이고, 보안 테스트 관행도 매우 탄탄함
      Mythos와 비슷하지만 완전히 같지는 않은 모델을 쓰는 연구자들이 지금까지 버그를 보고할 시간도 충분했음. Daniel이 Mythos가 curl에는 판도를 바꾸는 도구가 아니었다고 보는 건 맞을 수 있지만, 거의 모든 다른 코드베이스에서는 전제조건이 다름. 진짜 마케팅은 오히려 curl의 성숙도에 대한 그의 겸손일지도 모름
    • Mozilla가 Anthropic 대신 마케팅을 해주는 건가?
      Anthropic과의 지속적인 협업의 일환으로 Claude Mythos Preview의 초기 버전을 Firefox에 적용할 기회가 있었음. 이번 주 Firefox 150 릴리스에는 이 초기 평가에서 확인된 취약점 271개에 대한 수정이 포함됨
      이런 능력이 더 많은 방어자에게 도달하면서, 많은 팀이 처음 결과가 뚜렷해졌을 때 우리가 느꼈던 같은 현기증을 겪고 있음. 단단히 다져진 대상에서 이런 버그 하나만 나와도 2025년 기준으로 적색경보였을 텐데, 한꺼번에 이렇게 많이 나오면 과연 따라잡을 수 있는지 멈춰 생각하게 됨
      https://blog.mozilla.org/en/privacy-security/ai-security-zer...
    • 과열이 주로 마케팅이었을 가능성은 충분함
      다른 가능성은 Curl이 충분히 안전해서 다른 프로젝트보다 찾을 게 훨씬 적었다는 것임
  • “정말 놀라울 정도로 성공한 마케팅 이벤트”라는 말에 동의함. Anthropic이 잘했음
    네덜란드의 작은 준정부 조직 CISO에게까지 닿았고, Mythos와 함께 온다는 취약점 쓰나미 발표에 약간 패닉함
    덕분에 이사회에서 더 많은 예산과 우선순위를 얻었음. 좋은 마케팅 공포는 낭비하면 안 됨

    • “쓰나미는 안 보인다”에는 동의하지 않음. Firefox에서 100개 넘는 버그와 더 많은 오픈소스 프로젝트들, 이전에 보지 못했던 오래된 OpenBSD/Linux 원격 코드 실행 취약점들, Linux 자체에서도 불과 2~3주 사이 몇 개의 로컬 권한 상승이 나왔음
      보기에는 마케팅 공포가 아니라, 고품질·낮은 오탐의 취약점 공개가 급증하는 것이 감지됨. 몇 년치 고품질 버그 보고를 불과 몇 주 만에 빠르게 훑고 있는 느낌임
    • Anthropic은 같은 수법을 반복하면서 고객 호감을 빠르게 망치고 있음. 개인적으로는 끔찍한 마케팅
      회사가 일반적인 LLM의 사이버보안 위협을 연구하는 것과, “우리 새 모델이 너무 강력하다” 식으로 논의를 그쪽으로 돌리는 것은 완전히 다름. 끈적하고 불쾌함
    • 그는 curl이 거의 한계까지 소프트웨어 공학적으로 다듬어졌음을 자세히 설명함. 정말 대부분의 코드가 그렇게 고도로 연마됐다고 생각하나?
  • AI 에이전트가 어떤 소프트웨어 유틸리티에서 버그를 0개 찾았다면, 왜 그 AI 에이전트가 버그 찾기에 별로라는 의미로 봐야 하나?
    실제로 버그가 0개라면 어떡하나?
    “문제 5개는 광범위한 목록을 기대했던 우리에게 아무것도 아닌 것처럼 느껴졌다”는 기대가 현실과 맞지 않았을 수 있음. 하지만 그 이유가 꼭 Mythos의 능력이 주장보다 낮아서인 것은 아님. curl은 현재 상태에서 보안 취약점이 많지 않은, 잘 강화된 도구일 수 있음

    • 글쓴이도 남아 있는 버그에 대해 같은 점을 고려했음
      “더 찾을 것들. 이것들이 찾거나 보고할 마지막 버그는 절대 아니다. 이 블로그 글 초안을 쓰는 동안에도 보안 연구자들로부터 의심되는 문제에 대한 보고를 더 받았다. AI 도구는 더 개선될 것이고, 연구자들은 기존 AI가 더 많이 찾도록 새롭고 다른 프롬프트 방식을 찾을 수 있다. 우리는 아직 끝에 도달하지 않았다. Mythos와 다른 AI로 curl 스캔을 반복해서 계속 수행하고, 정말로 새 문제를 더 이상 찾지 못할 때까지 이어갈 수 있기를 바란다”
      말이 됨. 남은 제대로 된 발견이 딱 1개뿐이었고, 그게 Mythos 출시 시점에 하필 Mythos만 찾아냈으며 다른 프로젝트들은 그 직전까지 모든 발견을 빠르게 쓸어 담고 있었다고 보는 건 꽤 큰 우연을 요구함. 가능은 하지만, 의문을 제기할 때 가장 안전한 출발점은 아님
  • curl은 성격상 비교적 단순하고 잘 경계가 잡힌 도구라고 생각할 수밖에 없음. 운영체제, 웹 브라우저, 데이터베이스, 수십억 달러 회사의 코드베이스와 비교해보면 됨
    Mythos/ChatGPT 5.5가 curl에는 없는 복잡성에서 훨씬 더 잘할 수 있다는 건 어느 정도 말이 됨. curl은 “무엇이든 가능한 클라이언트”로 기능이 매우 많긴 하지만, 우리가 의존하는 다른 소프트웨어보다 복잡도가 몇 자릿수 낮음

    • curl은 생각보다 훨씬 복잡함. 대부분은 HTTP(S) 엔드포인트를 호출해 출력하는 명령줄 도구로만 알지만, 실제로는 거의 모든 파일 전송 프로토콜을 지원하고, 오래 실행되는 프로세스를 위해 설계된 라이브러리임
      오래 실행되는 프로세스를 염두에 두기 때문에 연결과 자원을 파이프라이닝하고 재사용하기 위해 가능한 온갖 기법을 씀. 기존 이벤트 루프에 통합할 수 있도록 비동기 API도 있음
      웹 브라우저나 데이터베이스가 더 복잡하냐면 당연히 그럴 가능성이 큼. 그것들은 정말 거대한 문제를 풀고 있음. 하지만 curl은 그것을 사용하는 대부분의 애플리케이션 코드보다 확실히 더 복잡함
    • 꽤 기본적인 도구라는 데는 동의하지만, 글에서 말하듯 코드 길이는 전쟁과 평화보다 김. 그 정도 규모라면 보안 취약점이 생길 여지는 여전히 충분함
    • 글에서 인용하면: “curl은 빈 줄을 제외하면 현재 C 코드 176,000줄이다. 소스 코드는 660,000단어로 구성되어 있으며, 이는 소설 전쟁과 평화 영어판 전체보다 12% 더 많은 단어다”
      “curl은 200억 개가 넘는 인스턴스에 설치되어 있다. 110개가 넘는 운영체제와 28개 CPU 아키텍처에서 실행된다. 지구상의 모든 스마트폰, 태블릿, 자동차, TV, 게임 콘솔, 서버에서 실행된다”
      이걸 단순하거나 잘 경계가 잡혔다고 부르기는 어렵다. 대부분의 운영체제나 웹 브라우저도 자동차나 TV에서 돌아가지는 않음
  • “딱히 위험하지 않다”는 결론은 잘 따라오지 않는 듯함. 언급된 것처럼 curl은 이미 사용 가능한 모든 도구로 철저히 분석됐고, 대부분의 소프트웨어는 그 수준이 아님

    • 하지만 Mythos는 기존 도구들이 이미 할 수 있는 일을 조금 더 잘하는 도구가 아니라, 혁명으로 마케팅되고 있음
    • Mythos는 위험하거나 위험하지 않거나 둘 중 하나임. 여기서 위험하다는 의미를 “사용 가능한 도구로 찾는 버그보다 훨씬 많은 취약점을 찾는다”로 두고 있음
      Mythos가 추가로 찾은 취약점은 하나뿐이고, x+1은 x보다 훨씬 크지 않으므로 위 정의에 따르면 Mythos는 위험하지 않다는 결론이 나옴
    • 맞지만, 이건 Mythos를 다른 모델과 비교한 판정 아닌가?
      그렇다면 여전히 결론은 성립함. “대부분의 소프트웨어”는 curl만큼 분석되지 않았고, 다른 도구나 다른 모델로도 분석되지 않았음. 그런 도구들이 Mythos와 거의 같은 결과를 낼 수 있다면, Mythos가 특별히 위험하다고 보기는 어려움
    • “딱히 위험하지 않다”는 말은 발견된 취약점에 대한 것이 아니었나? 낮은 심각도를 무엇으로 보는지는 그들이 잘 알 것 같음
    • curl은 현재 고품질 버그/취약점 보고를 기록적으로 많이 받고 있음. 예전의 저품질 물량 공세와는 꽤 급격히 달라진 흐름이라, 찾을 것이 없다는 뜻은 아님
      이들 중 다수 또는 대부분은 AI 도구의 도움을 받은 인간 전문가가 찾은 것으로 보이지만, Mythos가 정말 혁명적이라면 이런 문제를 스스로 찾을 수 있어야 함
      https://daniel.haxx.se/blog/2026/04/22/high-quality-chaos/, 원문 글에서 링크됨
  • “확인된 단일 취약점은 낮은 심각도의 CVE가 될 예정이며, 6월 말 예정된 다음 curl 릴리스 8.21.0과 맞춰 공개할 계획”이라는 부분이 인상적임
    아직도 cURL에 들어간 품질과 정제 수준을 이해하기 어려움. 너무 제대로 만들어져서 사람들이 거의 두 번 생각하지 않는 것의 완벽한 예임

    • 쉽다. 프로그래밍 언어와 무관하게 커밋·리뷰·병합되는 코드 한 줄 한 줄에 높은 품질 기준을 적용하면 무엇이 가능한지 보여줌
      하지만 바닥을 향한 경쟁, 헐값 오프쇼어링, 이제는 LLM 기반 코드 생성의 시대에는 책임 소재가 생기지 않는 한 대부분의 회사가 이런 품질에 관심을 두지 않을 것임
    • Curl과 SQLite는 제대로 공학적으로 만들고 엄격히 테스트한 “무엇이든”의 가장 좋아하는 예임. 정말 철학적임
      이 프로젝트들의 기여 요건은 그런 엄격함을 요구하고, 유지관리자들은 그 요구를 지킴. 이를 가능하게 하는 것은 하중을 받지 않는 문서, 즉 프로젝트 코드가 아닌 문서임. Einstein의 사고실험이 GPS 같은 실질적 프로젝트로 이어진 것이나, 모든 문제는 합리적 사고로 풀 수 있다는 Descartes의 믿음을 떠올리게 함
    • 그렇게까지 잘 만들어 놓고 사람들이 결국 curl ... | bash를 하면서 아무 문제도 못 느끼는 걸 보면 아이러니함. 그러고는 “위협 모델” 같은 말로 회피함
      나는 curl-bash는 넘겨주고, 암호학적으로 서명된 패키지 설치기를 쓰겠음
  • Mythos 과열이 Anthropic의 마케팅 일부라는 건 알지만, 고도로 검토된 코드베이스라면 현재 상태에서 눈에 띄는 보안 익스플로잇이 없을 가능성도 있지 않나?
    아무것도 찾지 못했다는 사실이 꼭 불리한 증거는 아님. 특히 다른 도구들이 이전에 수백 개의 취약점을 이미 식별했다면 더욱 그렇다. 지금은 완전히 파헤쳐진 상태처럼 보임

  • 마케팅은 항상 섞여 있고, 사람들은 마케팅을 맥락에 맞게 볼 수 있어야 함
    또한 curl은 오픈소스 프로젝트이고, 비교적 작지만 핵심적이며, 잘 알려져 있고 어디서나 쓰임. 이미지 라이브러리를 제외하면 curl이나 sudo, su, passwd 같은 도구들도 내가 먼저 시도해볼 대상임
    Mythos가 실제로 무엇을 할 수 있는지는 아직 전혀 알려지지 않음. 10조 매개변수 모델이 비용과 벤치마크 관점에서 무엇을 의미하나?
    그래도 LLM이 이런 문제를 찾는 데 인간보다 훨씬 좋아지기 시작한 게 반년 전쯤이라면, 어느 시점에는 모두가 외면하던 문제를 직시해야 함. 오늘날에는 보안 스캔에 LLM을 추가로 써야 하며, 이를 진지하게 받아들여야 함
    최악의 경우라도 Anthropic의 마케팅을 이용해 이제 필수이며 뭔가가 바뀌었다고 말할 수 있음

    • “10조 매개변수 모델이 비용과 벤치마크 관점에서 무엇을 의미하나?”라는 질문에 대해, 내게는 스케일링 효과의 S-곡선 상단에 도달했다는 의미임
      그 규모에도 도구가 눈에 띄게 더 낫지 않다면, 수확 체감 구간에 확실히 들어선 것임
    • “Mythos가 무엇을 할 수 있는지는 아직 전혀 알려지지 않았다”는 건 의도적인 상태임. 그래도 사람들이 이미 무엇을 할 수 있다고 믿는지 생각해보면 됨
    • “LLM이 이런 문제를 찾는 데 인간보다 훨씬 좋아졌다”는 말에는 눈을 굴리게 됨. 일반적인 정적 분석기도 수십 년 동안 특정 기계적 작업에서는 인간보다 나았고, 특정 기계적 작업에서 인간보다 낫다는 건 큰 의미가 없음
      새롭게 흥미로운 것은 글에서 설명한 LLM이 식별할 수 있는 잠재적인 “흐릿한 버그” 유형임. 예를 들면 주석이 설명하는 코드와 맞지 않거나, 서드파티 라이브러리를 흔치 않게 쓰거나, 코드와 구현한 프로토콜이 어긋나거나, 그냥 전반적으로 이상해 보여 누군가 더 들여다봐야 하는 코드 같은 것들임. 이는 전통적인 디버깅 도구 상자의 빈틈을 메우지만, 그것들을 대체해서는 안 됨
  • 내가 보기에는 Mythos를 둘러싼 메시지는 최고 보안 전문가와 최고 수준의 언어·프로토콜·코드 전문가의 전문성을 접근 권한이 있는 누구에게나 제공한다는 것임
    위험은 방어자들이 그 수준의 전문성에 접근하기 전에 전 세계에 그 접근권을 주는 데 있었음
    Curl은 모든 것의 중심에 있기 때문에 수년 동안 보안·프로토콜·언어 전문가들이 들여다봐 왔음. Mythos가 무언가를 찾았다는 사실은 흥미롭지만, 마케팅 과열일 뿐이고 위험하지 않다는 신호는 아님
    프로젝트의 99.99%는 curl만큼 안전하지 않다고 봐도 됨. 오픈소스든 폐쇄소스든 상관없음. LLM은 폐쇄소스 프로젝트도 기꺼이 디컴파일해 탐색할 것임. 프로젝트가 퍼징되고 기존 AI 도구와 전문가에게 검토된 것이 아니라면, 이미 뚫릴 수 있다고 예상해야 함. 지금 있는 도구만으로도 그렇고, Mythos 같은 것은 더 적은 전문성의 더 넓은 사용자층이 그런 능력에 접근하게 만듦

    • 동의함. Anthropic은 초인간적 성능을 주장한 적이 없고, 속도와 규모만 주장했음
      잘 연구된 소프트웨어에서 새 취약점을 많이 찾지 못했다는 사실은 위험한 오용 가능성 전반에 대해 아무것도 말해주지 않음
  • “curl은 현존하는 C 코드베이스 중 가장 많이 퍼징되고 감사된 축이다. OSS-Fuzz, Coverity, CodeQL, 여러 유료 감사가 있었다. 핫패스인 HTTP/1, TLS, URL 파싱 핵심에서 뭔가를 찾기는 어렵다”는 식으로 읽힘
    이 표현은 LLM이 시도하고 실패했다기보다, 아예 시도를 접은 것처럼 들림. Claude가 스스로 도전하도록 캐묻지 않으면 자주 그렇게 하는 걸 봤는데, 여기서 실제로 무슨 일이 있었는지 궁금함

Lobste.rs 의견들
  • 단독으로 보면 아주 놀랍진 않아도, 이 결과는 “이전 모델들이 나온 뒤로 거의 매일 공격받았고, 가장 많이 검토된 애플리케이션 중 하나에서 단 한 번의 실행으로 보안 이슈를 찾았다”로 봐야 할 듯함

    • “일반적인 정적 코드 분석기를 계속 돌리고, 가장 까다로운 컴파일러 옵션을 쓰고, 몇 년간 퍼징도 했다”는 게 다른 곳에서는 생각보다 거의 안 하는 일임
      이제 모든 걸 다시 쓸 때까지 보안이 줄거나 사라지는 어두운 시기를 각오해야 할지도 모름
    • LLM이 취약점 찾기에 능숙해졌다는 건 맞지만, 왜 curl을 가장 많이 감사된 애플리케이션 중 하나로 묘사하는지는 모르겠음
      curl에는 버그 바운티 프로그램이 있었고 어느 정도 연구를 끌어들였지만, 그 결과 Daniel이 AI 쓰레기 제보에 파묻히기도 했음. 공개든 비공개든 취약점 연구 대상으로는 결코 최상위권 흥미 대상은 아님
      “여기는 아무리 해도 못 찾는다”는 범주에는 들어가지 않고, 특히 보조금성 대규모 연산 자원을 투입할 수 있다면 더더욱 그렇지 않음
    • 취약점도 낮은 심각도
      블로그 글에 따르면 “확인된 단일 취약점은 6월 말 예정된 다음 curl 8.21.0 릴리스에 맞춰 공개될 낮은 심각도의 CVE가 될 예정”이라고 함
      또한 오탐 4개도 있었다고 되어 있음
  • “결국 모델 접근 권한이 있는 다른 사람이 Mythos로 curl 스캔과 분석을 대신 실행하고 보고서를 보내줄 수 있다는 제안을 받았다. 내게는 그 차이가 그리 중요하지 않았다. 어차피 다양한 프롬프트를 탐색하고 깊이 파고들 시간이 많지도 않았을 테니까.”
    약속보다 못한 결과를 내는 과장 기계를 돌릴 때 딱 이런 식으로 행동함: “우리 걸 써보세요! 아니, 정확히는 직접 쓰는 건 아니고요. 저희가 대신 해드릴게요!” 그리고 뒤에서는 전통적이고 비싼 방식이 돌아감
    이번에도 그랬는지는 모르지만, 가능성이 무시할 만큼 작지는 않다고 봄. Mythos를 쓰라고 접근받았지만 실제로 Mythos를 쓰진 못하고 결과만 받은 사람이 또 누구인지 궁금함

    • 어쩌면 그냥 암시장 취약점을 사서 Mythos가 찾은 것처럼 제시했을 수도 있음. 그러면 AI가 뱉어낸 데이터 포인트일 뿐임
      심지어 이런 발견 대부분이 유지보수자들이 잘 안 가는 다크 포럼에서 논의된 약점일 가능성도 있음
      AI가 소프트웨어를 더 안전하게 만들 수 없다는 말은 아님. 하지만 AI 회사들이 패를 너무 숨기면 무엇이 진짜인지 알 수가 없음
    • Anthropic에 대한 기존 생각을 확인해주지 않는 대안 설명도 찾아봤는지 궁금함
  • 3개월 전 이 사람이 무대에서 AI 쓰레기 제보 때문에 버그 바운티 프로그램을 종료한다고 발표하는 걸 봤음
    도구가 그만큼 좋아진 건지, 아니면 수익 동기가 없어지니 사람들이 진짜 취약점과 쓰레기를 가르는 데 더 시간을 쓰게 된 건지 궁금함

  • Mastodon을 보면 이런 결과가 확증 편향을 폭주시키기 좋음
    하지만 확증 편향을 걷어내면, 이걸 일반화하기엔 적절해 보이지 않음. 그래도 데이터 포인트가 공개되는 건 좋음

    • Mastodon 전반에 얼마나 들어맞는지는 모르겠지만, 내 주변은 너무 반AI 성향이라 경험 많은 사람들조차 Claude 채팅 인터페이스에 GitHub 링크를 던져놓고 쓸모없다는 걸 보이려 함
      그런데 그건 그렇게 쓰는 도구가 아님. 사람들에게 결과를 보여주려 해도 실패 사례만 가리키며 웃고 싶어 하니 정말 어렵다
  • 이런 글이 더 많이 나오면 좋겠음
    curl에서 낮은 심각도 하나만 나온 건 고무적이지만, 동시에 단일 사례일 뿐임. curl이 다른 핵심 라이브러리들보다 단순히 더 성숙했을 가능성도 있음

  • “온 세상이 정신을 놓은 듯했다. 우리가 알던 세상의 끝인가? 확실히 놀라울 정도로 성공한 마케팅 묘기였다.”
    이런 문체에는 관심이 없음. 명확한 사고와 탄탄한 추론을 보여줬으면 함. 선의로 해석해야 함
    좋은 증거와 추론 없이 Glasswing이 “마케팅 묘기”였다고 말하는 건 추측임. 건전한 회의주의는 이해하지만, 건전한 회의주의는 자기 안쪽으로도 향해야 함. 어떤 근거로 그렇게 확신할 수 있는가?
    어떤 것이 묘기라면 그게 무슨 뜻인가? “묘기”라는 말을 읽으면 조작하려는 의도가 있었다는 뉘앙스로 들림. 의도에 대해 가장 직접적으로 말할 수 있는 건 “그 방 안에 있던 사람들”임. 나머지는 기껏해야 예측을 하는 것인데, 너무 많은 사람이 예측을 진지하게 다루지도 않고 사실인 것처럼 단정함
    그 자리에 없던 사람이라면 단정하기보다 자신의 추론을 설명하는 편이 현명함
    유인은 여러 방향을 가리킴. 순진하게 보는 건 아님. 진지한 글쓴이라면 독자의 지성과 세상을 이해하려는 욕구를 존중해야 한다고 기대함
    한 분야의 전문가가 다른 분야에 과신하며 뛰어들다 실수하는 건 흔함. curl 유지보수자가 일반적으로, 특히 자신이 유지하는 프로젝트의 위상에 대해 좋은 인식론적 기준을 갖췄다고 봐야 할 근거가 무엇인가? 사람에게는 기계가 자신보다 더 잘하는 걸 원치 않을 강한 유인이 종종 있음. Mythos가 이미 그런 위치라는 말은 아님. 그 부분엔 판단을 보류함. 하지만 이 글에서 보이는 추론만 놓고 보면 글쓴이에게 감탄하긴 어렵다

    • Glasswing이 마케팅 묘기였다고 하는 게 성급하다는 데 동의하지 않음. “성공한 마케팅 묘기”라는 문장 바로 뒤에 이어진 내용을 보면 공정한 비판이었다고 봄
      “프로젝트 Glasswing의 일부로 Anthropic은 Linux Foundation을 통해 ‘오픈소스 프로젝트’에 최신 AI 모델 접근 권한도 제공했다. Linux Foundation은 이 부분을 Alpha Omega 프로젝트가 처리하게 했고, 그 대표자들이 내게 연락했다. curl의 리드 개발자로서 나는 마법 모델 접근 권한을 제안받았고 기꺼이 수락했다. 물론 curl에서 뭘 찾을 수 있는지 보고 싶었다.”
      글 전체를 읽은 느낌으로는, 저자가 Glasswing이 오직 마케팅 묘기였다고 말한 게 아니라, 마케팅 묘기로서는 분명히 성공했고 그 이상이 얼마나 되는지는 아직 미정이라고 본 듯함
      인용한 뒤의 나머지 글은 단순한 마케팅 이상이 있었고, “여전히 매우 좋다”고 결론냄. 지금까지 받은 숨 가쁜 마케팅 과장에 미치지 못하더라도 도움은 될 가능성이 높다는 취지였음
    • OpenAI는 얼마 지나지 않아 정기 업그레이드 패턴에 따라 새 모델 버전을 냈고, 이 영역에서 비슷한 능력을 보였지만 별다른 팡파르나 소동은 없었음
      그냥 GPT-5.5였음. 그런 점에서, Mythos를 이른바 위험성 때문에 숨긴 건 보안 활용 사례에 관심을 집중시키고 새 수요를 만들려는 의도였을 수 있다고 봄