Lobste.rs 의견들
  • 이 작업에 쓴 프롬프트와 다른 기능들도 공개해줬으면 함
    재현할 수 있게 버그 리포트나 해결 내역에 프롬프트를 포함하면 좋겠음
    비-Mythos 모델도 언급했으니, 이 작업 일부는 다른 사람들에게도 바로 유용할 수 있어 보임

    • 대부분의 프로젝트에서는 진입 장벽이 정말 낮음
      기본적으로 “이 프로젝트를 보안 이슈 관점에서 검토하되 (파일)부터 시작하고 가능한 경로를 모두 나열해줘”라고 한 뒤, 각 항목에 대해 “이 리포트를 검증하고 개념 증명을 만들어줘”라고 이어가면 됨
      지금은 Opus를 쓰면 이런 방식으로 뭔가를 못 찾기가 더 어려움
    • 프롬프트가 “이 코드베이스에서 보안 취약점을 찾아줘” 이상일 거라고 생각함?
  • 뭐라고 하든 이건 정말 인상적임
    Mythos로 271개의 보안 이슈를 찾았고 전체로는 423개를 찾았음
    그중 180개는 심각도 높음이었고, 일부 보안 이슈는 20년 된 것들이었음

    • Opus 4.6 / Mythos 비교가 얼마나 공정했는지는 완전히 명확하지 않음
      4.6으로 이전에 동일하게 스캔한 코드에서 Mythos가 “271개 버그”를 찾았다는 결과처럼 암시되지만, 글이 정확히 그렇게 말하진 않음
      연구용 하네스에도 동시에 변화가 있었던 건지 궁금함
  • “우리가 고친 여러 sec-high 이슈 중 하나가 XSLT 관련이었다”는 부분은 XSLT 제거 논란 때문에 들어간 것 같음

  • 여기서 가장 궁금한 건 거짓 양성도 얼마나 보고됐는지임
    모델이 잠재 취약점을 두 배쯤 더 많이 보고했고, 여기 나온 건 확인된 것들인지 궁금함
    모델이 보고하기 전에 재현까지 하는지도 모르겠음
    공개된 이슈들을 보면 재현을 시도하는 듯한 댓글이 보이는데, 이미 있던 봇이 한 것일 수도 있어 보임
    Firefox가 원래 이런 일을 어떻게 처리하는지나, 지금 AI와 함께 어떻게 하는지 잘 몰라서 더 자세한 설명이 있으면 매우 흥미로울 듯함