이 작업에 쓴 프롬프트와 다른 기능들도 공개해줬으면 함
재현할 수 있게 버그 리포트나 해결 내역에 프롬프트를 포함하면 좋겠음
비-Mythos 모델도 언급했으니, 이 작업 일부는 다른 사람들에게도 바로 유용할 수 있어 보임
대부분의 프로젝트에서는 진입 장벽이 정말 낮음
기본적으로 “이 프로젝트를 보안 이슈 관점에서 검토하되 (파일)부터 시작하고 가능한 경로를 모두 나열해줘”라고 한 뒤, 각 항목에 대해 “이 리포트를 검증하고 개념 증명을 만들어줘”라고 이어가면 됨
지금은 Opus를 쓰면 이런 방식으로 뭔가를 못 찾기가 더 어려움
프롬프트가 “이 코드베이스에서 보안 취약점을 찾아줘” 이상일 거라고 생각함?
뭐라고 하든 이건 정말 인상적임
Mythos로 271개의 보안 이슈를 찾았고 전체로는 423개를 찾았음
그중 180개는 심각도 높음이었고, 일부 보안 이슈는 20년 된 것들이었음
Opus 4.6 / Mythos 비교가 얼마나 공정했는지는 완전히 명확하지 않음
4.6으로 이전에 동일하게 스캔한 코드에서 Mythos가 “271개 버그”를 찾았다는 결과처럼 암시되지만, 글이 정확히 그렇게 말하진 않음
연구용 하네스에도 동시에 변화가 있었던 건지 궁금함
“우리가 고친 여러 sec-high 이슈 중 하나가 XSLT 관련이었다”는 부분은 XSLT 제거 논란 때문에 들어간 것 같음
여기서 가장 궁금한 건 거짓 양성도 얼마나 보고됐는지임
모델이 잠재 취약점을 두 배쯤 더 많이 보고했고, 여기 나온 건 확인된 것들인지 궁금함
모델이 보고하기 전에 재현까지 하는지도 모르겠음
공개된 이슈들을 보면 재현을 시도하는 듯한 댓글이 보이는데, 이미 있던 봇이 한 것일 수도 있어 보임
Firefox가 원래 이런 일을 어떻게 처리하는지나, 지금 AI와 함께 어떻게 하는지 잘 몰라서 더 자세한 설명이 있으면 매우 흥미로울 듯함
Lobste.rs 의견들
이 작업에 쓴 프롬프트와 다른 기능들도 공개해줬으면 함
재현할 수 있게 버그 리포트나 해결 내역에 프롬프트를 포함하면 좋겠음
비-Mythos 모델도 언급했으니, 이 작업 일부는 다른 사람들에게도 바로 유용할 수 있어 보임
기본적으로 “이 프로젝트를 보안 이슈 관점에서 검토하되 (파일)부터 시작하고 가능한 경로를 모두 나열해줘”라고 한 뒤, 각 항목에 대해 “이 리포트를 검증하고 개념 증명을 만들어줘”라고 이어가면 됨
지금은 Opus를 쓰면 이런 방식으로 뭔가를 못 찾기가 더 어려움
뭐라고 하든 이건 정말 인상적임
Mythos로 271개의 보안 이슈를 찾았고 전체로는 423개를 찾았음
그중 180개는 심각도 높음이었고, 일부 보안 이슈는 20년 된 것들이었음
4.6으로 이전에 동일하게 스캔한 코드에서 Mythos가 “271개 버그”를 찾았다는 결과처럼 암시되지만, 글이 정확히 그렇게 말하진 않음
연구용 하네스에도 동시에 변화가 있었던 건지 궁금함
“우리가 고친 여러 sec-high 이슈 중 하나가 XSLT 관련이었다”는 부분은 XSLT 제거 논란 때문에 들어간 것 같음
여기서 가장 궁금한 건 거짓 양성도 얼마나 보고됐는지임
모델이 잠재 취약점을 두 배쯤 더 많이 보고했고, 여기 나온 건 확인된 것들인지 궁금함
모델이 보고하기 전에 재현까지 하는지도 모르겠음
공개된 이슈들을 보면 재현을 시도하는 듯한 댓글이 보이는데, 이미 있던 봇이 한 것일 수도 있어 보임
Firefox가 원래 이런 일을 어떻게 처리하는지나, 지금 AI와 함께 어떻게 하는지 잘 몰라서 더 자세한 설명이 있으면 매우 흥미로울 듯함