- AIxCC 대회와 해킹 대회 동향을 보며 보안 업계 패러다임 변화를 체감하고, 실전(Real World) 취약점 발굴 워크플로우를 직접 구축했습니다.
- 초기엔 메모리 취약점이나 블랙박스 해킹도 고려했으나, 정책적 한계와 서버 크래시 위험성 때문에 노선을 틀었습니다. 대신 코드가 투명하게 공개되어 있고 복잡한 비즈니스 로직 분석에 LLM의 문맥 이해 능력이 크게 발휘될 수 있는 대형 웹 오픈소스(Nextcloud, Matomo, Grafana 등)를 타겟으로 삼았습니다.
- 토큰 소모로 인한 비용(지속 가능성) 문제를 해결하기 위해, 긱뉴스(GeekNews)에서 접한 벤치마크 글을 참고하여 가성비가 뛰어난 GLM 모델 기반의 3단계 라우팅 아키텍처를 설계했습니다.
- Finding (GLM-4.7): 상위 모델보다 3배가량 저렴한 4.7 버전의 호출 횟수를 늘려 취약점 후보를 대량으로 탐색
- Semi-Triage (GLM-5): 명백한 오탐(False Positive)을 1차 필터링
- Triage (Codex 5.3): 살아남은 데이터만 최상위 모델로 최종 검증하여 디스코드/노션으로 자동 알림 (제보 전에는 사람이 직접 재현 및 검증)
- 프롬프트 엔지니어링을 통해 LLM 특유의 '대충 훑어보는' 게으른 특성을 제어했습니다.
- '공격자 조건, 서버 조건, 보안 임팩트(CIA)' 3요소를 반드시 응답에 출력하도록 강제
- 오픈소스의 공식 보안 정책 및 문서를 크로스체크하게 하여, 단순 버그(Bug)와 보안 취약점(Vulnerability)을 명확히 구분
- 결과적으로 사람이 수만 줄의 라우팅 코드와 권한 엔진을 대조하다 집중력이 흐려져 놓치기 쉬운 미세한 논리적 공백을 AI가 짚어내는 데 성공했습니다.
- 대표적으로 Grafana 대시보드 권한 관리 API에서 내부 권한 검증 시 스코프(Scope) 인자를 누락하는 허점을 AI가 발견하여, 다른 대시보드의 제어권을 탈취할 수 있는 심각한 권한 상승 취약점(CVE-2026-21721, CVSS 8.1)을 제보했습니다.
- 이 외에도 Nextcloud(XSS, 인증 우회), Protobuf(DoS), Airflow 및 Discourse 등에서 다수의 제로데이(CVE)와 바운티를 획득했습니다.
- 향후 단순 취약점 발굴(레드팀) 업무는 AI가 상당 부분 대체할 것으로 보며, 앞으로는 이러한 AI 보안 워크플로우를 직접 설계하는 능력과 비즈니스 상황에 맞춘 블루팀 관점의 방어 전략 수립이 해커에게 더 중요해질 것이라는 인사이트를 공유합니다.