Dir2md + Spicy: LLM용 Markdown/JSONL 컨텍스트와 보안 리포트를

안녕하세요. 세 달 전쯤 Dir2md를 처음으로 소개한 적이 있습니다.
이후 다양한 프로젝트에 적용하면서 구조적 한계가 드러났고, 이에 따라 알고리즘·보안·출력 파이프라인 전체를 재정비했습니다.

❔Dir2md는

Dir2md는 복잡한 디렉터리 구조를 스마트 샘플링, 보안 마스킹, 토큰 예산 제어를 갖춘 AI-friendly Markdown·JSONL 컨텍스트로 변환하는 도구입니다. AI-assisted development에 최적화된 형태로 레포를 자동 정리해줍니다.

🔧 무엇이 달라졌나 — 3개월간의 전체 재정비 결과

1) AI 최적화 엔진 재설계

파일 단위 헤드/테일 스마트 샘플링 도입
토큰 예산 자동 배분 로직 정교화
중요 파일 우선 선택 구조 정비
Markdown, JSON, JSONL, manifest 다중 출력 파이프라인 구성

2) Spicy(보안·위험 분석기) 도입

실행 시 기본 활성화되는 내장 리스크 스캐너 탑재
ok → critical 5단계 심각도 체계 적용
레포 단위 0~100 위험 점수 산출
파일/라인/카테고리/대응 가이드 포함 Actionable Risk Table 출력

3) 보안 마스킹 엔진 강화

API 키, JWT, OAuth, DB URL, PEM 등 주요 패턴 자동 마스킹
사용자 정의 정규식 및 패턴 파일 로딩 기능 도입

4) SimHash 기반 중복 제거 도입

유사 파일 및 빌드 산출물 제거
LLM 입력 컨텍스트에서 중복 토큰 낭비 최소화

5) Preset 시스템 확장

raw, pro, ai, fast 네 가지 모드 구성
ai 모드에 6000 토큰 예산 + 쿼리 기반 파일 랭킹 포함

🌶️ 매운맛(Spicy)이란?

Spicy는 한마디로 “보안에 관대한 적이 없는, 눈매 매서운 시니어 개발자 같은 자동 리뷰어”입니다.

Dir2md는 “디렉토리를 문서화”만 하는 도구가 아니라, 레포를 AI에게 넣기 전에 반드시 필요한 보안·품질 점검까지 한 번에 수행합니다.

1) 민감정보 탐지

API Key, OAuth Client Secret, JWT, DB URL, PEM 키 등 실제 사고로 이어질 수 있는 패턴 탐지

2) 약한 암호화·취약한 보안 사용 분석

취약 알고리즘, 불안전한 키 처리 등 보안상 문제가 있는 코드 검출

3) 인젝션 가능성 진단

SQL/Command/Code Injection과 비슷한 패턴을 검출

4) 로그·디버그를 통한 데이터 노출

민감한 정보가 출력되는 코드/설정을 탐지

5) 접근 제어 문제

인증·권한 관련 허점이 있는 패턴 분석
README에 언급된 구성상의 위험 신호도 같이 감지

📊 내부 프로덕션 9개 레포 기준 실측 결과

Dir2md + Spicy 재설계 후 어제 기준 측정된 실제 수치는 다음과 같습니다:

레포당 평균 2.4개의 high·critical 급 민감정보 탐지
- API 키, PEM 개인키, DB URL, bearer token 등
컨텍스트 크기 평균 68% 감소
- 128k → ~41k tokens (모든 의미 있는 파일은 유지)
보안 리뷰 시간: 기존 3.5시간 → 11초
도입 이후 LLM 프롬프트로 유출된 비밀정보: 0건

이 결과는 스마트 샘플링 · SimHash 중복 제거 · Spicy 위험 분석 · 마스킹 엔진이 결합되었을 때 발생하는 실제 운영 환경 성능입니다.

⭐ 프로젝트에 도움이 되었다면

Dir2md + Spicy는 오픈소스입니다.
지금 보고 계신 기능 대부분은 사용자 피드백과 스타(⭐) 덕분에 발전할 수 있었습니다. 다시 한번 감사드립니다.

👉 GitHub Star 한 번이 큰 힘이 됩니다!
👉 버그·아이디어 제안도 언제든 환영합니다.