2P by neo 4시간전 | ★ favorite | 댓글과 토론
  • AI 크롤러와 에이전트 중심 트래픽 증가에 따라, 웹 콘텐츠를 사람뿐 아니라 기계가 직접 소비하는 구조로 전환 중
  • HTML을 markdown으로 변환하면 토큰 사용량이 약 80% 감소, 비용과 처리 효율 개선
  • Accept: text/markdown 헤더 기반 실시간 HTML→Markdown 변환을 네트워크 레벨에서 지원
  • x-markdown-tokens, Content-Signal 헤더로 토큰 수 추정치와 AI 활용 정책 함께 제공
  • AI 봇의 콘텐츠 소비 방식을 Radar에서 추적 가능하며, Pro 이상 플랜에서 베타 무료 제공

배경: AI 에이전트 중심으로 바뀌는 웹 트래픽 구조

  • 온라인 콘텐츠 발견 방식이 전통적 검색 엔진 중심에서 AI 크롤러와 에이전트 중심 구조로 빠르게 이동 중
    • 과거에는 SEO가 트래픽을 좌우했으나, 이제는 구조화된 데이터를 요구하는 AI 시스템이 주요 소비 주체로 등장
  • 기업은 사람 방문자뿐 아니라 에이전트를 1등 시민(first-class citizen) 으로 고려해야 하는 상황
  • 기존 웹은 사람을 위해 설계된 HTML 기반 구조로, AI가 처리하기에는 불필요한 요소가 과다한 상태

왜 Markdown인가

  • HTML은 시맨틱 의미와 무관한 <div>, <script>, 네비게이션 요소 등으로 인해 토큰을 낭비하는 구조
    • 예시: ## About Us는 약 3토큰, 동일한 HTML <h2 class="section-title"...>는 12~15토큰 소모
  • 해당 블로그 글 기준 HTML 16,180토큰 → Markdown 3,150토큰으로 약 80% 토큰 절감
  • Markdown은 명시적 구조를 제공해 AI 처리 효율성과 결과 품질 개선
  • 현재 대부분의 AI 파이프라인은 HTML→Markdown 변환 단계를 포함하지만
    • 연산 비용 증가
    • 처리 복잡도 상승
    • 작성자의 의도와 다를 가능성 존재

Markdown for Agents: 네트워크 레벨 자동 변환

  • Cloudflare 네트워크에서 실시간 HTML→Markdown 변환 지원
    • Enabled zone에서 content negotiation 기반 동작
  • 클라이언트가 Accept: text/markdown 헤더 포함 요청 시
    • 원본 HTML을 origin에서 가져온 후
    • 네트워크에서 Markdown으로 변환해 반환
  • 응답 예시
    • content-type: text/markdown
    • vary: accept
    • x-markdown-tokens: 725 헤더 포함
  • x-markdown-tokens는 Markdown 문서의 추정 토큰 수 제공
    • 컨텍스트 윈도우 계산
    • 청킹 전략 결정 등에 활용 가능

Content Signals Policy 연계

  • Content Signals 프레임워크 와 통합
  • Markdown 응답에는 기본적으로
    • Content-Signal: ai-train=yes, search=yes, ai-input=yes 헤더 포함
  • AI 학습, 검색, 에이전트 입력 사용 허용 여부를 명시 가능
  • 향후 사용자 정의 정책 옵션 제공 예정

적용 사례: Cloudflare Blog & Developer Docs

  • Developer Documentation 및 Blog에 기능 활성화
  • curl -H "Accept: text/markdown" 요청 시 Markdown 반환
  • 응답 상단에 YAML 메타데이터 포함
    • title
    • description
    • image 등 구조화 정보 제공

Cloudflare 외부 문서 변환 방법

  • Workers AI AI.toMarkdown()
    • HTML 포함 다양한 문서 형식 변환 및 요약 지원
  • Browser Rendering /markdown REST API
    • 실제 브라우저 렌더링 후 Markdown 변환 지원
    • 동적 페이지 처리 가능

Markdown 사용 추적: Cloudflare Radar

  • Radar AI Insights에서 content_type 차원 추가
    • AI 봇 및 크롤러 대상 반환 콘텐츠의 MIME 유형 분포 확인 가능
  • 특정 에이전트별 Markdown 요청 필터링 가능
    • 예: OAI-Searchbot(GPTBot)
  • 공개 API 및 Data Explorer 통해 데이터 접근 가능

시작 방법 및 제공 범위

  • Cloudflare Dashboard → Zone 선택 → Quick Actions에서 기능 활성화
  • Pro, Business, Enterprise 플랜 및 SSL for SaaS 고객 대상
  • 현재 베타 단계, 무료 제공
  • 상세 정보는 Developer Docs에서 확인 가능