403 만나면 포기하는 Claude Code가 싫었습니다.

"네이버 블로그 이 글 읽어줘" → 403. "쿠팡에서 10만원 이하 키보드 뽑아줘" → 403. "이 레딧 스레드 뭐라고 해?" → 차단. 결국 제가 브라우저로 들어가서 복붙해주는 일이 반복됐어요. AI한테 일 시키는 건데 왜 제가 일을 하고 있나 싶더라고요.

기존 MCP들을 써봤는데 문제가 있었습니다. 대부분 특정 플랫폼 하나에 묶여 있거나(트위터 전용, 유튜브 전용), API 키/OAuth 가입을 요구하거나, "이 사이트는 차단됨" 같은 바이어스를 학습시켜서 시도조차 안 했거든요. 사이트는 매일 바뀌고 방법도 지금은 먹힐 수 있는데, 한번 막혔다고 포기하는 게 말이 안 됐어요.

그래서 방법 선택 레이어를 만들었습니다. 스크레이퍼가 아니라, 뚫릴 때까지 공개 엔드포인트와 표준 기법을 순서대로 시도하는 스킬이에요.

어떻게 동작하나

Claude Code가 URL에 접근할 때 4단계 적응형 스케줄러가 돕니다. 이전 Phase가 실패하거나 차단 신호를 감지할 때만 다음 Phase로 넘어가요.

  • Phase 0: 범용 체인으로 발견 불가능한 특수 엔드포인트만 인덱스(15개 그룹) — X Syndication, Reddit .json, HN Firebase, yt-dlp 1,858개 사이트
  • Phase 1: 병렬 경량 프로브 — WebFetch, Jina Reader, curl Chrome/Mobile/Googlebot UA, m.{domain}/.json//rss URL 변형
  • Phase 2: TLS 임퍼소네이션 — curl_cffi safari → chrome → firefox 순서 (미설치면 자동으로 pip install)
  • Phase 3: 실제 브라우저 — Playwright MCP로 렌더링 + 숨은 API 발견(network_requests)
  • login/paywall 감지되면 "인증 필요"로 종료. 쓸데없이 계속 시도하지 않음

모든 HTML 응답에서 OGP 태그 + JSON-LD 구조화 데이터도 같이 뽑습니다. 본문 전체를 못 가져와도 제목/가격/프로필은 확보돼요.

한국 사이트가 특히 잘 됩니다

  • 네이버 블로그 → 모바일 URL 변형으로 대부분 해결
  • 쿠팡 → Phase 2의 curl_cffi safari로 JSON-LD ItemList 추출
  • 디시/에펨/클리앙/당근/요즘IT/위시켓 → Jina Reader나 curl로 전부 읽힘
  • 네이버 금융api.finance.naver.com/siseJson.naver 비공식 JSON API (무인증)
  • 한국 언론 9개 → RSS 인덱스 + Google News RSS 폴백

핵심 원칙

바이어스 만들지 않기. "이 사이트는 어렵다" 목록을 안 만들었습니다. 의존성이 없다고 건너뛰지도 않아요 — 설치하고 시도합니다. 사이트도 방법도 지금은 먹힐 수 있으니까요.

설치

/plugin marketplace add https://github.com/fivetaku/gptaku_plugins.git  
/plugin install insane-search  

재시작하면 끝. API 키/가입/환경변수 없습니다. 평소처럼 말하면 차단된 URL에서 자동으로 트리거돼요.