# Show GN: 켜두면 '무엇이 바뀌었는지'를 알려주는 웹 수집기 web_harvester (Chrome 확장 + 파이썬 CLI)

> Clean Markdown view of GeekNews topic #30987. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=30987](https://news.hada.io/topic?id=30987)
- GeekNews Markdown: [https://news.hada.io/topic/30987.md](https://news.hada.io/topic/30987.md)
- Type: show
- Author: [nsjokt](https://news.hada.io/@nsjokt)
- Published: 2026-07-01T09:09:28+09:00
- Updated: 2026-07-01T09:09:28+09:00
- Original source: [chromewebstore.google.com](https://chromewebstore.google.com/detail/jaipjjloacjlabdjngemnlkccghdhcfk)
- Points: 1
- Comments: 0

## Topic Body

크롤러를 여러 번 만들어 보면서 늘 걸렸던 게 있습니다. 대부분은 한 번 긁고 끝이라, 정작 궁금한 '어제랑 뭐가 달라졌나'(가격 하락·신상품·순위 변동·리뷰 변동)는 매번 직접 다시 들어가서 비교해야 했습니다.  
  
web_harvester는 켜두면 계속 돌면서 그 '변화'를 알려주는 쪽에 집중했습니다. 같은 항목을 날짜별로 구글시트/CSV/엑셀/SQL에 누적하니, 한 줄이 아니라 추이가 남습니다. 그리고 의미 있는 변화가 생기면 Slack/Discord 웹훅이나 이메일로 바로 옵니다. 수집 주기는 직접 설정하고, 기본은 저빈도로 둡니다.  
  
노코드 쪽도 신경 썼습니다. 필드 자동탐색이 페이지에서 값 후보(이름·가격 등)를 찾아 보여주고, 체크만 하면 매핑돼서 코딩이 0입니다.  
  
기술적으로 제일 재밌던 건 recon 엔진입니다. 이 사이트는 JSON-LD가 있나, __NEXT_DATA__에 다 들어있나, 아니면 결국 DOM을 긁어야 하나 — 매번 개발자도구를 열어 손으로 확인하는 게 지겨워서, 그 판단을 코드로 옮겨봤습니다. 샘플 페이지 하나를 받아 5가지 모드(JSON-LD · window 변수(__NEXT_DATA__ 등) · DOM 반복 · Google af-data/af-one)로 자동 진단해서, 가장 싸고 UI 변경에 덜 깨지는 추출 경로를 골라줍니다. SSR이나 JSON이 문서에 박혀 오는 사이트는 서버사이드로 가볍게, 동적·로그인 페이지는 본인 크롬 세션(실브라우저)으로 받아 같은 추출 코드를 태웁니다. 추출 코어(필드매핑·타입변환·아이템추출)는 오프라인 단위 테스트로 고정해 둬서 리팩터링이 덜 무섭습니다.  
  
설계 원칙은 처음부터 분명히 잡았습니다: 공개데이터 · 본인 권한/세션 · 저빈도 · robots 존중. 캡차/프록시 우회는 하지 않습니다.  
  
형태는 Chrome MV3 확장 + 파이썬 CLI 하이브리드입니다. 혼자 만들어 운영 중이라 아직 거친 부분이 있을 텐데, 직접 써보고 'recon 진단 결과나 이런 변화 알림이 더 있으면 좋겠다' 같은 피드백을 주시면 정말 감사하겠습니다.  
  
무료 설치(Chrome 웹 스토어)로 바로 체험 — 수확·필드탐색·CSV/시트 내보내기는 무료(Basic): https://chromewebstore.google.com/detail/jaipjjloacjlabdjngemnlkccghdhcfk  
무인 스케줄·변화 알림은 Pro(일회성·런칭 20% 자동적용): https://joktnova.gumroad.com/l/figvr/LAUNCH20  
  
공개데이터·본인권한·저빈도·robots 존중 · 캡차/프록시 우회 없음.

## Comments



_No public comments on this page._
