Show GN: 켜두면 '무엇이 바뀌었는지'를 알려주는 웹 수집기 web_harvester (Chrome 확장 + 파이썬 CLI)

(chromewebstore.google.com)

4P by nsjokt 19시간전 | ★ favorite | 댓글과 토론

크롤러를 여러 번 만들어 보면서 늘 걸렸던 게 있습니다. 대부분은 한 번 긁고 끝이라, 정작 궁금한 '어제랑 뭐가 달라졌나'(가격 하락·신상품·순위 변동·리뷰 변동)는 매번 직접 다시 들어가서 비교해야 했습니다.

web_harvester는 켜두면 계속 돌면서 그 '변화'를 알려주는 쪽에 집중했습니다. 같은 항목을 날짜별로 구글시트/CSV/엑셀/SQL에 누적하니, 한 줄이 아니라 추이가 남습니다. 그리고 의미 있는 변화가 생기면 Slack/Discord 웹훅이나 이메일로 바로 옵니다. 수집 주기는 직접 설정하고, 기본은 저빈도로 둡니다.

노코드 쪽도 신경 썼습니다. 필드 자동탐색이 페이지에서 값 후보(이름·가격 등)를 찾아 보여주고, 체크만 하면 매핑돼서 코딩이 0입니다.

기술적으로 제일 재밌던 건 recon 엔진입니다. 이 사이트는 JSON-LD가 있나, __NEXT_DATA__에 다 들어있나, 아니면 결국 DOM을 긁어야 하나 — 매번 개발자도구를 열어 손으로 확인하는 게 지겨워서, 그 판단을 코드로 옮겨봤습니다. 샘플 페이지 하나를 받아 5가지 모드(JSON-LD · window 변수(NEXT_DATA 등) · DOM 반복 · Google af-data/af-one)로 자동 진단해서, 가장 싸고 UI 변경에 덜 깨지는 추출 경로를 골라줍니다. SSR이나 JSON이 문서에 박혀 오는 사이트는 서버사이드로 가볍게, 동적·로그인 페이지는 본인 크롬 세션(실브라우저)으로 받아 같은 추출 코드를 태웁니다. 추출 코어(필드매핑·타입변환·아이템추출)는 오프라인 단위 테스트로 고정해 둬서 리팩터링이 덜 무섭습니다.

설계 원칙은 처음부터 분명히 잡았습니다: 공개데이터 · 본인 권한/세션 · 저빈도 · robots 존중. 캡차/프록시 우회는 하지 않습니다.

형태는 Chrome MV3 확장 + 파이썬 CLI 하이브리드입니다. 혼자 만들어 운영 중이라 아직 거친 부분이 있을 텐데, 직접 써보고 'recon 진단 결과나 이런 변화 알림이 더 있으면 좋겠다' 같은 피드백을 주시면 정말 감사하겠습니다.

무료 설치(Chrome 웹 스토어)로 바로 체험 — 수확·필드탐색·CSV/시트 내보내기는 무료(Basic): https://chromewebstore.google.com/detail/…
무인 스케줄·변화 알림은 Pro(일회성·런칭 20% 자동적용): https://joktnova.gumroad.com/l/figvr/LAUNCH20

공개데이터·본인권한·저빈도·robots 존중 · 캡차/프록시 우회 없음.

Show GN: 켜두면 '무엇이 바뀌었는지'를 알려주는 웹 수집기 web_harvester (Chrome 확장 + 파이썬 CLI)

함께 보면 좋은 글 β

댓글과 토론