24시간 만에 10억 웹페이지를 크롤링한 2025년형 대규모 크롤러 구축기

(andrewkchan.dev)

문제 정의

24시간 내에 10억 웹페이지 크롤링이라는 목표 설정
예산은 몇백 달러(최종 약 462달러)로, 2012년 사례와 비슷한 수준에 맞춤
HTML만 수집하며, 자바스크립트는 실행하지 않고 <a> 링크만 추출
Politeness(매너 크롤링) 중시: robots.txt 준수, User Agent 정보 포함, 요청시 도메인 제외, 인기 상위 100만 도메인만 대상, 같은 도메인에 70초 대기 등 적용
내결함성 확보: 노드 장애 시 재시작 및 일부 데이터 유실을 감안, 샘플 기반 접근

기존 시스템 설계 인터뷰 스타일(기능별 분산) 과 달리, 각 노드가 모든 기능(크롤 상태, 파싱, 페치, 저장 등) 자체적으로 처리하는 구조 선택
12개 노드, 각 노드는 i7i.4xlarge(16 vCPU, 128GB RAM, 10Gbps, 3750GB 스토리지) 인스턴스 사용
각 노드는 1개의 Redis, 9개 fetcher, 6개 parser 프로세스로 구성
Redis에는 도메인별 프론티어, fetch queue, visited URL, Bloom filter, robots.txt, 파싱 큐 등 저장
Fetcher: 도메인별로 큐에서 꺼내서 URL을 fetch, asyncio로 6000~7000 동시 작업, 주 병목은 CPU
Parser: 80개 async 워커, HTML 파싱 및 링크 추출, CPU 중심 작업
스토리지: S3 대신 인스턴스 로컬 스토리지 선택, 대용량 페이지 저장 비용 절감
샤딩: 도메인별로 노드에 분배(크로스 커뮤니케이션 없음), 인기 도메인 불균형 문제 해결 위해 샤딩 노드 수 조정

평균 페이지 크기가 과거(2012년 51KB)보다 훨씬 커짐(평균 242KB, 중앙값 138KB)
lxml 대신 selectolax(Lexbor 기반) 로 변경 시 파싱 속도 대폭 향상
페이지 최대 크기 250KB로 트렁케이션하여 효율 개선
결과적으로, 단일 parser에서 초당 160페이지 파싱 달성, 최종적으로 fetcher:parser 비율을 9:6으로 조정해 약 950페이지/초 처리

HTML 파싱만으로도 상당수 웹페이지에 접근 가능함을 재확인, 단 대형 플랫폼(예: GitHub 등)은 의미 있는 본문이 JS 내 포함되어 파싱 불가
미래 과제로 JS 렌더링 기반 대규모 크롤링 비용·방식 탐구가 필요
데이터 분석(실제 수집된 페이지의 메타 정보, 활성/비활성 비율 등)도 후속 주제로 언급
최근에는 AI와 결합한 공격적 크롤링 이 늘어나고 있으며, Cloudflare의 pay-per-crawl 등 신규 방어 체계가 등장하는 등 웹 크롤링 환경이 다시 변화 중임

흥미롭네요. 잘 보고 갑니다 감사합니다

대단하네요.. 창과 방패의 싸움인가요 ㅎㅎ

대단하심..짝짝짝...