WarcDB - Web crawl data as SQLite DB
(github.com/Florents-Tselai)- 웹 크롤링한 데이터를 SQL로 쿼리하기 쉽게 만든 SQLite DB 기반 파일 포맷
- wget 및 WebRecorder 등에서 사용하는 표준 Web ARChive (.warc) 파일을 .warcdb 로 import 가능
- sqlite-utils 명령어를 그대로 사용
wget --warc-file tselai "https://tselai.com"
warcdb import archive.warcdb tselai.warc.gz
// 모든 reponse header 가져오기
sqlite3 archive.warcdb <<SQL
select json_extract(h.value, '$.header') as header,
json_extract(h.value, '$.value') as value
from response,
json_each(http_headers) h
SQL