warc-parquet - WARC를 Parquet으로 변환하는 CLI
(github.com/maxcountryman)- Web ARChive (.warc) 파일을 컬럼기반 Apache Parquet 포맷으로 변환해줌
- DuckDB에 Parquet을 로드해서 편하게 쿼리 가능
- Rust 오픈소스
DuckDB - Embedded OLAP DB 오픈소스
얼마전 올라온 WarcDB - Web crawl data as SQLite DB 와 비슷하네요.
다만 Parquet 이용하는 인프라가 이미 있는 곳에서는 더 쓰기 편할듯