8P by xguru 2022-06-30 | favorite | 댓글 1개
  • Web ARChive (.warc) 파일을 컬럼기반 Apache Parquet 포맷으로 변환해줌
  • DuckDB에 Parquet을 로드해서 편하게 쿼리 가능
  • Rust 오픈소스

DuckDB - Embedded OLAP DB 오픈소스

얼마전 올라온 WarcDB - Web crawl data as SQLite DB 와 비슷하네요.
다만 Parquet 이용하는 인프라가 이미 있는 곳에서는 더 쓰기 편할듯