# warc-parquet - WARC를 Parquet으로 변환하는 CLI

> Clean Markdown view of GeekNews topic #6871. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=6871](https://news.hada.io/topic?id=6871)
- GeekNews Markdown: [https://news.hada.io/topic/6871.md](https://news.hada.io/topic/6871.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2022-06-30T09:52:01+09:00
- Updated: 2022-06-30T09:52:01+09:00
- Original source: [github.com/maxcountryman](https://github.com/maxcountryman/warc-parquet)
- Points: 8
- Comments: 1

## Topic Body

- Web ARChive (.warc) 파일을 컬럼기반 Apache Parquet 포맷으로 변환해줌  
- DuckDB에 Parquet을 로드해서 편하게 쿼리 가능   
- Rust 오픈소스

## Comments



### Comment 10938

- Author: xguru
- Created: 2022-06-30T09:53:02+09:00
- Points: 2

[DuckDB - Embedded OLAP DB 오픈소스](https://news.hada.io/topic?id=3312)  
  
얼마전 올라온 [WarcDB - Web crawl data as SQLite DB](https://news.hada.io/topic?id=6807) 와 비슷하네요.  
다만 Parquet 이용하는 인프라가 이미 있는 곳에서는 더 쓰기 편할듯
