DuckDB 사용법(DuckDB Python + Jupyter Lab)
(zzsza.github.io)최근 OLAP 오픈소스 중에 각광을 받고 있는 DuckDB에 대한 사용법을 정리한 글입니다.
Jupyter Lab에서 어떻게 활용할 수 있을지에 대한 내용도 담았고, Extension 중 인상 깊은 것들도 추가해두었어요.
S3에 Parquet 파일을 직접 쿼리해서 쉽게 사용할 수 있고, Athena는 확실히 대체할 수 있을 것 같네요. Pandas를 쓰는 영역도 모두 대체가 가능할거에요.
목차
- DuckDB 소개, DuckDB란?
- BIG DATA IS DEAD
- DuckDB 목표 & DuckDB 장점
-
- Simple
-
- Portable
-
- Feature Rich
-
- Fast
-
- Extensible
-
- Free
-
- Thorough Testing
- DuckDB 성능 벤치마크
- DuckDB 설치
-
- DuckDB 실행하기
- 간단한 실행(DuckDB Python)
- Data Load
- jupysql을 사용해 더 편하게 실행하기
- SQL 문법
- Secrets Manager
- DuckDB Extension
- bigquery
- h3
- pg_duckdb
- vss(Vector Similarity Search)
- DuckDB 활용 방안
- BigQuery에서 사용하는 예시
- 로컬 데이터 웨어하우스처럼 사용(Pandas 대체)
- 필요할 때 사용하는 가벼운 분석 엔진 용도
- ETL, ELT 파이프라인에서 Transform 단계에서 사용
- GCS에 있는 Parquet 쿼리하기
- 정리
- 참고 자료