DuckDB 사용법(DuckDB Python + Jupyter Lab)
(zzsza.github.io)최근 OLAP 오픈소스 중에 각광을 받고 있는 DuckDB에 대한 사용법을 정리한 글입니다.
Jupyter Lab에서 어떻게 활용할 수 있을지에 대한 내용도 담았고, Extension 중 인상 깊은 것들도 추가해두었어요.
S3에 Parquet 파일을 직접 쿼리해서 쉽게 사용할 수 있고, Athena는 확실히 대체할 수 있을 것 같네요. Pandas를 쓰는 영역도 모두 대체가 가능할거에요.
목차
- DuckDB 소개, DuckDB란?
- BIG DATA IS DEAD
 
 - DuckDB 목표 & DuckDB 장점
- 
- Simple
 
 - 
- Portable
 
 - 
- Feature Rich
 
 - 
- Fast
 
 - 
- Extensible
 
 - 
- Free
 
 - 
- Thorough Testing
 
 - DuckDB 성능 벤치마크
 - DuckDB 설치
 
 - 
 - DuckDB 실행하기
- 간단한 실행(DuckDB Python)
 - Data Load
 - jupysql을 사용해 더 편하게 실행하기
 - SQL 문법
 - Secrets Manager
 
 - DuckDB Extension
- bigquery
 - h3
 - pg_duckdb
 - vss(Vector Similarity Search)
 
 - DuckDB 활용 방안
- BigQuery에서 사용하는 예시
 - 로컬 데이터 웨어하우스처럼 사용(Pandas 대체)
 - 필요할 때 사용하는 가벼운 분석 엔진 용도
 - ETL, ELT 파이프라인에서 Transform 단계에서 사용
 - GCS에 있는 Parquet 쿼리하기
 
 - 정리
 - 참고 자료