# DuckDB 사용법(DuckDB Python + Jupyter Lab)

> Clean Markdown view of GeekNews topic #17450. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=17450](https://news.hada.io/topic?id=17450)
- GeekNews Markdown: [https://news.hada.io/topic/17450.md](https://news.hada.io/topic/17450.md)
- Type: news
- Author: [zzsza](https://news.hada.io/@zzsza)
- Published: 2024-10-27T22:56:23+09:00
- Updated: 2024-10-27T22:56:23+09:00
- Original source: [zzsza.github.io](https://zzsza.github.io/data-engineering/2024/10/25/duckdb/)
- Points: 24
- Comments: 2

## Summary

DuckDB는 OLAP 오픈소스 중 주목받고 있으며, Jupyter Lab에서의 활용 방법과 인상 깊은 확장 기능들을 소개합니다. S3에 있는 Parquet 파일을 직접 쿼리할 수 있어 Athena와 Pandas를 대체할 수 있는 가능성을 보여줍니다. 또한, DuckDB의 간단한 설치 및 실행 방법, 다양한 활용 방안에 대해 자세히 설명합니다.

## Topic Body

최근 OLAP 오픈소스 중에 각광을 받고 있는 DuckDB에 대한 사용법을 정리한 글입니다.  
  
Jupyter Lab에서 어떻게 활용할 수 있을지에 대한 내용도 담았고, Extension 중 인상 깊은 것들도 추가해두었어요.  
  
S3에 Parquet 파일을 직접 쿼리해서 쉽게 사용할 수 있고, Athena는 확실히 대체할 수 있을 것 같네요. Pandas를 쓰는 영역도 모두 대체가 가능할거에요.   
  
---  
  
목차  
- DuckDB 소개, DuckDB란?  
  - BIG DATA IS DEAD  
- DuckDB 목표 & DuckDB 장점  
  - 1. Simple  
  - 2. Portable  
  - 3. Feature Rich  
  - 4. Fast  
  - 5. Extensible  
  - 6. Free  
  - 7. Thorough Testing  
  - DuckDB 성능 벤치마크  
  - DuckDB 설치  
- DuckDB 실행하기  
  - 간단한 실행(DuckDB Python)  
  - Data Load  
  - jupysql을 사용해 더 편하게 실행하기  
  - SQL 문법  
  - Secrets Manager  
- DuckDB Extension  
  - bigquery  
  - h3  
  - pg_duckdb  
  - vss(Vector Similarity Search)  
- DuckDB 활용 방안  
  - BigQuery에서 사용하는 예시  
  - 로컬 데이터 웨어하우스처럼 사용(Pandas 대체)  
  - 필요할 때 사용하는 가벼운 분석 엔진 용도  
  - ETL, ELT 파이프라인에서 Transform 단계에서 사용  
  - GCS에 있는 Parquet 쿼리하기  
- 정리  
- 참고 자료

## Comments



### Comment 30452

- Author: nottiger
- Created: 2024-10-28T10:53:28+09:00
- Points: 1

좋은 자료 감사합니다.

### Comment 30586

- Author: zzsza
- Created: 2024-10-31T00:01:49+09:00
- Points: 1
- Parent comment: 30452
- Depth: 1

글 봐주셔서 감사합니다!!
