- 다양한 소스에서 데이터 수집, SQL 및 Python을 사용한 데이터 변환, 데이터 품질 검사를 추가하여 엔드투엔드 플로우를 구축하는 통합 프레임워크
- dbt + Airbyte + Great Expectations 를 하나로 구현한 것과 비슷
- Go 로 짠 CLI 와 연동되는 VS Code용 확장으로 구성. VS Code 안에서 파이프라인 생성, 관리, 배포 가능
- ingestr로 데이터 수집
- ingestr는 파이썬으로 작성된 별도의 오픈소스 CLI로 데이터 소스 간에 쉬운 복사를 처리
- 지원 : AWS Athena, Databricks, DuckDB, Google BigQuery, Microsoft SQL Server, Postgres, Redshift, Snowflake, Synapse, Pager
- SQL과 Python을 이용하여 데이터 변환 (dbt와 비슷)
-
uv
를 이용하한 파이썬 환경 관리. 독립시켜서 실행
- 데이터 품질 검사 내장
- Jinja 템플릿 지원
- dry-run 지원으로 파이프라인 처음부터 끝까지 검증 가능
- 로컬 머신, EC2 인스턴스 및 GitHub Actions에서 실행 가능
- 환경 변수를 이용한 Secret 인젝션
- 다양한 테이블/뷰 Materialization 전략 지원. incremental 테이블