5P by xguru 22시간전 | favorite | 댓글과 토론
  • 다양한 소스에서 데이터 수집, SQL 및 Python을 사용한 데이터 변환, 데이터 품질 검사를 추가하여 엔드투엔드 플로우를 구축하는 통합 프레임워크
    • dbt + Airbyte + Great Expectations 를 하나로 구현한 것과 비슷
  • Go 로 짠 CLI 와 연동되는 VS Code용 확장으로 구성. VS Code 안에서 파이프라인 생성, 관리, 배포 가능
  • ingestr로 데이터 수집
    • ingestr는 파이썬으로 작성된 별도의 오픈소스 CLI로 데이터 소스 간에 쉬운 복사를 처리
    • 지원 : AWS Athena, Databricks, DuckDB, Google BigQuery, Microsoft SQL Server, Postgres, Redshift, Snowflake, Synapse, Pager
  • SQL과 Python을 이용하여 데이터 변환 (dbt와 비슷)
  • uv를 이용하한 파이썬 환경 관리. 독립시켜서 실행
  • 데이터 품질 검사 내장
  • Jinja 템플릿 지원
  • dry-run 지원으로 파이프라인 처음부터 끝까지 검증 가능
  • 로컬 머신, EC2 인스턴스 및 GitHub Actions에서 실행 가능
  • 환경 변수를 이용한 Secret 인젝션
  • 다양한 테이블/뷰 Materialization 전략 지원. incremental 테이블