12P by xguru 3달전 | favorite | 댓글 1개
  • 다양한 소스 및 형식에서 데이터를 추출, 준비, 정리하도록 설계된 Python 기반 ETL
    • 구조화 & 비구조화 파일 모두 가능 (CSV, Parquet, PDF, Word, HTML 등)
  • 데이터 과학자와 데이터 엔지니어 양쪽 모두가 직관적인 Low-Code 인터페이스로 파이프라인을 쉽게 개발하는 동시에 어디서나 배포할 수 있는 Python 코드를 생성할 수 있도록 지원하는 것을 목표
    • GUI로 데이터 파이프라인을 설계하고 온프레미스/클라우드 어디에나 배포할 수 있는 네이티브 Python 코드를 생성
  • 파일에서 데이터베이스로의 데이터 통합, 데이터 과학 및 LLM 기반 시스템을 위한 데이터 추출 및 준비, API 검색 및 보강에 탁월한 성능을 발휘
Hacker News 의견
  • Amphi는 구조화된 데이터와 비구조화된 데이터를 위한 저코드 ETL 도구로, 파일 통합, 데이터 준비, 데이터 마이그레이션 및 AI 작업을 위한 데이터 파이프라인 생성에 유용함. Python 코드를 생성하여 어디서든 배포 가능함.
  • 비전공자가 데이터 작업을 쉽게 할 수 있게 하는 것이 항상 좋은 것은 아님. Python과 SQL 작성이 어렵다면 다른 일을 고려하는 것이 좋음.
  • 제목을 변경해야 함. 오픈 소스가 아닌 Elastic License v2 라이선스임.
  • 오픈 소스가 아님. 제목이 오해를 불러일으킴.
  • ETL 약어를 모르는 사람들을 위해 웹사이트에 설명을 추가하는 것이 좋음.
  • 오픈 소스 Python ETL 도구로는 dlthub.com과 hub.meltano.com이 더 나은 옵션임. Meltano를 실제 사용 중이며 만족함.
  • Amphi가 pandas와 유사한 rapidsai dask_cudf 프레임워크를 지원하는지 궁금함.
  • 아이디어는 좋지만, 문서에서 고수준 추상화가 잘못되었음. 데이터 파이프라인에서 테이블처럼 동작하는 것을 정의하고 변환을 적용할 수 있어야 함. 무료 도구라는 점은 칭찬할 만함.
  • Dagster에 만족하고 있지만 Amphi도 흥미로움.
  • Amphi와 같은 도구가 어떻게 탄생했는지 궁금함. 이미 많은 오픈 소스 Python ETL 도구가 있는데, 이 도구가 특정 문제를 해결하기 위해 만들어졌는지, 아니면 열정 프로젝트인지 알고 싶음.