Sail - AI시대를 위한 빅데이터 처리 프레임워크
(github.com/lakehq)- 스트림 프로세싱 / 배치 프로세싱 / 고성능-연산(AI) 워크로드를 통합 처리하는 프레임워크를 목표
- 현재 Spark SQL과 Spark DataFrame API에 대한 Drop-in 대체 솔루션을 제공(호환)
- 단일 머신 또는 분산 설정에서 동작 가능
- TPC-H 벤치마크 기준 Spark 대비 4배 빠르고, 94%의 하드웨어 비용을 절감하며, 코드 변경이 필요없음
- 파이썬 패키지로 이용 가능
pip install "pysail==0.2.0.dev0"
- 기술 스택
- Rust 기반 엔진으로 Apache Arrow와 Apache DataFusion 위에 구축
- Spark Connect 프로토콜을 사용해 Spark 세션이 Sail 서버와 통신