11P by xguru 26일전 | favorite | 댓글과 토론
  • 스트림 프로세싱 / 배치 프로세싱 / 고성능-연산(AI) 워크로드를 통합 처리하는 프레임워크를 목표
  • 현재 Spark SQL과 Spark DataFrame API에 대한 Drop-in 대체 솔루션을 제공(호환)
  • 단일 머신 또는 분산 설정에서 동작 가능
  • TPC-H 벤치마크 기준 Spark 대비 4배 빠르고, 94%의 하드웨어 비용을 절감하며, 코드 변경이 필요없음
  • 파이썬 패키지로 이용 가능 pip install "pysail==0.2.0.dev0"
  • 기술 스택
    • Rust 기반 엔진으로 Apache Arrow와 Apache DataFusion 위에 구축
    • Spark Connect 프로토콜을 사용해 Spark 세션이 Sail 서버와 통신