Tuplex - 병렬 빅데이터 처리 프레임워크
(github.com)- Apache Spark / Dask 와 비슷한 Python API 를 제공하지만
ㅤ→ 파이썬 인터프리터를 호출하지 않음
ㅤ→ 주어진 파이프라인과 입력 데이터세트에 최적화된 LLVM 바이트코드를 생성
ㅤ→ 인터프리터 대비 5~91x 빠름
- 내부적으로 데이터 드리븐 컴파일과 듀얼 모드 처리를 기반으로 해서, C++로 코딩하고 최적화된 파이프라인과 비슷한 속도를 냄
- MacOS / Linux 지원
- SIGMOD '21 에서 발표된 "Tuplex: Data Science in Python at Native Code Speed" 논문