Hyperspace - MS가 공개한 Apache Spark용 인덱싱 서브시스템 오픈소스
(microsoft.github.io)아파치 스파크에 인덱스 기반의 쿼리 가속을 가능하게 해주는 서브 시스템
ㅤ→ CSV, JSON, Parquet 데이터에 인덱스를 생성하고 관리
ㅤ→ 이 인덱스를 자동으로 사용해서, 코드의 변경없이 쿼리/워크로드 를 가속
- TPC 벤치마크상 개별 쿼리에 대해서 최대 11배까지 쿼리 속도 증가
ㅤ→ 전체적으로는 일반 하드웨어 사용시 약 2배 정도 쿼리 성능 가속
- create,refresh,delete,restore,vacuum,cancel 과 같은 간단한 API
- Scala, Python, .NET 지원
Microsoft Azure 클라우드의 Azure Synapse Analytics에 사용되고 있음
( 엔터프라이즈 데이터 웨어하우징과 빅 데이터 분석을 결합한 무제한 분석 서비스 )
소개글 : Hyperspace, an indexing subsystem for Apache Spark™, is now open source
https://cloudblogs.microsoft.com/opensource/2020/…