4P by xguru 8시간전 | ★ favorite | 댓글과 토론
  • 최신 하드웨어(SIMD·GPU)를 전제로 설계된 오픈소스 컬럼 지향 파일 포맷
  • 분석·AI 워크로드에서 고처리량·저지연 데이터 접근을 목표로 함
  • Parquet 대비 약 40% 높은 압축률, 최대 40배 빠른 디코딩 속도를 달성
  • 데이터 의존성을 최소화한 Lane 기반 레이아웃을 도입해 각 단위를 독립적으로 디코딩 가능
    • SIMD·멀티코어 CPU·GPU에서 극단적인 데이터 병렬성 확보
  • 명시적 SIMD 코드 없이도 자동 벡터화가 잘 동작하도록 설계
    • CPU·GPU 캐시 특성을 고려한 소규모 배치 단위 접근 방식 채택
  • 압축을 완전히 풀지 않고 처리하는 부분 디컴프레션(partial decompression) 지원으로 데이터 엔진이 압축 상태 그대로 쿼리 실행 가능
  • 다중 컬럼 압축(Multi-Column Compression, MCC) 을 통해 컬럼 간 상관관계를 활용
    • 기존 컬럼 저장 포맷의 단일 컬럼 한계를 보완하는 표현식 기반 인코딩 메커니즘 제공
  • 외부 라이브러리에 의존하지 않는 Zero-dependency 구조로 빌드 단순화
    • C++, Python, Rust 등 주요 언어 바인딩 제공
  • CSV ↔ FastLanes 변환 API 내장
    • read_csv() / to_fls()로 손쉬운 변환
    • read_fls() / to_csv()로 역변환 지원
  • GPU 디코딩, Apache Arrow·DuckDB 연동 등 차세대 데이터 스택과의 통합을 목표로 개발 중