9P by xguru 2023-03-25 | favorite | 댓글 1개
  • Yandex가 공개한 분산 스토리지 & 프로세싱 빅데이터 플랫폼 오픈소스
    • 유스케이스 : 배치 처리, 애드혹 분석, OLTP, 머신러닝, 메타데이터 스토리지, ETL 파이프라인
  • 멀티테넌트 에코시스템
  • 신뢰성 및 안전성 : SPOF 없음. 서버간 복제 자동화. 진행상황 손실없이 업데이트
  • 확장성
    • 1백만개까지의 CPU 코어 및 수천개 GPU까지 확장 가능
    • 1만개 이상의 노드 지원. 자동 서버 스케일 업 & 다운
    • Exabyte 데이터 까지 다양한 저장매체 지원
  • 풍부한 기능
    • 광범위한 MapReduce 모델
    • 분산 ACID 트랜잭션
    • 다양한 SDK(C++, Python, Java, Go) 와 API 제공
    • 컴퓨팅 리소스 및 스토리지에 대한 안전한 격리
    • 사용자 친화적 UI
  • CHYT powered by ClickHouse
    • 친숙한 SQL Dialect 및 비슷한 기능
    • 빠른 분석 쿼리
    • 인기 BI 솔루션들과 연동(JDBC/ODBC)
  • SPYT powered by Apache Spark
    • ETL 프로세스를 만들기 위한 도구
    • 다양한 크기의 여러 독립 클러스터 지원
    • 기존 솔루션들의 쉬운 이관

오픈소스 자체의 역사 및 내부 사용 기술에 대한 소개글 : YTsaurus: Exabyte-Scale Storage and Processing System Is Now Open Source

  • 거의 10년 넘게 개발을 진행했다고 합니다.
  • 2006년 부터 MapReduce를 사용하다가 2009년에 한계에 부딛혀 2010년부터 YT 프로젝트를 시작
  • Cypress (Storage) + MapReduce + 동적 K-V 테이블 + YQL + CHYT + SPYT
  • 주요 서버 코드는 C++