17P by neo 5일전 | favorite | 댓글 3개

Andy Pavlo(CMU 교수)의 2024년 데이터베이스 업계 전체 리뷰

내 데이터베이스, 내가 원하는 대로 라이선스한다!

  • 데이터베이스와 오픈소스의 딜레마:
    • 오픈소스 DBMS는 종종 VC가 지원하는 수익성 있는 회사에서 개발.
    • 클라우드 업체가 인기 있는 DBMS를 서비스로 제공하며 개발 기업보다 더 큰 수익을 올리는 문제 발생.
    • MongoDB는 2018년 SSPL(Server Side Public License)로 전환하여 이 문제를 해결하려 함.
  • Redis 라이선스 변화:
    • Redis Ltd.는 2024년 IPO를 준비하며 BSD-3 라이선스에서 SSPL 및 자체 Redis Source Available License로 전환.
    • 2024년 3월, RocksDB의 포크인 Speedb를 인수하며 라이선스 변경 발표.
    • 커뮤니티 반발:
      • 같은 주에 Valkey와 Redict라는 포크 프로젝트 발표.
      • Valkey는 Amazon에서 시작되어 Google, Oracle 등이 참여하며 Linux Foundation에 통합.
    • Redis 창시자의 복귀 가능성:
      • 2024년 12월, Redis 창시자가 Redis Ltd.와 협력하여 커뮤니티 재통합을 모색한다고 발표.
  • Elasticsearch 라이선스 회귀:
    • Elastic N.V.는 2021년 SSPL 및 Elastic License로 전환 후 Amazon과 갈등.
    • Amazon은 OpenSearch 포크로 대응.
    • 2024년 8월, Elastic N.V.는 AGPL로 다시 전환하며 Kendrick Lamar 노래를 언급.
    • 2024년 9월, Amazon은 OpenSearch 프로젝트를 Linux Foundation에 넘김.
  • Andy의 견해:
    • Redis에 대한 비판:
      • 성능이 낮고, 가짜 트랜잭션과 비효율적인 쿼리 언어 문제 지적.
      • 대체재가 많은 Redis는 커뮤니티의 반발을 견디기 어려운 상황.
    • Elasticsearch와 비슷한 패턴:
      • 라이선스 변경 → 포크 프로젝트 등장 → 오픈소스 라이선스로 회귀.
    • Redis와 Elasticsearch가 더 많은 반발을 받는 이유:
      • Redis는 창립자들이 원 제작자가 아니며, 외부 기여자가 많은 시스템으로 "정당성 부족" 논란.
      • 이는 2023년 HashiCorp의 Terraform 라이선스 변경과 유사한 반응.
    • 클라우드 업체의 영향력:
      • 클라우드 업체는 오픈소스 DBMS의 프로토콜을 기존 DBMS에 통합하거나 자체 서비스를 통해 ISV의 수익 기반을 약화.
      • 예: AWS는 Timestream DBMS에 InfluxDB v2 프로토콜을 추가하고, Redis 호환 서비스보다 30% 저렴한 Valkey 호환 서비스 발표.
  • 추가 업데이트:
    • AWS가 InfluxDB v2 DBMS의 관리형 서비스를 Influx Data와 협력하여 제공.
    • ScyllaDB가 2024년 12월 오픈소스 AGPL 버전을 중단하고 엔터프라이즈 버전을 "소스 공개"로 전환.

Databricks와 Snowflake의 끝없는 경쟁

  • 공개 LLM 경쟁:
    • Databricks:
      • 2024년 3월, DBRX 오픈소스 LLM 발표.
      • 1320억 개 파라미터로 Mosaic 팀이 개발, 2023년에 $13억에 인수.
      • 모델 개발에 $1,000만 투자.
    • Snowflake:
      • 2024년 4월, Arctic 오픈소스 LLM 발표.
      • 4800억 개 파라미터로, SQL 생성과 같은 "엔터프라이즈" 작업에서 DBRX보다 우수하다고 주장.
      • 모델 개발에 $200만 투자.
      • Snowflake 발표는 다른 LLM보다 DBRX와의 비교에 초점, 경쟁 구도를 명확히 드러냄.
  • 메타데이터 카탈로그 전쟁:
    • Hive의 HCatalog가 2010년대 데이터 레이크의 표준으로 자리 잡음.
    • Netflix의 Iceberg와 Uber의 Hudi가 2010년대 후반에 등장, Apache 프로젝트로 성장.
    • Databricks:
      • DeltaLake 플랫폼과 Unity라는 독점 카탈로그 서비스 제공.
      • 2024년 6월, Snowflake CEO의 Polaris 카탈로그 서비스 발표 당일, Iceberg 지원 기업 Tabular를 $20억에 인수.
      • 다음 주 Unity 카탈로그 오픈소스화 발표.
    • Snowflake:
      • 2022년 Iceberg 지원 발표 이후 점진적으로 확장.
      • Tabular 인수 협상 중 Databricks에 선수를 빼앗김.
  • Andy의 견해:
    • 전통적인 경쟁과의 차이:
      • 과거 Oracle과 Informix의 성능 경쟁과 달리, Snowflake와 Databricks의 싸움은 생태계와 데이터 관리 툴에 초점.
      • 벡터화된 실행 엔진은 이제 기본적인 기술로 간주.
      • 현재 중요한 것은 사용 편의성, 도구 호환성, AI/LLM 통합과 같은 부가적 품질.
    • 소비자에게 유익:
      • 치열한 경쟁은 더 나은 제품과 기술을 의미.
      • Snowflake의 Polaris는 Apache 프로젝트로 전환, 더 나은 기술 접근성 제공.
      • 결과적으로 기술 발전과 가격 인하 기대.
    • 긍정적 비교:
      • Oracle과 Salesforce CEO의 단순 자존심 경쟁과 달리, Snowflake와 Databricks의 싸움은 실질적 혁신과 경쟁력 강화로 이어짐.

DuckDB를 모든 곳에 통합하려는 노력

  • DuckDB의 성장:
    • DuckDB는 데이터 분석 쿼리에 있어 새로운 기본 선택으로 자리 잡음.
    • 이전에는 Pandas가 이러한 역할을 했으나, DuckDB는 뛰어난 휴대성과 성능으로 그 자리를 차지.
    • 여러 DBMS가 OLAP 워크로드 지원 강화를 위해 DuckDB를 통합하려는 시도 증가.
    • 2024년에는 Postgres와 DuckDB를 통합하는 4개의 새로운 확장 발표.
  • Postgres-DuckDB 확장 발표:
    • 5월 2024 - Crunchy Data:
      • Postgres에서 OLAP 쿼리를 DuckDB로 라우팅하는 독점 브리지 발표.
      • DuckDB의 지리공간 분석 기능을 활용해 PostGIS 쿼리를 가속화하는 확장도 추가.
    • 6월 2024 - ParadeDB:
      • 오픈소스 확장 pg_analytics 발표.
      • 이전에는 DataFusion 기반 pg_lakehouse를 사용했으나, DuckDB로 전환.
    • 8월 2024 - pg_duck:
      • DuckDB Labs GitHub에서 공식적으로 지원하는 DuckDB 확장.
      • MotherDuck, Hydra, Microsoft, Neon 간의 협업으로 시작했으나, Microsoft와 Neon은 개발 통제권 분쟁으로 프로젝트에서 제외.
      • 현재 MotherDuck과 Hydra가 공동으로 유지 관리.
    • 11월 2024 - pg_mooncake:
      • Postgres를 통해 Iceberg 테이블에 데이터를 기록하고 트랜잭션을 지원하는 확장 발표.
  • Andy의 견해:
    • DuckDB의 장점:
      • 대부분의 OLAP 쿼리는 100MB 미만의 데이터를 스캔, DuckDB는 단일 인스턴스로 이를 충분히 처리 가능.
      • 뛰어난 휴대성과 편리성 덕분에 Postgres 커뮤니티에서 빠르게 확산.
      • Iceberg 및 S3 데이터 접근을 포함한 다양한 데이터 생태계를 단일 확장으로 통합.
      • 고성능 분석을 제공하면서 비싼 데이터 웨어하우스를 대체할 수 있음.
    • Postgres의 확장성:
      • Postgres는 1980년대 설계 당시부터 확장성과 유연성을 목표로 함.
      • Postgres의 "hook" API(2006년 도입)로 인해 가장 광범위하고 다양한 확장 생태계 구축.
      • 그러나 확장 간 간섭과 잘못된 동작을 초래할 위험도 존재.
    • DuckDB의 Postgres 통합:
      • 기존의 Postgres 확장(Citus, Timescale)은 컬럼 기반 저장소만 제공해 문제를 부분적으로 해결.
      • DuckDB는 컬럼 기반 저장소와 벡터화된 쿼리 처리 모두 제공.
    • 비유적인 언급:
      • "Postgres 코끼리와 DuckDB를 활용한 turducken 농담" 가능성 언급, 하지만 대학의 징계를 피하기 위해 생략.

Random Happenings in the Database World

주요 릴리스:

  • Amazon Aurora DSQL:
    • AWS가 새로운 "Spanner-like" DBMS 발표.
    • 분산 로그 서비스와 타임스탬프 정렬(Time Sync) 기반.
    • Aurora라는 이름을 활용했지만, 기존 Aurora Postgres RDS와 코드 공유 없음.
  • CedarDB:
    • Umbra의 코드를 포크한 상용화 DBMS.
    • Umbra 창시자인 Thomas Neumann은 여전히 연구에 집중하며 Clickbench 리더보드 최상위 유지.
  • Google Bigtable:
    • NoSQL 선구자인 Bigtable이 2024년에 SQL 지원 추가.
  • Limbo:
    • Turso가 SQLite를 Rust로 완전 재작성한 프로젝트 발표.
    • SQLite의 강점은 코드뿐 아니라 모든 환경에서 정확히 실행되도록 보장하는 테스트 엔지니어링.
    • FoundationDB의 전직 엔지니어들과 협력하여 결정적 테스트 도입.
  • Microsoft Garnet:
    • Redis 호환 키-값 저장소로, FASTER의 후속작.
    • 쿼리 병렬성, 메모리 초과 DB 지원, 진정한 트랜잭션 기능 제공.
  • MySQL v9:
    • 6년 만에 출시된 새로운 버전.
    • 데이터베이스에 8,000개 이상의 테이블이 있으면 충돌하는 문제 발생.
    • 주요 기능이 부족하며, Oracle은 MySQL Heatwave 서비스에 더 집중.
  • Prometheus v3:
    • 7년 만의 주요 업데이트.
    • 대체 가능한 옵션이 많아 OG Prometheus의 활용도 감소.

주요 인수:

  • Alteryx → Private Equity: 사용자가 드물며, 별다른 의견 없음.
  • MariaDB → Private Equity: 관리 문제 해결 기대.
  • OrioleDB → Supabase: Postgres의 오래된 스토리지 아키텍처를 개선.
  • PeerDB → ClickHouse: Postgres 데이터를 ClickHouse로 ETL 전송 도구.
  • PopSQL → Timescale: 고급 SQL 편집기 UI 인수.
  • Speedb → Redis Ltd.: RocksDB 포크로 데이터 디스크 저장 기능 추가 가능성.
  • Rockset → OpenAI: DBaaS 서비스 종료, 2024년 9월.
  • Tabular → Databricks: Iceberg 생태계 강화를 위해 인수.
  • Verta.ai → Cloudera: Cloudera가 아직 생존 중.
  • Warpstream → Confluent: Kafka를 golang으로 재작성, S3와 통합.

주요 투자:

  • Databricks: $10억 시리즈 J.
  • DBOS: $850만 시드 라운드.
  • LanceDB: $800만 시드 라운드.
  • SDF: $900만 시드 라운드.
  • SpiceDB: $1,200만 시리즈 A.
  • TigerBeetle: $2,400만 시리즈 A.

주요 종말:

  • Amazon QLDB: Amazon조차 수익화 실패.
  • OtterTune: 10년 연구 및 스타트업 여정 종료. 특정 기업과의 문제로 인해 CMU-DB 학생 채용 금지.

Andy의 견해:

  • Databricks의 대규모 자금 조달:
    • 2024년 $10억 시리즈 J로 데이터베이스 업계 최고 자금 조달 기록 갱신.
    • 자금은 직원 주식 매입에 사용, IPO 지연에 대한 직원 불만 해결.
    • Databricks IPO 이후 여러 데이터베이스 스타트업도 IPO를 준비할 가능성.
  • 내년 전망:
    • 금리 하락이 대규모 자금을 유치한 기업(CockroachDB, Starburst, Imply 등)에 추가 자금 조달 기회 제공 가능성.
    • dbtLabs는 이미 성공적으로 자리 잡은 것으로 평가.

멈추지 않는 래리 엘리슨: 2024년의 놀라운 행보

  • 2024년 래리 엘리슨의 주요 업적:
    • 80번째 생일을 맞이하며 여전히 대담한 행보를 이어감.
    • 오라클 주식 상승으로 세계 3위 부자로 등극.
      • 2024년 3월, 오라클 주식 급등으로 하루 만에 150억 달러를 벌어들임.
    • 7월, 아들(세 번째 아내와의 사이)에게 선물로 60억 달러에 파라마운트 스튜디오를 구매.
    • 팜 비치 리조트를 2억 7,700만 달러에 인수, 또 하나의 고급 자산 추가.
  • 미시간 대학 풋볼팀 지원:
    • 2024년 11월, 미시간 대학 풋볼 후원 캠페인에 1,200만 달러 기부.
      • 이 기부로 LSU에서 미시간으로 이적한 최고의 쿼터백 영입에 결정적 역할.
      • 대학의 보도 자료에 “래리와 그의 아내 조린”의 공로가 언급됨.
    • 대학 졸업 경력이 없는 래리가 미시간 대학과 첫 번째로 큰 연관성을 맺은 사건.
  • "조린"의 정체:
    • 언론 보도로 래리의 새 아내가 조린(커렌) 주라는 사실이 밝혀짐.
      • 래리가 테니스 경기를 관람하는 모습이 포착되었고, 조린이 미시간 모자를 쓰고 있었음.
      • 2주 후, 결혼 소식이 새벽 5시 뉴스를 통해 전해지며 그녀의 정체가 확인됨.
  • 앤디의 관점:
    • 래리의 미시간 대학 지원은 특별한 의미가 있음.
      • 앤디의 전 CMU-DB 학생이 현재 미시간 대학 데이터베이스 그룹의 교수로 활동 중.
    • 래리의 새로운 사랑과 결혼을 축하하며 현대 사회에서 사랑을 찾는 어려움을 강조.
      • 과거 이혼을 겪었음에도 사랑을 다시 찾은 래리의 회복력과 긍정적인 태도를 높이 평가.
  • 래리의 여섯 번째 결혼:
    • 멜라니 크래프트(2010년 이혼)와 니키타 칸(2020년 이혼) 이후 또다시 결혼해 모두를 놀라게 함.
    • 조린 주와의 결혼으로 행복을 추구하는 그의 의지를 다시 한 번 입증.

결론

  • 새해 계획과 현재 상황:
    • 3년 만에 처음으로 건강하게 새해를 맞이하려 했으나, 딸에게 COVID를 옮아 병상에서 새해를 맞이함.
    • 2024년 9월 부스터 샷 접종, Paxlovid 치료 덕분에 큰 문제 없이 회복 중.
  • OtterTune의 종료:
    • OtterTune 프로젝트가 종료된 것에 실망.
    • 많은 훌륭한 사람들과 협업하며 큰 배움을 얻었음.
    • Intel Capital과 Race Capital이 끝까지 지원해 준 것에 감사.
    • 새로운 스타트업 구상 중(힌트: 이번에도 데이터베이스 관련).
  • CMU에서의 새로운 시작:
    • 카네기멜론대학교(CMU)로 돌아와 풀타임 연구 활동 재개.
    • Jignesh Patel과 함께 흥미로운 연구 프로젝트 준비 중.
    • 이번 학기에 새로운 쿼리 최적화 강의 개설 예정.
    • 2024년 9월, Wikipedia가 본인 관련 기사를 삭제한 만큼 연구 논문의 인용 수를 늘리는 방안을 모색 중.
  • DJ Mooshoo에 대한 지지:
    • Cook County에 수감된 DJ Mooshoo를 여전히 지지.
    • 2025년 석방을 희망하며 기다림.
  • ByteBase에 대한 언급:
    • ByteBase의 2024년 데이터베이스 도구 리뷰 기사(Database Tools in 2024: A Year in Review)에 감사.
    • 이전에는 본인의 연말 데이터베이스 기사를 중국어로 번역하려고 허락을 구했으나, 올해는 기다리지 않고 비슷한 주제와 제목으로 자체 기사를 작성.

좋은 글 감사합니다

2023은 빼먹었네요. 그때는 OtterTune 링크였는데 종료되어서 이제는 개인 블로그로 옮겨왔네요.

2022년 데이터베이스들 리뷰
2021년 데이터베이스들 리뷰

Hacker News 의견
  • Andy의 비디오에서 Redis 명령어 API에 대한 비판이 약하다는 의견이 있음. Redis API에 대한 비판은 가능하지만, 더 강력한 논거가 필요하다는 주장임. Redis의 사용법과 장점을 이해해야 한다고 강조함

  • Greenplum의 코드가 폐쇄되었을 때, 원래 개발자들이 Cloudberry라는 오픈 소스 포크를 만들었고, 이는 Apache 프로젝트에 수용되었음. Cloudberry는 Postgres 14와 동기화되었지만, Greenplum은 여전히 Postgres 12에 머물러 있음

  • Redis에 대해 개인적인 비판을 하는 의견이 있음. Redis는 느리고, 가짜 트랜잭션이 있으며, 쿼리 구문이 복잡하다고 주장함. CMU에서 Dragonfly가 더 나은 성능을 보였다고 언급함

  • DuckDB는 훌륭한 도구라는 의견이 있음. DuckDB의 창시자가 CMU에서 데이터 과학자들이 RDBMS를 사용하지 않는 이유를 설명한 강연이 인상적이었다고 함

  • SQL Server와 Azure 변형이 언급되지 않은 점이 이상하다는 의견이 있음. 특정 분야에서 지배적이며, DBEngines에서 세 번째로 인기 있는 것으로 평가됨

  • Elastic과 Redis에 대한 불만이 MongoDB와 다른 이유는 라이선스와 기여자 커뮤니티의 크기 때문이라는 의견이 있음. AGPL 같은 제한적인 라이선스는 내장 사용을 어렵게 하며, 기여자 커뮤니티가 없으면 포크가 어려움

  • MongoDB, Neo4j, Kafka, CockroachDB의 라이선스 변경에 대한 포크 시도가 없었던 이유는 사람들이 이 프로젝트에 크게 신경 쓰지 않았기 때문이라는 의견이 있음

  • Amazon이 데이터베이스를 서비스로 제공할 수 있지만, 많은 사람들이 AWS 관리 서비스를 원하지 않는다는 의견이 있음. k8s 기반 솔루션을 선호하는 팀이 많으며, 주류 OSS 구현으로 이동하는 경향이 있다고 함

  • Alteryx를 사용한 사람을 만난 적이 없다는 의견에 대해, Alteryx는 코드가 거의 필요 없는 그래픽 ELT+Analytics 도구로, 호환성이 뛰어나 다른 데이터베이스나 파일과 함께 사용할 수 있다고 설명함

  • 12M을 모금한 데이터베이스 스타트업이 3년 만에 실패했다는 소식에 놀라움을 표함. 데이터베이스 스타트업의 성공이 얼마나 어려운지를 보여주는 사례라고 언급함. AI를 활용한 DB 성능 개선 아이디어가 있었음에도 불구하고 더 많은 투자자를 찾지 못한 점이 의아하다고 함