GN⁺: Databases in 2024 : 한해 돌아보기
(cs.cmu.edu)Andy Pavlo(CMU 교수)의 2024년 데이터베이스 업계 전체 리뷰
내 데이터베이스, 내가 원하는 대로 라이선스한다!
-
데이터베이스와 오픈소스의 딜레마:
- 오픈소스 DBMS는 종종 VC가 지원하는 수익성 있는 회사에서 개발.
- 클라우드 업체가 인기 있는 DBMS를 서비스로 제공하며 개발 기업보다 더 큰 수익을 올리는 문제 발생.
- MongoDB는 2018년 SSPL(Server Side Public License)로 전환하여 이 문제를 해결하려 함.
-
Redis 라이선스 변화:
- Redis Ltd.는 2024년 IPO를 준비하며 BSD-3 라이선스에서 SSPL 및 자체 Redis Source Available License로 전환.
- 2024년 3월, RocksDB의 포크인 Speedb를 인수하며 라이선스 변경 발표.
-
커뮤니티 반발:
- 같은 주에 Valkey와 Redict라는 포크 프로젝트 발표.
- Valkey는 Amazon에서 시작되어 Google, Oracle 등이 참여하며 Linux Foundation에 통합.
-
Redis 창시자의 복귀 가능성:
- 2024년 12월, Redis 창시자가 Redis Ltd.와 협력하여 커뮤니티 재통합을 모색한다고 발표.
-
Elasticsearch 라이선스 회귀:
- Elastic N.V.는 2021년 SSPL 및 Elastic License로 전환 후 Amazon과 갈등.
- Amazon은 OpenSearch 포크로 대응.
- 2024년 8월, Elastic N.V.는 AGPL로 다시 전환하며 Kendrick Lamar 노래를 언급.
- 2024년 9월, Amazon은 OpenSearch 프로젝트를 Linux Foundation에 넘김.
-
Andy의 견해:
-
Redis에 대한 비판:
- 성능이 낮고, 가짜 트랜잭션과 비효율적인 쿼리 언어 문제 지적.
- 대체재가 많은 Redis는 커뮤니티의 반발을 견디기 어려운 상황.
-
Elasticsearch와 비슷한 패턴:
- 라이선스 변경 → 포크 프로젝트 등장 → 오픈소스 라이선스로 회귀.
-
Redis와 Elasticsearch가 더 많은 반발을 받는 이유:
- Redis는 창립자들이 원 제작자가 아니며, 외부 기여자가 많은 시스템으로 "정당성 부족" 논란.
- 이는 2023년 HashiCorp의 Terraform 라이선스 변경과 유사한 반응.
-
클라우드 업체의 영향력:
- 클라우드 업체는 오픈소스 DBMS의 프로토콜을 기존 DBMS에 통합하거나 자체 서비스를 통해 ISV의 수익 기반을 약화.
- 예: AWS는 Timestream DBMS에 InfluxDB v2 프로토콜을 추가하고, Redis 호환 서비스보다 30% 저렴한 Valkey 호환 서비스 발표.
-
Redis에 대한 비판:
-
추가 업데이트:
- AWS가 InfluxDB v2 DBMS의 관리형 서비스를 Influx Data와 협력하여 제공.
- ScyllaDB가 2024년 12월 오픈소스 AGPL 버전을 중단하고 엔터프라이즈 버전을 "소스 공개"로 전환.
Databricks와 Snowflake의 끝없는 경쟁
-
공개 LLM 경쟁:
-
Databricks:
- 2024년 3월, DBRX 오픈소스 LLM 발표.
- 1320억 개 파라미터로 Mosaic 팀이 개발, 2023년에 $13억에 인수.
- 모델 개발에 $1,000만 투자.
-
Snowflake:
- 2024년 4월, Arctic 오픈소스 LLM 발표.
- 4800억 개 파라미터로, SQL 생성과 같은 "엔터프라이즈" 작업에서 DBRX보다 우수하다고 주장.
- 모델 개발에 $200만 투자.
- Snowflake 발표는 다른 LLM보다 DBRX와의 비교에 초점, 경쟁 구도를 명확히 드러냄.
-
Databricks:
-
메타데이터 카탈로그 전쟁:
- Hive의 HCatalog가 2010년대 데이터 레이크의 표준으로 자리 잡음.
- Netflix의 Iceberg와 Uber의 Hudi가 2010년대 후반에 등장, Apache 프로젝트로 성장.
-
Databricks:
- DeltaLake 플랫폼과 Unity라는 독점 카탈로그 서비스 제공.
- 2024년 6월, Snowflake CEO의 Polaris 카탈로그 서비스 발표 당일, Iceberg 지원 기업 Tabular를 $20억에 인수.
- 다음 주 Unity 카탈로그 오픈소스화 발표.
-
Snowflake:
- 2022년 Iceberg 지원 발표 이후 점진적으로 확장.
- Tabular 인수 협상 중 Databricks에 선수를 빼앗김.
-
Andy의 견해:
-
전통적인 경쟁과의 차이:
- 과거 Oracle과 Informix의 성능 경쟁과 달리, Snowflake와 Databricks의 싸움은 생태계와 데이터 관리 툴에 초점.
- 벡터화된 실행 엔진은 이제 기본적인 기술로 간주.
- 현재 중요한 것은 사용 편의성, 도구 호환성, AI/LLM 통합과 같은 부가적 품질.
-
소비자에게 유익:
- 치열한 경쟁은 더 나은 제품과 기술을 의미.
- Snowflake의 Polaris는 Apache 프로젝트로 전환, 더 나은 기술 접근성 제공.
- 결과적으로 기술 발전과 가격 인하 기대.
-
긍정적 비교:
- Oracle과 Salesforce CEO의 단순 자존심 경쟁과 달리, Snowflake와 Databricks의 싸움은 실질적 혁신과 경쟁력 강화로 이어짐.
-
전통적인 경쟁과의 차이:
DuckDB를 모든 곳에 통합하려는 노력
-
DuckDB의 성장:
- DuckDB는 데이터 분석 쿼리에 있어 새로운 기본 선택으로 자리 잡음.
- 이전에는 Pandas가 이러한 역할을 했으나, DuckDB는 뛰어난 휴대성과 성능으로 그 자리를 차지.
- 여러 DBMS가 OLAP 워크로드 지원 강화를 위해 DuckDB를 통합하려는 시도 증가.
- 2024년에는 Postgres와 DuckDB를 통합하는 4개의 새로운 확장 발표.
-
Postgres-DuckDB 확장 발표:
-
5월 2024 - Crunchy Data:
- Postgres에서 OLAP 쿼리를 DuckDB로 라우팅하는 독점 브리지 발표.
- DuckDB의 지리공간 분석 기능을 활용해 PostGIS 쿼리를 가속화하는 확장도 추가.
-
6월 2024 - ParadeDB:
- 오픈소스 확장 pg_analytics 발표.
- 이전에는 DataFusion 기반 pg_lakehouse를 사용했으나, DuckDB로 전환.
-
8월 2024 - pg_duck:
- DuckDB Labs GitHub에서 공식적으로 지원하는 DuckDB 확장.
- MotherDuck, Hydra, Microsoft, Neon 간의 협업으로 시작했으나, Microsoft와 Neon은 개발 통제권 분쟁으로 프로젝트에서 제외.
- 현재 MotherDuck과 Hydra가 공동으로 유지 관리.
-
11월 2024 - pg_mooncake:
- Postgres를 통해 Iceberg 테이블에 데이터를 기록하고 트랜잭션을 지원하는 확장 발표.
-
5월 2024 - Crunchy Data:
-
Andy의 견해:
-
DuckDB의 장점:
- 대부분의 OLAP 쿼리는 100MB 미만의 데이터를 스캔, DuckDB는 단일 인스턴스로 이를 충분히 처리 가능.
- 뛰어난 휴대성과 편리성 덕분에 Postgres 커뮤니티에서 빠르게 확산.
- Iceberg 및 S3 데이터 접근을 포함한 다양한 데이터 생태계를 단일 확장으로 통합.
- 고성능 분석을 제공하면서 비싼 데이터 웨어하우스를 대체할 수 있음.
-
Postgres의 확장성:
- Postgres는 1980년대 설계 당시부터 확장성과 유연성을 목표로 함.
- Postgres의 "hook" API(2006년 도입)로 인해 가장 광범위하고 다양한 확장 생태계 구축.
- 그러나 확장 간 간섭과 잘못된 동작을 초래할 위험도 존재.
-
DuckDB의 Postgres 통합:
- 기존의 Postgres 확장(Citus, Timescale)은 컬럼 기반 저장소만 제공해 문제를 부분적으로 해결.
- DuckDB는 컬럼 기반 저장소와 벡터화된 쿼리 처리 모두 제공.
-
비유적인 언급:
- "Postgres 코끼리와 DuckDB를 활용한 turducken 농담" 가능성 언급, 하지만 대학의 징계를 피하기 위해 생략.
-
DuckDB의 장점:
Random Happenings in the Database World
주요 릴리스:
-
Amazon Aurora DSQL:
- AWS가 새로운 "Spanner-like" DBMS 발표.
- 분산 로그 서비스와 타임스탬프 정렬(Time Sync) 기반.
- Aurora라는 이름을 활용했지만, 기존 Aurora Postgres RDS와 코드 공유 없음.
-
CedarDB:
- Umbra의 코드를 포크한 상용화 DBMS.
- Umbra 창시자인 Thomas Neumann은 여전히 연구에 집중하며 Clickbench 리더보드 최상위 유지.
-
Google Bigtable:
- NoSQL 선구자인 Bigtable이 2024년에 SQL 지원 추가.
-
Limbo:
- Turso가 SQLite를 Rust로 완전 재작성한 프로젝트 발표.
- SQLite의 강점은 코드뿐 아니라 모든 환경에서 정확히 실행되도록 보장하는 테스트 엔지니어링.
- FoundationDB의 전직 엔지니어들과 협력하여 결정적 테스트 도입.
-
Microsoft Garnet:
- Redis 호환 키-값 저장소로, FASTER의 후속작.
- 쿼리 병렬성, 메모리 초과 DB 지원, 진정한 트랜잭션 기능 제공.
-
MySQL v9:
- 6년 만에 출시된 새로운 버전.
- 데이터베이스에 8,000개 이상의 테이블이 있으면 충돌하는 문제 발생.
- 주요 기능이 부족하며, Oracle은 MySQL Heatwave 서비스에 더 집중.
-
Prometheus v3:
- 7년 만의 주요 업데이트.
- 대체 가능한 옵션이 많아 OG Prometheus의 활용도 감소.
주요 인수:
- Alteryx → Private Equity: 사용자가 드물며, 별다른 의견 없음.
- MariaDB → Private Equity: 관리 문제 해결 기대.
- OrioleDB → Supabase: Postgres의 오래된 스토리지 아키텍처를 개선.
- PeerDB → ClickHouse: Postgres 데이터를 ClickHouse로 ETL 전송 도구.
- PopSQL → Timescale: 고급 SQL 편집기 UI 인수.
- Speedb → Redis Ltd.: RocksDB 포크로 데이터 디스크 저장 기능 추가 가능성.
- Rockset → OpenAI: DBaaS 서비스 종료, 2024년 9월.
- Tabular → Databricks: Iceberg 생태계 강화를 위해 인수.
- Verta.ai → Cloudera: Cloudera가 아직 생존 중.
- Warpstream → Confluent: Kafka를 golang으로 재작성, S3와 통합.
주요 투자:
- Databricks: $10억 시리즈 J.
- DBOS: $850만 시드 라운드.
- LanceDB: $800만 시드 라운드.
- SDF: $900만 시드 라운드.
- SpiceDB: $1,200만 시리즈 A.
- TigerBeetle: $2,400만 시리즈 A.
주요 종말:
- Amazon QLDB: Amazon조차 수익화 실패.
- OtterTune: 10년 연구 및 스타트업 여정 종료. 특정 기업과의 문제로 인해 CMU-DB 학생 채용 금지.
Andy의 견해:
-
Databricks의 대규모 자금 조달:
- 2024년 $10억 시리즈 J로 데이터베이스 업계 최고 자금 조달 기록 갱신.
- 자금은 직원 주식 매입에 사용, IPO 지연에 대한 직원 불만 해결.
- Databricks IPO 이후 여러 데이터베이스 스타트업도 IPO를 준비할 가능성.
-
내년 전망:
- 금리 하락이 대규모 자금을 유치한 기업(CockroachDB, Starburst, Imply 등)에 추가 자금 조달 기회 제공 가능성.
- dbtLabs는 이미 성공적으로 자리 잡은 것으로 평가.
멈추지 않는 래리 엘리슨: 2024년의 놀라운 행보
-
2024년 래리 엘리슨의 주요 업적:
- 80번째 생일을 맞이하며 여전히 대담한 행보를 이어감.
- 오라클 주식 상승으로 세계 3위 부자로 등극.
- 2024년 3월, 오라클 주식 급등으로 하루 만에 150억 달러를 벌어들임.
- 7월, 아들(세 번째 아내와의 사이)에게 선물로 60억 달러에 파라마운트 스튜디오를 구매.
- 팜 비치 리조트를 2억 7,700만 달러에 인수, 또 하나의 고급 자산 추가.
-
미시간 대학 풋볼팀 지원:
- 2024년 11월, 미시간 대학 풋볼 후원 캠페인에 1,200만 달러 기부.
- 이 기부로 LSU에서 미시간으로 이적한 최고의 쿼터백 영입에 결정적 역할.
- 대학의 보도 자료에 “래리와 그의 아내 조린”의 공로가 언급됨.
- 대학 졸업 경력이 없는 래리가 미시간 대학과 첫 번째로 큰 연관성을 맺은 사건.
- 2024년 11월, 미시간 대학 풋볼 후원 캠페인에 1,200만 달러 기부.
-
"조린"의 정체:
- 언론 보도로 래리의 새 아내가 조린(커렌) 주라는 사실이 밝혀짐.
- 래리가 테니스 경기를 관람하는 모습이 포착되었고, 조린이 미시간 모자를 쓰고 있었음.
- 2주 후, 결혼 소식이 새벽 5시 뉴스를 통해 전해지며 그녀의 정체가 확인됨.
- 언론 보도로 래리의 새 아내가 조린(커렌) 주라는 사실이 밝혀짐.
-
앤디의 관점:
- 래리의 미시간 대학 지원은 특별한 의미가 있음.
- 앤디의 전 CMU-DB 학생이 현재 미시간 대학 데이터베이스 그룹의 교수로 활동 중.
- 래리의 새로운 사랑과 결혼을 축하하며 현대 사회에서 사랑을 찾는 어려움을 강조.
- 과거 이혼을 겪었음에도 사랑을 다시 찾은 래리의 회복력과 긍정적인 태도를 높이 평가.
- 래리의 미시간 대학 지원은 특별한 의미가 있음.
-
래리의 여섯 번째 결혼:
- 멜라니 크래프트(2010년 이혼)와 니키타 칸(2020년 이혼) 이후 또다시 결혼해 모두를 놀라게 함.
- 조린 주와의 결혼으로 행복을 추구하는 그의 의지를 다시 한 번 입증.
결론
-
새해 계획과 현재 상황:
- 3년 만에 처음으로 건강하게 새해를 맞이하려 했으나, 딸에게 COVID를 옮아 병상에서 새해를 맞이함.
- 2024년 9월 부스터 샷 접종, Paxlovid 치료 덕분에 큰 문제 없이 회복 중.
-
OtterTune의 종료:
- OtterTune 프로젝트가 종료된 것에 실망.
- 많은 훌륭한 사람들과 협업하며 큰 배움을 얻었음.
- Intel Capital과 Race Capital이 끝까지 지원해 준 것에 감사.
- 새로운 스타트업 구상 중(힌트: 이번에도 데이터베이스 관련).
-
CMU에서의 새로운 시작:
- 카네기멜론대학교(CMU)로 돌아와 풀타임 연구 활동 재개.
- Jignesh Patel과 함께 흥미로운 연구 프로젝트 준비 중.
- 이번 학기에 새로운 쿼리 최적화 강의 개설 예정.
- 2024년 9월, Wikipedia가 본인 관련 기사를 삭제한 만큼 연구 논문의 인용 수를 늘리는 방안을 모색 중.
-
DJ Mooshoo에 대한 지지:
- Cook County에 수감된 DJ Mooshoo를 여전히 지지.
- 2025년 석방을 희망하며 기다림.
-
ByteBase에 대한 언급:
- ByteBase의 2024년 데이터베이스 도구 리뷰 기사(Database Tools in 2024: A Year in Review)에 감사.
- 이전에는 본인의 연말 데이터베이스 기사를 중국어로 번역하려고 허락을 구했으나, 올해는 기다리지 않고 비슷한 주제와 제목으로 자체 기사를 작성.
2023은 빼먹었네요. 그때는 OtterTune 링크였는데 종료되어서 이제는 개인 블로그로 옮겨왔네요.
Hacker News 의견
-
Andy의 비디오에서 Redis 명령어 API에 대한 비판이 약하다는 의견이 있음. Redis API에 대한 비판은 가능하지만, 더 강력한 논거가 필요하다는 주장임. Redis의 사용법과 장점을 이해해야 한다고 강조함
-
Greenplum의 코드가 폐쇄되었을 때, 원래 개발자들이 Cloudberry라는 오픈 소스 포크를 만들었고, 이는 Apache 프로젝트에 수용되었음. Cloudberry는 Postgres 14와 동기화되었지만, Greenplum은 여전히 Postgres 12에 머물러 있음
-
Redis에 대해 개인적인 비판을 하는 의견이 있음. Redis는 느리고, 가짜 트랜잭션이 있으며, 쿼리 구문이 복잡하다고 주장함. CMU에서 Dragonfly가 더 나은 성능을 보였다고 언급함
-
DuckDB는 훌륭한 도구라는 의견이 있음. DuckDB의 창시자가 CMU에서 데이터 과학자들이 RDBMS를 사용하지 않는 이유를 설명한 강연이 인상적이었다고 함
-
SQL Server와 Azure 변형이 언급되지 않은 점이 이상하다는 의견이 있음. 특정 분야에서 지배적이며, DBEngines에서 세 번째로 인기 있는 것으로 평가됨
-
Elastic과 Redis에 대한 불만이 MongoDB와 다른 이유는 라이선스와 기여자 커뮤니티의 크기 때문이라는 의견이 있음. AGPL 같은 제한적인 라이선스는 내장 사용을 어렵게 하며, 기여자 커뮤니티가 없으면 포크가 어려움
-
MongoDB, Neo4j, Kafka, CockroachDB의 라이선스 변경에 대한 포크 시도가 없었던 이유는 사람들이 이 프로젝트에 크게 신경 쓰지 않았기 때문이라는 의견이 있음
-
Amazon이 데이터베이스를 서비스로 제공할 수 있지만, 많은 사람들이 AWS 관리 서비스를 원하지 않는다는 의견이 있음. k8s 기반 솔루션을 선호하는 팀이 많으며, 주류 OSS 구현으로 이동하는 경향이 있다고 함
-
Alteryx를 사용한 사람을 만난 적이 없다는 의견에 대해, Alteryx는 코드가 거의 필요 없는 그래픽 ELT+Analytics 도구로, 호환성이 뛰어나 다른 데이터베이스나 파일과 함께 사용할 수 있다고 설명함
-
12M을 모금한 데이터베이스 스타트업이 3년 만에 실패했다는 소식에 놀라움을 표함. 데이터베이스 스타트업의 성공이 얼마나 어려운지를 보여주는 사례라고 언급함. AI를 활용한 DB 성능 개선 아이디어가 있었음에도 불구하고 더 많은 투자자를 찾지 못한 점이 의아하다고 함