최신 데이터 인프라를 위한 새로운 아키텍처 2.0
(future.a16z.com)2020년 나왔던 글의 2.0 업데이트
Changelog
- 새로 급성장한 2개의 분야
- 데이터 디스커버리, 관찰, ML 모델 감사등의 핵심 데이터 프로세스와 워크플로우를 지원하기 위한 도구들
- 데이터 워크스페이스, 리버스 ETL, ML 어플리케이션 프레임워크 처럼 데이터 팀과 비즈니스 사용자들이 데이터에서 가치를 만들어 낼수 있게 해주는 새로운 어플리케이션 들
- BI에 추가된 것들
- Metrics Layer : Transfrom, Supergrain 같은 새로운 순수 도구. 그리고 dbt가 이쪽으로 확장
- Reverse ETL : Hightouch, Census
- Data Workspace : Hex, Mode, Deepnote
- Data Discovery & Observability : Monte Carlo, Big Eye가 큰 자금 유치. 시드 단계인 Select Star, Metaphor, Stemma, Secoda, Castor 같은 회사들도 많음
- Multimodal Data Processing 에 추가된 것들
- Lakehouse 아키텍처에 대한 접근
- Storage Layer가 업그레이드 : Delta/Iceberg/Hudi가 더 많이 도입되고 상용화.
- 스트림 프로세싱 도입이 늘어나는 중 : 실시간 분석 데이터 프로세싱. Materialize/Upsolver
- AI & ML에 추가된 것들
- 데이터 중심 어프로치로 통합중
- 데이터 라벨링 : Scale, Labelbox. Closed-loop Data Engine에 대한 관심 증가
- 피쳐스토어 도입 증가 : Tecton, Feast, Databricks
- Low-Code ML 솔루션 : Continual, MindsDB, DataRobot, AutoML, Roboflow, Akkio
- Pre-Trained 모델 사용이 기본이 되어 가는중. 특히 NLP. OpenAI & Hugging Face
- MLOps 가 성숙해지고, ML Monitoring 중심으로 사례와 예산이 증가
- ML모델을 어플리케이션에 어떻게 연동하는지에 대해서도 관심 집중. 미리 만들어진 API(OpenAI), 벡터 데이터베이스(Pinecone) 등
- 데이터 중심 어프로치로 통합중
데이터 플랫폼 가설
- 지난 1년간 데이터 인프라 스택은 핵심 시스템과 지원도구들이 빠르게 확산 되었는데, 이게 왜 일어났는지를 설명하기 위해 "데이터 플랫폼" 아이디어를 소개
- 플랫폼이란 무엇인가?
- 데이터 에코 시스템에서 "플랫폼"은 과부하가 걸려있음. 내부 팀에서 전체 테크스택을 지칭하거나, 느슨하게 연결된 제품 스위트를 판매하는 벤더들에 의해 사용
- 소프트웨어 에서 플랫폼은 다른 개발자들이 그 위에서 뭔가를 개발할 수 있는 것을 말함
- 플랫폼을 정의하는 특성은, 산업적인 관점에서는 (기술적으로나 경제적으로) 영향력있는 플랫폼 제공자와 써드파티 개발자 풀사이의 "상호 의존성"임
- 데이터 플랫폼은 무엇인가?
- 역사적으로, 데이터 스택은 플랫폼 정의에 맞지 않았음
- ETL, 데이터 웨어하우스, 리포팅 벤더들 사이에서는 상호 의존성이 있었으나, 통합 모델은 1:다 보다는 1:1로 되는 경향이 많았음. 주로 전문 서비스들이 그걸 보완했고
- 많은 데이터 전문가 들과 얘기해본 바에 의하면, 이게 변하기 시작할 수 있음
- 플랫폼 가설은 데이터 스택의 "백엔드(데이터 인제스천, 저장, 처리, 트랜스폼으로 이어지는)"가 일부 클라우드 기반 벤더에서 통합되기 시작했다고 주장
- 결과적으로 고객 데이터 세트가 표준 시스템 세트에서 수집되며, 벤더들이 이 데이터가 다른 개발자들에게 쉽게 접근 될수 있도록 만들고 있음 (Databricks의 기본 디자인 원칙, SQL 표준과 Snowflake의 Snowpark 같은 API등을 통해)
- 프론트엔드 개발자들이 싱글 포인트 통합에서 이점을 얻었던 것 처럼, 하단 구조에 상관하지 않고 통합된 데이터를 접근할수 있게 됨
- 금융/제품분석 같은 전통적인 엔터프라이즈 시스템들도 "Warehouse-native" 아키텍처로 재개발 되는 것도 생기기 시작
- 이것은 OLTP DB나 다른 중요한 백엔드 기술이 곧 사라질것이라고 말하는 것은 아님
- 하지만 OLAP 시스템과의 네이티브 통합은 어플리케이션 개발의 핵심 컴포넌트가 될 수 있음
- 점점 더 많은 비즈니스 로직과 어플리케이션 기능들이 이 모델로 변화할 수 있음
- 데이터 앱들의 출현?
- 이 데이터 플랫폼 가설은 아직 많이 논의될 부분이 있음
- 어쨌든, 우리는 데이터 플랫폼위에서 수평적인 레이어로 복잡한 버티칼 SaaS 솔루션들이 증가하는 것을 보고 있음
- Snowflake, Databricks 같은 회사들이 이런 데이터 스택의 안정적인 조각들이 될 것
- 훌륭한 제품, 역량있는 세일즈 팀, 마찰이 별로 없는 배포모델 등 때문에
- 고객이 이런 시스템위에서 데이터 어플리케이션을 만들거나 연동하면 다른 것으로 전환하는게 합리적이지 않기 때문
- 지난 몇년간 데이터 인프라 제품이 만들어 지고 지금도 계속 나타나는 것은 플랫폼과 관계가 있을 것
- 플랫폼 가설은 경쟁 역학을 예측가능하게 하는 힘이 있음
- 규모가 크다면 플랫폼은 매우 가치가 높음
- 핵심 데이터 시스템 벤더들은 현재 예산이 아닌 장기적인 플랫폼 지위를 차지하기 위해 공격적으로 경쟁하고 있을 수 있음
- 데이터 인제스쳔 & 트랜스포케이션 회사들이나, Metrics Layer 또는 Reverse ETL 분야의 높은 밸류에이션은 그들이 새 데이터 플랫폼의 핵심부분이라고 생각하면 좀 더 합리적일 수 있음
- 앞을 내다보기
- 우리는 아직 분석 & 운영 적인 데이터 플랫폼을 정의하는 초기 단계에 있고, 그 플랫폼을 구성하는 조각들은 계속 변하는 중
- 따라서 이건 엄격한 정의보다는 비유로 사용하면 좀 더 유용함
- 그러나 이 가설은 Signal 에서 Noise를 필터링 하는 도구로서도 유용하고, 왜 시장이 이렇게 움직이는지를 이해하는데 도움이 됨
- 데이터 팀들은 이제 DB의 발명 이후, 그 어떤 시점보다 많은 도구, 자원, 조직적인 모멘텀을 가지게 되었음
- 이 새로운 플랫폼 위에서 앱 레이어가 진화할지를 지켜보는 것이 매우 흥분됨
이전에 올려주시던 유투브 강좌 동영상도 업데이트 해 주시나요..? ^^;
https://youtube.com/watch/…
항상 감사합니다~
최신 데이터 인프라를 위한 새로운 아키텍처 글의 업데이트 버전입니다.
정리하고 나서 올리려다 보니 Techit 에서도 이 2.0 글을 전체 번역해주신게 있네요. 같이 참고해서 보시기 바랍니다.
모던 데이터 아키텍처와 새로운 아키텍처의 시대