최신 데이터 인프라를 위한 새로운 아키텍처 2.0

xguru · 2022-04-25T10:34:56+09:00

2020년 나왔던 글의 2.0 업데이트 Changelog 새로 급성장한 2개의 분야 데이터 디스커버리, 관찰, ML 모델 감사등의 핵심 데이터 프로세스와 워크플로우를 지원하기 위한 도구들 데이터 워크스페이스, 리버스 ETL, ML 어플리케이션 프레임워크 처럼 데이터 팀과 비즈니스 사용자들이 데이터에서 가치를 만들어 낼수 있게 해주는 새로운 어플리케이션 들 BI에 추가된 것들 Metrics Layer : Transfrom, Supergrain 같은 새로운 순수 도구. 그리고 dbt가 이쪽으로 확장 Reverse ETL : Hightouch, Census Data Workspace : Hex, Mode, Deepnote Data Discovery & Observability : Monte Carlo, Big Eye가 큰 자금 유치. 시드 단계인 Select Star, Metaphor, Stemma, Secoda, Castor 같은 회사들도 많음 Multimodal Data Processing 에 추가된 것들 Lakehouse 아키텍처에 대한 접근 Storage Layer가 업그레이드 : Delta/Iceberg/Hudi가 더 많이 도입되고 상용화. 스트림 프로세싱 도입이 늘어나는 중 : 실시간 분석 데이터 프로세싱. Materialize/Upsolver AI & ML에 추가된 것들 데이터 중심 어프로치로 통합중 데이터 라벨링 : Scale, Labelbox. Closed-loop Data Engine에 대한 관심 증가 피쳐스토어 도입 증가 : Tecton, Feast, Databricks Low-Code ML 솔루션 : Continual, MindsDB, DataRobot, AutoML, Roboflow, Akkio Pre-Trained 모델 사용이 기본이 되어 가는중. 특히 NLP. OpenAI & Hugging Face MLOps 가 성숙해지고, ML Monitoring 중심으로 사례와 예산이 증가 ML모델을 어플리케이션에 어떻게 연동하는지에 대해서도 관심 집중. 미리 만들어진 API(OpenAI), 벡터 데이터베이스(Pinecone) 등 데이터 플랫폼 가설 지난 1년간 데이터 인프라 스택은 핵심 시스템과 지원도구들이 빠르게 확산 되었는데, 이게 왜 일어났는지를 설명하기 위해 "데이터 플랫폼" 아이디어를 소개 플랫폼이란 무엇인가? 데이터 에코 시스템에서 "플랫폼"은 과부하가 걸려있음. 내부 팀에서 전체 테크스택을 지칭하거나, 느슨하게 연결된 제품 스위트를 판매하는 벤더들에 의해 사용 소프트웨어 에서 플랫폼은 다른 개발자들이 그 위에서 뭔가를 개발할 수 있는 것을 말함 플랫폼을 정의하는 특성은, 산업적인 관점에서는 (기술적으로나 경제적으로) 영향력있는 플랫폼 제공자와 써드파티 개발자 풀사이의 "상호 의존성"임 데이터 플랫폼은 무엇인가? 역사적으로, 데이터 스택은 플랫폼 정의에 맞지 않았음 ETL, 데이터 웨어하우스, 리포팅 벤더들 사이에서는 상호 의존성이 있었으나, 통합 모델은 1:다 보다는 1:1로 되는 경향이 많았음. 주로 전문 서비스들이 그걸 보완했고 많은 데이터 전문가 들과 얘기해본 바에 의하면, 이게 변하기 시작할 수 있음 플랫폼 가설은 데이터 스택의 "백엔드(데이터 인제스천, 저장, 처리, 트랜스폼으로 이어지는)"가 일부 클라우드 기반 벤더에서 통합되기 시작했다고 주장 결과적으로 고객 데이터 세트가 표준 시스템 세트에서 수집되며, 벤더들이 이 데이터가 다른 개발자들에게 쉽게 접근 될수 있도록 만들고 있음 (Databricks의 기본 디자인 원칙, SQL 표준과 Snowflake의 Snowpark 같은 API등을 통해) 프론트엔드 개발자들이 싱글 포인트 통합에서 이점을 얻었던 것 처럼, 하단 구조에 상관하지 않고 통합된 데이터를 접근할수 있게 됨 금융/제품분석 같은 전통적인 엔터프라이즈 시스템들도 "Warehouse-native" 아키텍처로 재개발 되는 것도 생기기 시작 이것은 OLTP DB나 다른 중요한 백엔드 기술이 곧 사라질것이라고 말하는 것은 아님 하지만 OLAP 시스템과의 네이티브 통합은 어플리케이션 개발의 핵심 컴포넌트가 될 수 있음 점점 더 많은 비즈니스 로직과 어플리케이션 기능들이 이 모델로 변화할 수 있음 데이터 앱들의 출현? 이 데이터 플랫폼 가설은 아직 많이 논의될 부분이 있음 어쨌든, 우리는 데이터 플랫폼위에서 수평적인 레이어로 복잡한 버티칼 SaaS 솔루션들이 증가하는 것을 보고 있음 Snowflake, Databricks 같은 회사들이 이런 데이터 스택의 안정적인 조각들이 될 것 훌륭한 제품, 역량있는 세일즈 팀, 마찰이 별로 없는 배포모델 등 때문에 고객이 이런 시스템위에서 데이터 어플리케이션을 만들거나 연동하면 다른 것으로 전환하는게 합리적이지 않기 때문 지난 몇년간 데이터 인프라 제품이 만들어 지고 지금도 계속 나타나는 것은 플랫폼과 관계가 있을 것 플랫폼 가설은 경쟁 역학을 예측가능하게 하는 힘이 있음 규모가 크다면 플랫폼은 매우 가치가 높음 핵심 데이터 시스템 벤더들은 현재 예산이 아닌 장기적인 플랫폼 지위를 차지하기 위해 공격적으로 경쟁하고 있을 수 있음 데이터 인제스쳔 & 트랜스포케이션 회사들이나, Metrics Layer 또는 Reverse ETL 분야의 높은 밸류에이션은 그들이 새 데이터 플랫폼의 핵심부분이라고 생각하면 좀 더 합리적일 수 있음 앞을 내다보기 우리는 아직 분석 & 운영 적인 데이터 플랫폼을 정의하는 초기 단계에 있고, 그 플랫폼을 구성하는 조각들은 계속 변하는 중 따라서 이건 엄격한 정의보다는 비유로 사용하면 좀 더 유용함 그러나 이 가설은 Signal 에서 Noise를 필터링 하는 도구로서도 유용하고, 왜 시장이 이렇게 움직이는지를 이해하는데 도움이 됨 데이터 팀들은 이제 DB의 발명 이후, 그 어떤 시점보다 많은 도구, 자원, 조직적인 모멘텀을 가지게 되었음 이 새로운 플랫폼 위에서 앱 레이어가 진화할지를 지켜보는 것이 매우 흥분됨

2020년 나왔던 글의 2.0 업데이트

Changelog

새로 급성장한 2개의 분야
- 데이터 디스커버리, 관찰, ML 모델 감사등의 핵심 데이터 프로세스와 워크플로우를 지원하기 위한 도구들
- 데이터 워크스페이스, 리버스 ETL, ML 어플리케이션 프레임워크 처럼 데이터 팀과 비즈니스 사용자들이 데이터에서 가치를 만들어 낼수 있게 해주는 새로운 어플리케이션 들
BI에 추가된 것들
- Metrics Layer : Transfrom, Supergrain 같은 새로운 순수 도구. 그리고 dbt가 이쪽으로 확장
- Reverse ETL : Hightouch, Census
- Data Workspace : Hex, Mode, Deepnote
- Data Discovery & Observability : Monte Carlo, Big Eye가 큰 자금 유치. 시드 단계인 Select Star, Metaphor, Stemma, Secoda, Castor 같은 회사들도 많음
Multimodal Data Processing 에 추가된 것들
- Lakehouse 아키텍처에 대한 접근
- Storage Layer가 업그레이드 : Delta/Iceberg/Hudi가 더 많이 도입되고 상용화.
- 스트림 프로세싱 도입이 늘어나는 중 : 실시간 분석 데이터 프로세싱. Materialize/Upsolver
AI & ML에 추가된 것들
- 데이터 중심 어프로치로 통합중
  - 데이터 라벨링 : Scale, Labelbox. Closed-loop Data Engine에 대한 관심 증가
  - 피쳐스토어 도입 증가 : Tecton, Feast, Databricks
  - Low-Code ML 솔루션 : Continual, MindsDB, DataRobot, AutoML, Roboflow, Akkio
- Pre-Trained 모델 사용이 기본이 되어 가는중. 특히 NLP. OpenAI & Hugging Face
- MLOps 가 성숙해지고, ML Monitoring 중심으로 사례와 예산이 증가
- ML모델을 어플리케이션에 어떻게 연동하는지에 대해서도 관심 집중. 미리 만들어진 API(OpenAI), 벡터 데이터베이스(Pinecone) 등

데이터 플랫폼 가설

지난 1년간 데이터 인프라 스택은 핵심 시스템과 지원도구들이 빠르게 확산 되었는데, 이게 왜 일어났는지를 설명하기 위해 "데이터 플랫폼" 아이디어를 소개
플랫폼이란 무엇인가?
- 데이터 에코 시스템에서 "플랫폼"은 과부하가 걸려있음. 내부 팀에서 전체 테크스택을 지칭하거나, 느슨하게 연결된 제품 스위트를 판매하는 벤더들에 의해 사용
- 소프트웨어 에서 플랫폼은 다른 개발자들이 그 위에서 뭔가를 개발할 수 있는 것을 말함
- 플랫폼을 정의하는 특성은, 산업적인 관점에서는 (기술적으로나 경제적으로) 영향력있는 플랫폼 제공자와 써드파티 개발자 풀사이의 "상호 의존성"임
데이터 플랫폼은 무엇인가?
- 역사적으로, 데이터 스택은 플랫폼 정의에 맞지 않았음
- ETL, 데이터 웨어하우스, 리포팅 벤더들 사이에서는 상호 의존성이 있었으나, 통합 모델은 1:다 보다는 1:1로 되는 경향이 많았음. 주로 전문 서비스들이 그걸 보완했고
- 많은 데이터 전문가 들과 얘기해본 바에 의하면, 이게 변하기 시작할 수 있음
- 플랫폼 가설은 데이터 스택의 "백엔드(데이터 인제스천, 저장, 처리, 트랜스폼으로 이어지는)"가 일부 클라우드 기반 벤더에서 통합되기 시작했다고 주장
- 결과적으로 고객 데이터 세트가 표준 시스템 세트에서 수집되며, 벤더들이 이 데이터가 다른 개발자들에게 쉽게 접근 될수 있도록 만들고 있음 (Databricks의 기본 디자인 원칙, SQL 표준과 Snowflake의 Snowpark 같은 API등을 통해)
- 프론트엔드 개발자들이 싱글 포인트 통합에서 이점을 얻었던 것 처럼, 하단 구조에 상관하지 않고 통합된 데이터를 접근할수 있게 됨
- 금융/제품분석 같은 전통적인 엔터프라이즈 시스템들도 "Warehouse-native" 아키텍처로 재개발 되는 것도 생기기 시작
- 이것은 OLTP DB나 다른 중요한 백엔드 기술이 곧 사라질것이라고 말하는 것은 아님
- 하지만 OLAP 시스템과의 네이티브 통합은 어플리케이션 개발의 핵심 컴포넌트가 될 수 있음
- 점점 더 많은 비즈니스 로직과 어플리케이션 기능들이 이 모델로 변화할 수 있음
데이터 앱들의 출현?
- 이 데이터 플랫폼 가설은 아직 많이 논의될 부분이 있음
- 어쨌든, 우리는 데이터 플랫폼위에서 수평적인 레이어로 복잡한 버티칼 SaaS 솔루션들이 증가하는 것을 보고 있음
- Snowflake, Databricks 같은 회사들이 이런 데이터 스택의 안정적인 조각들이 될 것
  - 훌륭한 제품, 역량있는 세일즈 팀, 마찰이 별로 없는 배포모델 등 때문에
  - 고객이 이런 시스템위에서 데이터 어플리케이션을 만들거나 연동하면 다른 것으로 전환하는게 합리적이지 않기 때문
- 지난 몇년간 데이터 인프라 제품이 만들어 지고 지금도 계속 나타나는 것은 플랫폼과 관계가 있을 것
- 플랫폼 가설은 경쟁 역학을 예측가능하게 하는 힘이 있음
  - 규모가 크다면 플랫폼은 매우 가치가 높음
  - 핵심 데이터 시스템 벤더들은 현재 예산이 아닌 장기적인 플랫폼 지위를 차지하기 위해 공격적으로 경쟁하고 있을 수 있음
- 데이터 인제스쳔 & 트랜스포케이션 회사들이나, Metrics Layer 또는 Reverse ETL 분야의 높은 밸류에이션은 그들이 새 데이터 플랫폼의 핵심부분이라고 생각하면 좀 더 합리적일 수 있음
앞을 내다보기
- 우리는 아직 분석 & 운영 적인 데이터 플랫폼을 정의하는 초기 단계에 있고, 그 플랫폼을 구성하는 조각들은 계속 변하는 중
- 따라서 이건 엄격한 정의보다는 비유로 사용하면 좀 더 유용함
- 그러나 이 가설은 Signal 에서 Noise를 필터링 하는 도구로서도 유용하고, 왜 시장이 이렇게 움직이는지를 이해하는데 도움이 됨
- 데이터 팀들은 이제 DB의 발명 이후, 그 어떤 시점보다 많은 도구, 자원, 조직적인 모멘텀을 가지게 되었음
- 이 새로운 플랫폼 위에서 앱 레이어가 진화할지를 지켜보는 것이 매우 흥분됨

최신 데이터 인프라를 위한 새로운 아키텍처 2.0

Changelog

데이터 플랫폼 가설

함께 보면 좋은 글 β

댓글과 토론