# 최신 데이터 인프라를 위한 새로운 아키텍처 2.0

> Clean Markdown view of GeekNews topic #6435. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=6435](https://news.hada.io/topic?id=6435)
- GeekNews Markdown: [https://news.hada.io/topic/6435.md](https://news.hada.io/topic/6435.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2022-04-25T10:34:56+09:00
- Updated: 2022-04-25T10:34:56+09:00
- Original source: [future.a16z.com](https://future.a16z.com/emerging-architectures-modern-data-infrastructure/)
- Points: 25
- Comments: 4

## Topic Body

2020년 나왔던 글의 2.0 업데이트  
### Changelog   
- 새로 급성장한 2개의 분야  
  - 데이터 디스커버리, 관찰, ML 모델 감사등의 핵심 데이터 프로세스와 워크플로우를 지원하기 위한 도구들   
  - 데이터 워크스페이스, 리버스 ETL, ML 어플리케이션 프레임워크 처럼 데이터 팀과 비즈니스 사용자들이 데이터에서 가치를 만들어 낼수 있게 해주는 새로운 어플리케이션 들   
- BI에 추가된 것들  
  - Metrics Layer : Transfrom, Supergrain 같은 새로운 순수 도구. 그리고 dbt가 이쪽으로 확장  
  - Reverse ETL : Hightouch, Census  
  - Data Workspace : Hex, Mode, Deepnote   
  - Data Discovery & Observability : Monte Carlo, Big Eye가 큰 자금 유치. 시드 단계인 Select Star, Metaphor, Stemma, Secoda, Castor 같은 회사들도 많음  
- Multimodal Data Processing 에 추가된 것들   
  - Lakehouse 아키텍처에 대한 접근   
  - Storage Layer가 업그레이드 : Delta/Iceberg/Hudi가 더 많이 도입되고 상용화.   
  - 스트림 프로세싱 도입이 늘어나는 중 : 실시간 분석 데이터 프로세싱. Materialize/Upsolver   
- AI & ML에 추가된 것들   
  - 데이터 중심 어프로치로 통합중  
    - 데이터 라벨링 : Scale, Labelbox. Closed-loop Data Engine에 대한 관심 증가  
    - 피쳐스토어 도입 증가 : Tecton, Feast, Databricks   
    - Low-Code ML 솔루션 : Continual, MindsDB, DataRobot, AutoML, Roboflow, Akkio  
  - Pre-Trained 모델 사용이 기본이 되어 가는중. 특히 NLP. OpenAI & Hugging Face   
  - MLOps 가 성숙해지고, ML Monitoring 중심으로 사례와 예산이 증가  
  - ML모델을 어플리케이션에 어떻게 연동하는지에 대해서도 관심 집중. 미리 만들어진 API(OpenAI), 벡터 데이터베이스(Pinecone) 등   
  
### 데이터 플랫폼 가설   
- 지난 1년간 데이터 인프라 스택은 핵심 시스템과 지원도구들이 빠르게 확산 되었는데, 이게 왜 일어났는지를 설명하기 위해 "**데이터 플랫폼**" 아이디어를 소개   
- 플랫폼이란 무엇인가?  
  - 데이터 에코 시스템에서 "플랫폼"은 과부하가 걸려있음. 내부 팀에서 전체 테크스택을 지칭하거나, 느슨하게 연결된 제품 스위트를 판매하는 벤더들에 의해 사용   
  - 소프트웨어 에서 플랫폼은 다른 개발자들이 그 위에서 뭔가를 개발할 수 있는 것을 말함   
  - 플랫폼을 정의하는 특성은, 산업적인 관점에서는 (기술적으로나 경제적으로) 영향력있는 플랫폼 제공자와 써드파티 개발자 풀사이의 "상호 의존성"임  
- 데이터 플랫폼은 무엇인가?  
  - 역사적으로, 데이터 스택은 플랫폼 정의에 맞지 않았음  
  - ETL, 데이터 웨어하우스, 리포팅 벤더들 사이에서는 상호 의존성이 있었으나, 통합 모델은 1:다 보다는 1:1로 되는 경향이 많았음. 주로 전문 서비스들이 그걸 보완했고  
  - 많은 데이터 전문가 들과 얘기해본 바에 의하면, 이게 변하기 시작할 수 있음   
  - 플랫폼 가설은 데이터 스택의 "백엔드(데이터 인제스천, 저장, 처리, 트랜스폼으로 이어지는)"가 일부 클라우드 기반 벤더에서 통합되기 시작했다고 주장   
  - 결과적으로 고객 데이터 세트가 표준 시스템 세트에서 수집되며, 벤더들이 이 데이터가 다른 개발자들에게 쉽게 접근 될수 있도록 만들고 있음 (Databricks의 기본 디자인 원칙, SQL 표준과 Snowflake의 Snowpark 같은 API등을 통해)  
  - 프론트엔드 개발자들이 싱글 포인트 통합에서 이점을 얻었던 것 처럼, 하단 구조에 상관하지 않고 통합된 데이터를 접근할수 있게 됨   
  - 금융/제품분석 같은 전통적인 엔터프라이즈 시스템들도 "Warehouse-native" 아키텍처로 재개발 되는 것도 생기기 시작   
  - 이것은 OLTP DB나 다른 중요한 백엔드 기술이 곧 사라질것이라고 말하는 것은 아님   
  - 하지만 OLAP 시스템과의 네이티브 통합은 어플리케이션 개발의 핵심 컴포넌트가 될 수 있음   
  - 점점 더 많은 비즈니스 로직과 어플리케이션 기능들이 이 모델로 변화할 수 있음  
- 데이터 앱들의 출현?  
  - 이 데이터 플랫폼 가설은 아직 많이 논의될 부분이 있음   
  - 어쨌든, 우리는 데이터 플랫폼위에서 수평적인 레이어로 복잡한 버티칼 SaaS 솔루션들이 증가하는 것을 보고 있음   
  - Snowflake, Databricks 같은 회사들이 이런 데이터 스택의 안정적인 조각들이 될 것  
     - 훌륭한 제품, 역량있는 세일즈 팀, 마찰이 별로 없는 배포모델 등 때문에   
     - 고객이 이런 시스템위에서 데이터 어플리케이션을 만들거나 연동하면 다른 것으로 전환하는게 합리적이지 않기 때문   
  - 지난 몇년간 데이터 인프라 제품이 만들어 지고 지금도 계속 나타나는 것은 플랫폼과 관계가 있을 것   
  - 플랫폼 가설은 경쟁 역학을 예측가능하게 하는 힘이 있음  
    - 규모가 크다면 플랫폼은 매우 가치가 높음   
    - 핵심 데이터 시스템 벤더들은 현재 예산이 아닌 장기적인 플랫폼 지위를 차지하기 위해 공격적으로 경쟁하고 있을 수 있음  
  - 데이터 인제스쳔 & 트랜스포케이션 회사들이나, Metrics Layer 또는 Reverse ETL 분야의 높은 밸류에이션은 그들이 새 데이터 플랫폼의 핵심부분이라고 생각하면 좀 더 합리적일 수 있음  
- 앞을 내다보기   
  - 우리는 아직 분석 & 운영 적인 데이터 플랫폼을 정의하는 초기 단계에 있고, 그 플랫폼을 구성하는 조각들은 계속 변하는 중   
  - 따라서 이건 엄격한 정의보다는 비유로 사용하면 좀 더 유용함   
  - 그러나 이 가설은 Signal 에서 Noise를 필터링 하는 도구로서도 유용하고, 왜 시장이 이렇게 움직이는지를 이해하는데 도움이 됨  
  - 데이터 팀들은 이제 DB의 발명 이후, 그 어떤 시점보다 많은 도구, 자원, 조직적인 모멘텀을 가지게 되었음   
  - 이 새로운 플랫폼 위에서 앱 레이어가 진화할지를 지켜보는 것이 매우 흥분됨

## Comments



### Comment 14099

- Author: sungwoo
- Created: 2023-01-10T14:14:28+09:00
- Points: 1

이전에 올려주시던 유투브 강좌 동영상도 업데이트 해 주시나요..? ^^;  
https://www.youtube.com/watch?v=g_c742vW8dQ&list=PLL-_zEJctPoJ92HmbGxFv1Pv_ugsggGD2  
  
항상 감사합니다~

### Comment 14100

- Author: xguru
- Created: 2023-01-10T14:26:04+09:00
- Points: 1
- Parent comment: 14099
- Depth: 1

영상 제작도 하다가 중단하니까 더 못하게 되네요 ㅠ   
아마 근시일 내에 업뎃은 어려울듯 합니다.

### Comment 14109

- Author: sungwoo
- Created: 2023-01-10T16:36:59+09:00
- Points: 1
- Parent comment: 14100
- Depth: 2

아네. 이전에 올려주신 내용만으로도 많은 도움이 되었습니다.  
이자리를 빌어 감사 드려요.

### Comment 9837

- Author: xguru
- Created: 2022-04-25T10:35:07+09:00
- Points: 2

[최신 데이터 인프라를 위한 새로운 아키텍처](https://news.hada.io/topic?id=3055)  글의 업데이트 버전입니다.  
  
정리하고 나서 올리려다 보니 Techit 에서도 이 2.0 글을 전체 번역해주신게 있네요. 같이 참고해서 보시기 바랍니다.  
[모던 데이터 아키텍처와 새로운 아키텍처의 시대](https://techit.kr/view/?no=20220423105042)
