# AI 시대에 Modern Data Stack이 중요한 이유

> Clean Markdown view of GeekNews topic #20192. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=20192](https://news.hada.io/topic?id=20192)
- GeekNews Markdown: [https://news.hada.io/topic/20192.md](https://news.hada.io/topic/20192.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2025-04-07T11:41:01+09:00
- Updated: 2025-04-07T11:41:01+09:00
- Original source: [roundup.getdbt.com](https://roundup.getdbt.com/p/why-the-modern-data-stack-matters)
- Points: 12
- Comments: 0

## Summary

2021년부터 2023년 초까지 **Modern Data Stack**은 기술 산업에서 주목받았으나, AI의 부상으로 관심이 이동했습니다. 그러나 AI가 업무에 통합되면서 **데이터 엔지니어링의 교훈**과 **분석 워크플로우에서 생산된 데이터**의 중요성이 부각되고 있습니다. **LLM**이 다양한 정보 출처에 접근할 수 있도록 하는 프로토콜과 표준이 등장했으나, 정보의 정확성과 접근 권한 설정은 여전히 과제로 남아 있습니다. **Modern Data Stack**은 AI 시대에 일관되고 신뢰할 수 있는 데이터 워크플로우를 위한 기반으로, 데이터 실무자는 **신뢰 가능한 데이터 환경 구축**과 **거버넌스 및 접근 제어**를 설계해야 할 책임이 있습니다.

## Topic Body

- 2021년부터 2023년 초까지 데이터 기술 분야, 특히 **Modern Data Stack**은 기술 산업 내에서 가장 활발하고 주목받는 영역이었음  
- 2023년 말 ChatGPT가 등장하면서 관심이 AI로 이동했고, 데이터 인프라에 대한 논의는 다소 묻힘  
- 하지만 AI가 실제 업무 흐름 속에 통합되기 시작하면서 다음 두 가지가 분명해짐:  
  - 복잡한 AI 워크플로우는 **데이터 엔지니어링의 교훈**을 적극 활용해야 함  
  - LLM이 제대로 작동하려면 **분석 워크플로우에서 생산된 데이터**에 접근할 수 있어야 함  
  
### AI와 데이터 인프라의 실제 연결 고리  
- LLM이 아무리 똑똑하더라도, **정확한 정보에 접근할 수 없다면** 정확한 답변을 할 수 없음  
- 정보가 Reddit 글, 내부 문서, 데이터 웨어하우스 등에 흩어져 있으면 LLM이 접근하지 못함  
- 좋은 소식은 이제 **LLM이 다양한 정보 출처에 접근할 수 있도록 하는 프로토콜과 표준**이 등장하고 있다는 것  
- 하지만 어떤 정보를 제공해야 하는지, 그 정보가 정확한지, 접근 권한은 어떻게 설정할지 등은 여전히 풀어야 할 과제임  
  
### 정보 출처별 LLM 통합의 장점과 과제  
- # LLMs + 인터넷 검색  
  - **장점**: 공공 웹 데이터를 통합하여 최신 실세계 정보를 쉽게 활용할 수 있음 (예: 맛집 검색)  
  - **문제점**:  
    - SEO 최적화된 콘텐츠가 LLM에서도 잘 작동해 **신뢰성 낮은 정보가 상위에 노출**됨  
    - 예: "2025년 최고의 베개"를 검색하면 신뢰할 수 있는 정답을 찾기 어려움 → LLM도 마찬가지  
- # LLMs + 내부 문서 (Notion, Slack 등)  
  - **장점**:  
    - 복잡한 조직에서 팀 간 협업 정보, 정책, 계획 등을 한눈에 파악할 수 있음  
    - NotionAI와 같은 도구는 LLM의 잠재력을 잘 보여주는 예시임  
  - **문제점**:  
    - 문서가 최신인지 여부를 알기 어려움  
    - 동일한 질문에 상충되는 결과가 나타날 수 있음  
    - 따라서 문서 자체뿐 아니라 **문서 신뢰도에 대한 메타데이터**도 필요함  
- # LLMs + 정형 데이터 및 메트릭  
  - **장점**:  
    - 대화형 인터페이스를 통해 SQL 없이도 복잡한 데이터 분석 가능  
    - 익숙한 데이터를 다룰 때는 **마치 슈퍼파워를 얻은 듯한 느낌**을 줌  
  - **문제점**:  
    - 조직 전반에서 일관된 정의를 사용하고 있는가?  
    - 경영진이 결과를 신뢰하고 실제 의사결정에 사용할 수 있는가?  
    - 접근 제어와 데이터 거버넌스는 제대로 설정되어 있는가?  
    - Text-to-SQL은 점점 발전하고 있지만, **현실적인 실행 가능성과 신뢰성 확보**가 과제임  
  
### LLM을 위한 세 가지 데이터 통합 예시  
- 예를 들어, 한 레스토랑 체인 CEO가 새로운 지역으로의 확장을 검토한다고 할 때, 다음 정보를 모두 활용 가능함:  
  - **내부 문서**: 조직의 전략과 계획 이해  
  - **정형 데이터**: 재무 상태 및 고객 데이터 분석  
  - **인터넷 검색**: 해당 지역의 시장 정보 및 벤치마크 조사  
- 이론상 매우 유용한 접근 방식이나, 현실에서는 여러 시스템을 임시로 연결해야 하며, **작은 오류 하나가 전체 판단에 영향을 줄 수 있음**  
  
### Modern Data Stack의 진짜 가치  
- AI 등장 직전에 데이터 중앙화, 표준화, 거버넌스를 위한 Modern Data Stack이 유행한 것은 단순한 우연이 아님  
- **이 인프라가 바로 LLM 시대를 위한 기반**이었음  
- Modern Data Stack은 단순한 대시보드 구축을 넘어서, **일관되고 신뢰할 수 있는 데이터 워크플로우와 인터페이스를 위한 플랫폼**임  
- 이제 AI가 이 생태계와 상호작용하기 시작하면서, 데이터 인프라의 중요성이 다시 부각되고 있음  
  
### 앞으로 데이터 실무자의 역할  
- 데이터 실무자는 이제 단순한 데이터 분석을 넘어서:  
  - LLM이 사용할 수 있는 **신뢰 가능한 데이터 환경 구축**  
  - **거버넌스와 접근 제어가 적용된 시스템 설계**  
  - AI 시스템 배포 시 **안정성과 신뢰성 보장**  
- 이 분야는 **거대한 기회**이자 **중대한 책임**을 동반함  
- 현재 많은 조직에서 LLM 시스템을 실제 업무에 적용 중이며, **실질적인 영향력을 미칠 수 있는 시점**  
  
### 마무리  
- Modern Data Stack은 AI 시대에도 유효한 인프라이며, 이제 본격적으로 AI 시스템과 연결되기 시작함  
- 구조화된 데이터, 비정형 문서, 실세계 정보가 통합된 AI 워크플로우는 이미 실현 가능하며, 고도화될 전망  
- 올바른 방향으로 이 시스템들을 설계하고 연결하는 것이 **데이터 커뮤니티의 사명**

## Comments


_No public comments on this page._