- 2021년부터 2023년 초까지 데이터 기술 분야, 특히 Modern Data Stack은 기술 산업 내에서 가장 활발하고 주목받는 영역이었음
- 2023년 말 ChatGPT가 등장하면서 관심이 AI로 이동했고, 데이터 인프라에 대한 논의는 다소 묻힘
- 하지만 AI가 실제 업무 흐름 속에 통합되기 시작하면서 다음 두 가지가 분명해짐:
- 복잡한 AI 워크플로우는 데이터 엔지니어링의 교훈을 적극 활용해야 함
- LLM이 제대로 작동하려면 분석 워크플로우에서 생산된 데이터에 접근할 수 있어야 함
AI와 데이터 인프라의 실제 연결 고리
- LLM이 아무리 똑똑하더라도, 정확한 정보에 접근할 수 없다면 정확한 답변을 할 수 없음
- 정보가 Reddit 글, 내부 문서, 데이터 웨어하우스 등에 흩어져 있으면 LLM이 접근하지 못함
- 좋은 소식은 이제 LLM이 다양한 정보 출처에 접근할 수 있도록 하는 프로토콜과 표준이 등장하고 있다는 것
- 하지만 어떤 정보를 제공해야 하는지, 그 정보가 정확한지, 접근 권한은 어떻게 설정할지 등은 여전히 풀어야 할 과제임
정보 출처별 LLM 통합의 장점과 과제
-
LLMs + 인터넷 검색
-
장점: 공공 웹 데이터를 통합하여 최신 실세계 정보를 쉽게 활용할 수 있음 (예: 맛집 검색)
-
문제점:
- SEO 최적화된 콘텐츠가 LLM에서도 잘 작동해 신뢰성 낮은 정보가 상위에 노출됨
- 예: "2025년 최고의 베개"를 검색하면 신뢰할 수 있는 정답을 찾기 어려움 → LLM도 마찬가지
-
LLMs + 내부 문서 (Notion, Slack 등)
-
장점:
- 복잡한 조직에서 팀 간 협업 정보, 정책, 계획 등을 한눈에 파악할 수 있음
- NotionAI와 같은 도구는 LLM의 잠재력을 잘 보여주는 예시임
-
문제점:
- 문서가 최신인지 여부를 알기 어려움
- 동일한 질문에 상충되는 결과가 나타날 수 있음
- 따라서 문서 자체뿐 아니라 문서 신뢰도에 대한 메타데이터도 필요함
-
LLMs + 정형 데이터 및 메트릭
-
장점:
- 대화형 인터페이스를 통해 SQL 없이도 복잡한 데이터 분석 가능
- 익숙한 데이터를 다룰 때는 마치 슈퍼파워를 얻은 듯한 느낌을 줌
-
문제점:
- 조직 전반에서 일관된 정의를 사용하고 있는가?
- 경영진이 결과를 신뢰하고 실제 의사결정에 사용할 수 있는가?
- 접근 제어와 데이터 거버넌스는 제대로 설정되어 있는가?
- Text-to-SQL은 점점 발전하고 있지만, 현실적인 실행 가능성과 신뢰성 확보가 과제임
LLM을 위한 세 가지 데이터 통합 예시
- 예를 들어, 한 레스토랑 체인 CEO가 새로운 지역으로의 확장을 검토한다고 할 때, 다음 정보를 모두 활용 가능함:
-
내부 문서: 조직의 전략과 계획 이해
-
정형 데이터: 재무 상태 및 고객 데이터 분석
-
인터넷 검색: 해당 지역의 시장 정보 및 벤치마크 조사
- 이론상 매우 유용한 접근 방식이나, 현실에서는 여러 시스템을 임시로 연결해야 하며, 작은 오류 하나가 전체 판단에 영향을 줄 수 있음
Modern Data Stack의 진짜 가치
- AI 등장 직전에 데이터 중앙화, 표준화, 거버넌스를 위한 Modern Data Stack이 유행한 것은 단순한 우연이 아님
-
이 인프라가 바로 LLM 시대를 위한 기반이었음
- Modern Data Stack은 단순한 대시보드 구축을 넘어서, 일관되고 신뢰할 수 있는 데이터 워크플로우와 인터페이스를 위한 플랫폼임
- 이제 AI가 이 생태계와 상호작용하기 시작하면서, 데이터 인프라의 중요성이 다시 부각되고 있음
앞으로 데이터 실무자의 역할
- 데이터 실무자는 이제 단순한 데이터 분석을 넘어서:
- LLM이 사용할 수 있는 신뢰 가능한 데이터 환경 구축
-
거버넌스와 접근 제어가 적용된 시스템 설계
- AI 시스템 배포 시 안정성과 신뢰성 보장
- 이 분야는 거대한 기회이자 중대한 책임을 동반함
- 현재 많은 조직에서 LLM 시스템을 실제 업무에 적용 중이며, 실질적인 영향력을 미칠 수 있는 시점
마무리
- Modern Data Stack은 AI 시대에도 유효한 인프라이며, 이제 본격적으로 AI 시스템과 연결되기 시작함
- 구조화된 데이터, 비정형 문서, 실세계 정보가 통합된 AI 워크플로우는 이미 실현 가능하며, 고도화될 전망
- 올바른 방향으로 이 시스템들을 설계하고 연결하는 것이 데이터 커뮤니티의 사명