12P by xguru 12일전 | ★ favorite | 댓글과 토론
  • 2021년부터 2023년 초까지 데이터 기술 분야, 특히 Modern Data Stack은 기술 산업 내에서 가장 활발하고 주목받는 영역이었음
  • 2023년 말 ChatGPT가 등장하면서 관심이 AI로 이동했고, 데이터 인프라에 대한 논의는 다소 묻힘
  • 하지만 AI가 실제 업무 흐름 속에 통합되기 시작하면서 다음 두 가지가 분명해짐:
    • 복잡한 AI 워크플로우는 데이터 엔지니어링의 교훈을 적극 활용해야 함
    • LLM이 제대로 작동하려면 분석 워크플로우에서 생산된 데이터에 접근할 수 있어야 함

AI와 데이터 인프라의 실제 연결 고리

  • LLM이 아무리 똑똑하더라도, 정확한 정보에 접근할 수 없다면 정확한 답변을 할 수 없음
  • 정보가 Reddit 글, 내부 문서, 데이터 웨어하우스 등에 흩어져 있으면 LLM이 접근하지 못함
  • 좋은 소식은 이제 LLM이 다양한 정보 출처에 접근할 수 있도록 하는 프로토콜과 표준이 등장하고 있다는 것
  • 하지만 어떤 정보를 제공해야 하는지, 그 정보가 정확한지, 접근 권한은 어떻게 설정할지 등은 여전히 풀어야 할 과제임

정보 출처별 LLM 통합의 장점과 과제

  • LLMs + 인터넷 검색

    • 장점: 공공 웹 데이터를 통합하여 최신 실세계 정보를 쉽게 활용할 수 있음 (예: 맛집 검색)
    • 문제점:
      • SEO 최적화된 콘텐츠가 LLM에서도 잘 작동해 신뢰성 낮은 정보가 상위에 노출
      • 예: "2025년 최고의 베개"를 검색하면 신뢰할 수 있는 정답을 찾기 어려움 → LLM도 마찬가지
  • LLMs + 내부 문서 (Notion, Slack 등)

    • 장점:
      • 복잡한 조직에서 팀 간 협업 정보, 정책, 계획 등을 한눈에 파악할 수 있음
      • NotionAI와 같은 도구는 LLM의 잠재력을 잘 보여주는 예시임
    • 문제점:
      • 문서가 최신인지 여부를 알기 어려움
      • 동일한 질문에 상충되는 결과가 나타날 수 있음
      • 따라서 문서 자체뿐 아니라 문서 신뢰도에 대한 메타데이터도 필요함
  • LLMs + 정형 데이터 및 메트릭

    • 장점:
      • 대화형 인터페이스를 통해 SQL 없이도 복잡한 데이터 분석 가능
      • 익숙한 데이터를 다룰 때는 마치 슈퍼파워를 얻은 듯한 느낌을 줌
    • 문제점:
      • 조직 전반에서 일관된 정의를 사용하고 있는가?
      • 경영진이 결과를 신뢰하고 실제 의사결정에 사용할 수 있는가?
      • 접근 제어와 데이터 거버넌스는 제대로 설정되어 있는가?
      • Text-to-SQL은 점점 발전하고 있지만, 현실적인 실행 가능성과 신뢰성 확보가 과제임

LLM을 위한 세 가지 데이터 통합 예시

  • 예를 들어, 한 레스토랑 체인 CEO가 새로운 지역으로의 확장을 검토한다고 할 때, 다음 정보를 모두 활용 가능함:
    • 내부 문서: 조직의 전략과 계획 이해
    • 정형 데이터: 재무 상태 및 고객 데이터 분석
    • 인터넷 검색: 해당 지역의 시장 정보 및 벤치마크 조사
  • 이론상 매우 유용한 접근 방식이나, 현실에서는 여러 시스템을 임시로 연결해야 하며, 작은 오류 하나가 전체 판단에 영향을 줄 수 있음

Modern Data Stack의 진짜 가치

  • AI 등장 직전에 데이터 중앙화, 표준화, 거버넌스를 위한 Modern Data Stack이 유행한 것은 단순한 우연이 아님
  • 이 인프라가 바로 LLM 시대를 위한 기반이었음
  • Modern Data Stack은 단순한 대시보드 구축을 넘어서, 일관되고 신뢰할 수 있는 데이터 워크플로우와 인터페이스를 위한 플랫폼
  • 이제 AI가 이 생태계와 상호작용하기 시작하면서, 데이터 인프라의 중요성이 다시 부각되고 있음

앞으로 데이터 실무자의 역할

  • 데이터 실무자는 이제 단순한 데이터 분석을 넘어서:
    • LLM이 사용할 수 있는 신뢰 가능한 데이터 환경 구축
    • 거버넌스와 접근 제어가 적용된 시스템 설계
    • AI 시스템 배포 시 안정성과 신뢰성 보장
  • 이 분야는 거대한 기회이자 중대한 책임을 동반함
  • 현재 많은 조직에서 LLM 시스템을 실제 업무에 적용 중이며, 실질적인 영향력을 미칠 수 있는 시점

마무리

  • Modern Data Stack은 AI 시대에도 유효한 인프라이며, 이제 본격적으로 AI 시스템과 연결되기 시작함
  • 구조화된 데이터, 비정형 문서, 실세계 정보가 통합된 AI 워크플로우는 이미 실현 가능하며, 고도화될 전망
  • 올바른 방향으로 이 시스템들을 설계하고 연결하는 것이 데이터 커뮤니티의 사명