8P by xguru 12일전 | favorite | 댓글 4개
  • ELT(Extract, Load, Transform)는 조직 내 데이터 분석과 소프트웨어 개발의 "사일로(Silo)" 를 연결하기 위해 사용되지만, 이러한 사일로 구조 자체가 문제의 근원
  • ELT는 사일로간의 브릿지일 뿐. 사일로가 없는 세상은 "그래프(Graph)"임

ELT 사고방식의 한계

  • 한 사일로에는 소프트웨어가 있고 다른 사일로에는 데이터 분석이 있는 사일로의 세계에서 ELT는 매우 의미가 있음
  • ELT는 사일로 구조를 전제로 동작
    • 소프트웨어 개발팀과 데이터 분석팀이 분리된 상황에서 "추출(Extract)" 작업이 발생
    • 소프트웨어 팀은 데이터 팀의 작업에 관심이 없으며, 데이터 팀은 데이터베이스 권한을 사용해 무작정 데이터를 추출
    • 추출 이후에야 데이터 품질과 모델링과 같은 엔지니어링 원칙이 적용되지만, 이는 이미 너무 늦음
  • Conway의 법칙이 작동함
    • "조직이 만드는 시스템의 설계는 조직의 의사소통 구조를 닮는다"
  • 사일로 사고방식으로 인해 ETL/ELT/Reverse ETL은 현대 데이터 아키텍처의 복잡성을 다루기에 부적합
    • 데이터는 이제 운영 시스템, 분석 시스템에만 있는게 아니라, SaaS로 대표되는 세 번째 데이터 영역으로 확장됨
    • 데이터는 지역과 클라우드, 백엔드와 SaaS 간에 흐름
    • 지금은 예전보다 100배나 더 많은 애플리케이션이 존재하며, 조직은 소프트웨어화 되고 있고 소프트웨어 시스템 간의 관계망은 점점 더 복잡해짐

그래프 사고방식의 필요성

  • 소프트웨어 팀과 데이터 팀이 조화롭게 협력한다면 ELT처럼 데이터를 추출 및 저장하는 모델 대신 그래프 모델 로 전환 가능
    • 데이터를 "소비(Consume)" 하는 노드로 구성된 그래프를 상상
    • 각 노드는 데이터를 생산하거나 소비하며, 자연스럽게 네트워크 또는 그래프 형성
  • 그래프 사고방식의 이점:
    • 데이터 추출이 줄어들고, 소비가 늘어남
    • 고품질 데이터 세트를 중심으로 데이터 모델링 증가
    • 데이터 청소, 원시 데이터 저장, 파이프라인 오류 수정 감소
    • 배치 프로세스를 대체하는 점진적 처리 및 스트리밍 소스 활용
    • 분석이 전략적 의사결정 도구에 국한되지 않고 운영적 용도로 확장
    • 팀 간 협력 및 정렬 증가, 사일로 감소

결론

  • ELT 사고방식은 소프트웨어와 데이터 팀 간의 단절을 반영하는 Conway의 법칙의 결과
  • 기존 ETL/ELT 도구를 모두 폐기할 필요는 없지만, 데이터 소비와 신뢰할 수 있는 파생 데이터 세트 구축에 초점을 맞춰야 함
  • 현실적으로 Shift Left는 아직 열망하는(aspirational) 단계이며, 기존의 레거시 인프라와 통합 문제는 여전히 존재
    • Shift Left : 소프트웨어 개발 수명 주기(SDLC) 초기에 중요한 개발 관행을 통합하는 전략
  • 그래프 사고방식을 수용하는 조직은 데이터 활용, AI ROI, 비즈니스 성과에서 가장 큰 이점을 얻을 것

"추출(Extract)은 없다. 소비(Consume)만 있다." – 데이터 요다

혹시 좀 더 설명해주실 수 있는 분 계신가요? 필자가 말하는 방식은 그래프로 파생되는 데이터셋을 전부 따로 저장하고 관리한다는 건가요? 이게 아니라면 ETL과 무엇이 다른지 잘 이해가 되지 않습니다.

기존 운영 영역과 분석 영역이 분리되어 있는 구조는 사일로 되어 있는 구조적 문제가 있다고 말하며, 데이터 아키텍처를 만들 때 두개가 분리되어 고려되면 안되고 데이터 생성자와 소비자로 나누어 고려해야 한다고 말하고 있습니다.

이제는 운영 데이터와 분석 데이터 경계가 모호해 짐에 따라 그래프적 사고 방식(graph thinking, or the graph mindset)을 해야 한다고 합니다.

제가 느끼기에는 운영 데이터, 분석 데이터의 명시적인 분리보다는 운영 데이터의 연장선으로서 데이터 소비자와 생성자를 구별해서 데이터 접근을 데이터 흐름의 관점으로 보고 있다고 생각합니다(역할은 분리되어 있을지라도)

운영 데이터를 가지고 분석하고, 다시 운영으로 가고, 이게 다시 분석으로 가는 것처럼 데이터 아키텍처 관점에서 말하고 있는 것 같습니다.

꾸준히 그래프 기반 의사결정에 관련해서 아이데이션 하고 있는데 같은 생각을 하고 있는 사람들이 모일 수 있으면 좋을 거 같습니다

이럴때 쓰는 용어가 아이데이션 이군요. 하나 배웠습니다. 개인적으로 매우 관심있는 주제입니다. 모일수 있으면 참 좋겠습니다.