8P by xguru 2022-05-25 | favorite | 댓글과 토론

Shopify는 데이터 추출, 머신러닝모델 훈련, 아파치 Iceberg 테이블 메인터넌스, DBT기반 데이터 모델링 등에 활용중

  1. 클라우드 저장소를 사용할 때 파일 접근이 느릴 수 있음
    → GCS + NFS 로 성능 개선
  2. 메타데이터 볼륨이 커지면 Aiflow 오퍼레이션이 느려질 수 있음
    → 리텐션 정책 활용해서 28일로 지정
  3. DAG들은 사용자 & 팀과 연결하기 어려울 수 있음
    → 중앙 집중식 메타데이터 저장소 사용
  4. DAG 작성자들이 많은 권한을 가짐
    → DAG policy 활용
  5. 일관적인 부하 분산을 보장하는 것은 어려움
    → 표준화된 일정을 생성해서 트래픽 버스트를 줄이기
  6. 여러 리소스 경합 지점들이 있음
    → Pools, Priority Weight, Celerey Queue 와 Isolated Workers 활용