Airflow를 대규모로 운영하며 배운 교훈
(shopify.engineering)Shopify는 데이터 추출, 머신러닝모델 훈련, 아파치 Iceberg 테이블 메인터넌스, DBT기반 데이터 모델링 등에 활용중
- 클라우드 저장소를 사용할 때 파일 접근이 느릴 수 있음
→ GCS + NFS 로 성능 개선 - 메타데이터 볼륨이 커지면 Aiflow 오퍼레이션이 느려질 수 있음
→ 리텐션 정책 활용해서 28일로 지정 - DAG들은 사용자 & 팀과 연결하기 어려울 수 있음
→ 중앙 집중식 메타데이터 저장소 사용 - DAG 작성자들이 많은 권한을 가짐
→ DAG policy 활용 - 일관적인 부하 분산을 보장하는 것은 어려움
→ 표준화된 일정을 생성해서 트래픽 버스트를 줄이기 - 여러 리소스 경합 지점들이 있음
→ Pools, Priority Weight, Celerey Queue 와 Isolated Workers 활용