# Airflow를 대규모로 운영하며 배운 교훈

> Clean Markdown view of GeekNews topic #6608. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=6608](https://news.hada.io/topic?id=6608)
- GeekNews Markdown: [https://news.hada.io/topic/6608.md](https://news.hada.io/topic/6608.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2022-05-25T09:07:59+09:00
- Updated: 2022-05-25T09:07:59+09:00
- Original source: [shopify.engineering](https://shopify.engineering/lessons-learned-apache-airflow-scale)
- Points: 8
- Comments: 0

## Topic Body

Shopify는 데이터 추출, 머신러닝모델 훈련, 아파치 Iceberg 테이블 메인터넌스, DBT기반 데이터 모델링 등에 활용중   
1. 클라우드 저장소를 사용할 때 파일 접근이 느릴 수 있음  
→ GCS + NFS 로 성능 개선  
2. 메타데이터 볼륨이 커지면 Aiflow 오퍼레이션이 느려질 수 있음  
→ 리텐션 정책 활용해서 28일로 지정  
3. DAG들은 사용자 & 팀과 연결하기 어려울 수 있음  
→ 중앙 집중식 메타데이터 저장소 사용   
4. DAG 작성자들이 많은 권한을 가짐   
→ DAG policy 활용   
5. 일관적인 부하 분산을 보장하는 것은 어려움   
→ 표준화된 일정을 생성해서 트래픽 버스트를 줄이기   
6. 여러 리소스 경합 지점들이 있음  
→ Pools, Priority Weight, Celerey Queue 와 Isolated Workers 활용

## Comments



_No public comments on this page._
