GN⁺: Cloudflare 장애 - 이제 24시간째
(news.ycombinator.com)- 웹 인프라 및 웹사이트 보안 회사인 Cloudflare, 24시간 이상 지속된 서비스 중단 경험
- API에 한정되지 않은 서비스 중단, 로드 밸런싱, Argo Smart Routing, Warp / Zero Trust 등의 서비스에도 영향
- 데이터 센터의 전력 손실 및 서비스 장애로 인한 문제 가능성
- Cloudflare의 아키텍처에서 잠재적인 단일 실패 지점 강조, 많은 서비스가 단일 데이터 센터의 신선한 데이터에 의존
- 정기적인 테스트와 유지 보수에도 불구하고, 백업 시스템(발전기, AC 유닛, UPS, 자동 전환 스위치)이 안정적인 전압을 제공하지 못해 서비스 중단 발생
- 강력하고 신뢰할 수 있는 장애 대체 시스템의 중요성 및 백업 시스템의 정기적이고 철저한 테스트의 필요성 강조
- 서비스 중단은 Cloudflare의 서비스뿐만 아니라 고객의 서비스에도 영향을 미쳐, 중요한 웹 인프라에 대한 단일 회사 의존의 위험성을 강조