- 2023년 11월 2일부터 4일까지 Cloudflare의 제어 평면 및 분석 서비스가 중단됨.
- 제어 평면은 주로 Cloudflare 서비스의 고객 대면 인터페이스를 포함하며, 분석 서비스는 로깅 및 분석 보고를 포함함.
- 이번 사건은 Flexential 데이터 센터에서의 전원 고장으로 인해 발생했으며, 이 데이터 센터는 Cloudflare의 가장 큰 분석 클러스터와 고가용성 클러스터의 중요한 부분을 보유하고 있음.
- 고가용성 시스템이 이러한 중단을 방지하기 위해 설치되어 있음에도 불구하고, 일부 중요 시스템은 사건 동안 사용할 수 없게 만드는 비공개 의존성을 가지고 있었음.
- Cloudflare의 제어 평면 및 분석 시스템은 주로 오레곤 주 Hillsboro 주변의 세 개의 데이터 센터에서 운영되며, 이들은 독립적으로 작동하고 하나가 오프라인 상태가 되더라도 계속 작동하도록 설계되었음.
- 이번 중단은 일부 서비스, 특히 새로운 서비스가 아직 고가용성 클러스터에 추가되지 않았으며, 로깅 시스템이 이 클러스터의 일부가 아니라는 사실을 드러냄.
- Flexential 데이터 센터에서의 전원 고장은 건물로 들어오는 독립적인 전원 공급에 영향을 미치는 계획되지 않은 유지 보수 이벤트로 인해 발생했으며, 이로 인해 변압기에 접지 고장이 발생했음.
- Cloudflare는 대부분의 제어 평면을 재해 복구 시설에서 복구할 수 있었으며, 이 시설이 온라인 상태가 된 후에는 대부분의 고객이 대부분의 제품에 문제를 겪지 않았을 것임.
- 그러나 다른 서비스는 복구하는 데 더 오래 걸렸으며, 이들을 사용한 고객들은 사건이 완전히 해결될 때까지 문제를 겪었을 수 있음.
- Cloudflare는 사건에서 얻은 교훈을 바탕으로 변경 사항을 구현하고 있으며, 이에는 핵심 데이터 센터에 대한 의존성 제거, 모든 핵심 데이터 센터가 오프라인 상태가 되더라도 제어 평면 기능이 계속되도록 보장, 모든 제품과 기능이 고가용성 클러스터에 의존하고 신뢰할 수 있는 재해 복구 계획을 갖도록 요구하는 것이 포함됨.
- 회사는 또한 모든 데이터 센터 기능의 더 엄격한 혼돈 테스트를 실시하고, 모든 핵심 데이터 센터를 감사하며, 로깅 및 분석 재해 복구 계획을 개발하고 있음.