2P by neo 2023-11-05 | favorite | 댓글 1개
  • 2023년 11월 2일부터 4일까지 Cloudflare의 제어 평면 및 분석 서비스가 중단됨.
  • 제어 평면은 주로 Cloudflare 서비스의 고객 대면 인터페이스를 포함하며, 분석 서비스는 로깅 및 분석 보고를 포함함.
  • 이번 사건은 Flexential 데이터 센터에서의 전원 고장으로 인해 발생했으며, 이 데이터 센터는 Cloudflare의 가장 큰 분석 클러스터와 고가용성 클러스터의 중요한 부분을 보유하고 있음.
  • 고가용성 시스템이 이러한 중단을 방지하기 위해 설치되어 있음에도 불구하고, 일부 중요 시스템은 사건 동안 사용할 수 없게 만드는 비공개 의존성을 가지고 있었음.
  • Cloudflare의 제어 평면 및 분석 시스템은 주로 오레곤 주 Hillsboro 주변의 세 개의 데이터 센터에서 운영되며, 이들은 독립적으로 작동하고 하나가 오프라인 상태가 되더라도 계속 작동하도록 설계되었음.
  • 이번 중단은 일부 서비스, 특히 새로운 서비스가 아직 고가용성 클러스터에 추가되지 않았으며, 로깅 시스템이 이 클러스터의 일부가 아니라는 사실을 드러냄.
  • Flexential 데이터 센터에서의 전원 고장은 건물로 들어오는 독립적인 전원 공급에 영향을 미치는 계획되지 않은 유지 보수 이벤트로 인해 발생했으며, 이로 인해 변압기에 접지 고장이 발생했음.
  • Cloudflare는 대부분의 제어 평면을 재해 복구 시설에서 복구할 수 있었으며, 이 시설이 온라인 상태가 된 후에는 대부분의 고객이 대부분의 제품에 문제를 겪지 않았을 것임.
  • 그러나 다른 서비스는 복구하는 데 더 오래 걸렸으며, 이들을 사용한 고객들은 사건이 완전히 해결될 때까지 문제를 겪었을 수 있음.
  • Cloudflare는 사건에서 얻은 교훈을 바탕으로 변경 사항을 구현하고 있으며, 이에는 핵심 데이터 센터에 대한 의존성 제거, 모든 핵심 데이터 센터가 오프라인 상태가 되더라도 제어 평면 기능이 계속되도록 보장, 모든 제품과 기능이 고가용성 클러스터에 의존하고 신뢰할 수 있는 재해 복구 계획을 갖도록 요구하는 것이 포함됨.
  • 회사는 또한 모든 데이터 센터 기능의 더 엄격한 혼돈 테스트를 실시하고, 모든 핵심 데이터 센터를 감사하며, 로깅 및 분석 재해 복구 계획을 개발하고 있음.
Hacker News 의견
  • Cloudflare의 중대한 중단에 대한 기사, 회사는 이 문제를 Flexential 벤더가 운영하는 데이터 센터의 전원 고장으로 돌리고 있다.
  • 일부 댓글 작성자들은 Cloudflare가 Flexential에게 책임을 전가하고 벤더에 대한 기밀 정보를 공개하는 것을 비판한다.
  • 중단의 근본 원인은 Cloudflare가 단일 데이터 센터에 의존하고 있었다는 점으로, 일부 댓글 작성자들은 이것이 Cloudflare의 명성에 부끄러운 일이라고 생각한다.
  • 복구 과정은 중단 자체보다 더 오래 걸렸으며, 일부 서비스는 완전히 복구하는 데 약 30시간이 걸렸다. 이는 많은 서비스들이 서로에게 의존하고 있었기 때문이다.
  • 일부 댓글 작성자들은 중단 동안 Cloudflare의 커뮤니케이션에 불만을 표현하며, 특히 기업 고객들에게 더욱 그렇다.
  • 문제에도 불구하고 일부 댓글 작성자들은 Cloudflare의 투명성과 사후 보고서의 철저함을 칭찬한다.
  • 일부 댓글 작성자들은 Cloudflare의 중복 실패와 제어 평면의 지리적 분산 부족에 대해 우려를 표현한다.
  • 댓글 작성자들은 또한 Cloudflare가 모든 서비스를 고가용성 클러스터에 두지 않았으며, 전원 중단의 모든 가능한 시나리오를 테스트하지 않았다고 비판한다.
  • 일부 댓글 작성자들은 보고서에서 인간 요소를 칭찬하며, Cloudflare가 복구 과정 중 추가적인 실수를 피하기 위해 휴식이 필요하다는 것을 인정한다.
  • 댓글 작성자들은 데이터 센터가 완전히 오프라인 상태에서 복구할 수 있는 능력의 중요성을 강조하며, Cloudflare가 이 시나리오를 테스트하지 않았다고 비판한다.
  • 일부 댓글 작성자들은 기사의 구조에 놀라움을 표현하며, 대부분의 게시물이 제3자 벤더를 논의하고 Cloudflare의 자체 복구 노력에는 덜 초점을 맞추고 있다.