1P by neo 2달전 | favorite | 댓글 1개

최근 발생한 고객 영향 사건에 대한 세부 사항 공유

Google Cloud 고객 지원

  • 이달 초, 호주에 있는 고객 UniSuper에게 영향을 미친 Google Cloud 사건이 발생했음.
  • 사건 발생 직후, 고객과 함께 시스템을 완전히 복구하는 것이 최우선이었음.
  • 사건이 시작된 직후, 고객과 공동 성명을 통해 사건을 공개적으로 인정했음.
  • 고객의 시스템이 완전히 복구된 후, 내부 검토를 완료했음.
  • 사건의 성격을 명확히 하고 투명성을 위해 정확한 설명을 제공하기 위해 정보를 공개함.
  • Google Cloud는 이 특정하고 고립된 사건이 다시 발생하지 않도록 조치를 취했음.
  • 이 사건의 영향은 매우 실망스러웠으며, 고객에게 불편을 끼친 점에 대해 깊이 사과함.

영향 범위

영향을 받은 기술 및 서비스

  • 이 사건은 다음과 같은 Google 관리 서비스에 영향을 미쳤음:
    • 한 클라우드 지역의 한 고객.
    • 그 고객이 사용하는 Google Cloud 서비스 중 하나인 Google Cloud VMware Engine (GCVE).
    • 두 개의 존에 걸친 고객의 여러 GCVE 프라이빗 클라우드 중 하나.

영향을 받지 않은 항목

  • 이 사건은 다음 항목에는 영향을 미치지 않았음:
    • 다른 Google Cloud 서비스.
    • GCVE 또는 다른 Google Cloud 서비스를 사용하는 다른 고객.
    • 고객의 다른 GCVE 프라이빗 클라우드, Google 계정, 조직, 폴더 또는 프로젝트.
    • 동일한 지역에 저장된 고객의 데이터 백업(Google Cloud Storage).

사건의 원인

요약

  • 고객을 위해 Google Cloud VMware Engine (GCVE) 프라이빗 클라우드를 초기 배포하는 동안, Google 운영자가 내부 도구를 사용하여 GCVE 서비스를 잘못 구성했음. 이는 매개변수를 비워둔 결과로 발생했음.
  • 이로 인해 고객의 GCVE 프라이빗 클라우드가 고정 기간으로 설정되었고, 그 기간이 끝나면 자동으로 삭제되도록 설정되었음.
  • 사건의 원인과 시스템 동작은 모두 수정되어 다시는 발생하지 않도록 조치했음.
  • 이 사건은 이 고객의 하나의 GCVE 프라이빗 클라우드 외에는 다른 Google Cloud 서비스에 영향을 미치지 않았음.
  • 다른 고객들은 이 사건의 영향을 받지 않았음.

상세 분석

예외 프로세스를 사용한 배포
  • 2023년 초, Google 운영자는 특정 용량 배치 요구를 충족하기 위해 고객의 GCVE 프라이빗 클라우드 중 하나를 배포하기 위해 내부 도구를 사용했음.
  • 이 용량 관리 내부 도구는 2023년 4분기에 폐기되었고, 이제는 완전히 자동화되어 인간의 개입이 필요하지 않음.
빈 입력 매개변수로 인한 의도치 않은 동작
  • Google 운영자는 내부 통제 프로토콜을 따랐음.
  • 그러나 고객의 프라이빗 클라우드를 프로비저닝할 때 내부 도구를 사용할 때 하나의 입력 매개변수가 비어 있었음.
  • 이로 인해 시스템은 이 매개변수에 대해 당시 알려지지 않은 기본 고정 1년 기간 값을 할당했음.
  • 시스템이 할당한 1년 기간이 끝난 후, 고객의 GCVE 프라이빗 클라우드가 삭제되었음.
  • 삭제는 Google 운영자가 내부 도구를 사용할 때 매개변수를 비워둔 결과로 발생했기 때문에 고객에게 알림이 전송되지 않았음.
  • 고객이 시작한 삭제는 고객에게 알림이 전송된 후에만 발생했을 것임.

복구

  • 고객과 Google 팀은 며칠 동안 24시간 내내 협력하여 고객의 GCVE 프라이빗 클라우드를 복구하고, 네트워크 및 보안 구성을 복원하고, 애플리케이션을 복원하고, 데이터를 복구하여 완전한 운영을 복구했음.
  • 이는 고객의 강력하고 회복력 있는 아키텍처 접근 방식 덕분에 가능했음.
  • 동일한 지역에 저장된 Google Cloud Storage에 저장된 데이터 백업은 삭제에 영향을 받지 않았으며, 제3자 백업 소프트웨어와 함께 신속한 복구에 중요한 역할을 했음.

수정 조치

  • Google Cloud는 이 사건이 다시 발생하지 않도록 여러 조치를 취했음:
    1. 이 사건을 유발한 내부 도구를 폐기했음. 이 부분은 이제 완전히 자동화되어 고객이 사용자 인터페이스를 통해 제어할 수 있음.
    2. 시스템 데이터베이스를 정리하고 모든 GCVE 프라이빗 클라우드를 수동으로 검토하여 다른 GCVE 배포가 위험에 처하지 않도록 했음.
    3. 이러한 배포 워크플로우에 대해 GCVE 프라이빗 클라우드를 삭제하도록 설정하는 시스템 동작을 수정했음.

결론

  • Google Cloud 내에서 이와 같은 성격의 사건은 이번이 처음임. 이는 체계적인 문제가 아님.
  • Google Cloud 서비스는 소프트 삭제, 사전 알림, 인간 개입 등의 강력한 보호 장치를 갖추고 있음.
  • 이러한 보호 장치가 계속 유지되고 있음을 확인했음.
  • 고객과 긴밀히 협력하는 것이 신속한 복구에 필수적임. 고객의 CIO와 기술 팀은 Google Cloud 팀과 긴밀히 협력하여 24시간 복구를 신속하고 정확하게 수행한 점에 대해 칭찬받아야 함.
  • 예기치 않은 사건 발생 시 신속한 복구를 위해서는 강력하고 회복력 있는 위험 관리가 필수적임.
  • Google Cloud는 여전히 세계에서 가장 회복력 있고 안정적인 클라우드 인프라를 보유하고 있음. 이번 일회성 사건에도 불구하고, 우리의 가동 시간과 회복력은 독립적으로 검증된 바 있음.

GN⁺의 의견

  • 사건의 중요성: 이 사건은 클라우드 서비스 제공자가 얼마나 신속하게 문제를 해결하고 고객과 협력하는지가 중요함을 보여줌.
  • 자동화의 필요성: 내부 도구의 자동화가 얼마나 중요한지, 특히 인간의 실수가 시스템에 큰 영향을 미칠 수 있는 경우를 강조함.
  • 고객과의 협력: 고객과의 긴밀한 협력이 문제 해결에 얼마나 중요한지 보여줌. 이는 신뢰를 쌓는 데도 중요한 요소임.
  • 데이터 백업의 중요성: 데이터 백업이 얼마나 중요한지, 특히 예기치 않은 사건 발생 시 신속한 복구를 위해 필수적임을 강조함.
  • 향후 예방 조치: Google Cloud가 사건 재발 방지를 위해 취한 조치들이 다른 클라우드 서비스 제공자들에게도 좋은 본보기가 될 수 있음.
Hacker News 의견

해커뉴스 댓글 모음 요약

  • 문제 해결의 깊이에 대한 불만

    • 사건의 영향력에 비해 해결책이 깊지 않음. 동일한 문제가 다시 발생하지 않도록 했지만, 유사한 문제가 발생할 가능성은 여전히 존재함. 서비스 종료/삭제를 체계적으로 방지하기 위한 추가 조치가 필요함.
  • GCP 고객 보호 조치에 대한 질문

    • GCP 고객이 TAM에게 GCP의 보호 조치에 대해 질문할 것을 권장함. GCP의 인간 기반 보호 조치가 거의 없으며, AWS보다 훨씬 적음.
  • 24x7 작업에 대한 의문

    • "Google 팀이 며칠 동안 24x7로 작업했다"는 표현에 대해 의문을 제기함.
  • 관련 사건

    • UniSuper 회원들이 Google Cloud의 잘못된 설정으로 인해 일주일 동안 계정에 접근하지 못한 사건과 Google Cloud가 고객의 계정을 실수로 삭제한 사건을 언급함.
  • Google 측 실수에 대한 놀라움

    • Google 측의 실수라는 사실에 놀라움을 표함. UniSuper가 큰 충격을 받았을 것이라고 언급함.
  • 검토의 철저함

    • 특정 도구/프로세스에 대한 조사뿐만 아니라 자동 삭제 문제를 검토하고 소프트 삭제 동작을 확인한 점에서 철저한 검토였다고 평가함. 그러나 기본 동작에 대한 추가 검토가 필요하다고 언급함.
  • GCP에 대한 기대

    • UniSuper의 문제는 해결되었지만, 이 사건이 GCP에 필요한 자극이 되기를 바람.
  • 고객의 노력에 대한 칭찬

    • 고객의 CIO와 기술 팀이 Google Cloud 팀과 협력하여 24x7 복구를 신속하고 정확하게 수행한 점을 칭찬함.
  • UniSuper 고객의 경험

    • UniSuper 고객이 사건의 실체를 뉴스에서 알게 되었으며, 사건을 "시스템 다운타임"으로 축소하려는 시도가 있었다고 언급함.
  • 초기 발표의 오해

    • 초기 발표가 오해를 불러일으켰으며, 실제로는 특정 지역의 가상 머신만 손실되었다고 설명함. 이는 시스템이 처리할 수 있는 문제라고 언급함.