GN⁺: 고객에게 영향을 미친 최근 사건에 대한 세부 사항 공유
(cloud.google.com)최근 발생한 고객 영향 사건에 대한 세부 사항 공유
Google Cloud 고객 지원
- 이달 초, 호주에 있는 고객 UniSuper에게 영향을 미친 Google Cloud 사건이 발생했음.
- 사건 발생 직후, 고객과 함께 시스템을 완전히 복구하는 것이 최우선이었음.
- 사건이 시작된 직후, 고객과 공동 성명을 통해 사건을 공개적으로 인정했음.
- 고객의 시스템이 완전히 복구된 후, 내부 검토를 완료했음.
- 사건의 성격을 명확히 하고 투명성을 위해 정확한 설명을 제공하기 위해 정보를 공개함.
- Google Cloud는 이 특정하고 고립된 사건이 다시 발생하지 않도록 조치를 취했음.
- 이 사건의 영향은 매우 실망스러웠으며, 고객에게 불편을 끼친 점에 대해 깊이 사과함.
영향 범위
영향을 받은 기술 및 서비스
- 이 사건은 다음과 같은 Google 관리 서비스에 영향을 미쳤음:
- 한 클라우드 지역의 한 고객.
- 그 고객이 사용하는 Google Cloud 서비스 중 하나인 Google Cloud VMware Engine (GCVE).
- 두 개의 존에 걸친 고객의 여러 GCVE 프라이빗 클라우드 중 하나.
영향을 받지 않은 항목
- 이 사건은 다음 항목에는 영향을 미치지 않았음:
- 다른 Google Cloud 서비스.
- GCVE 또는 다른 Google Cloud 서비스를 사용하는 다른 고객.
- 고객의 다른 GCVE 프라이빗 클라우드, Google 계정, 조직, 폴더 또는 프로젝트.
- 동일한 지역에 저장된 고객의 데이터 백업(Google Cloud Storage).
사건의 원인
요약
- 고객을 위해 Google Cloud VMware Engine (GCVE) 프라이빗 클라우드를 초기 배포하는 동안, Google 운영자가 내부 도구를 사용하여 GCVE 서비스를 잘못 구성했음. 이는 매개변수를 비워둔 결과로 발생했음.
- 이로 인해 고객의 GCVE 프라이빗 클라우드가 고정 기간으로 설정되었고, 그 기간이 끝나면 자동으로 삭제되도록 설정되었음.
- 사건의 원인과 시스템 동작은 모두 수정되어 다시는 발생하지 않도록 조치했음.
- 이 사건은 이 고객의 하나의 GCVE 프라이빗 클라우드 외에는 다른 Google Cloud 서비스에 영향을 미치지 않았음.
- 다른 고객들은 이 사건의 영향을 받지 않았음.
상세 분석
예외 프로세스를 사용한 배포
- 2023년 초, Google 운영자는 특정 용량 배치 요구를 충족하기 위해 고객의 GCVE 프라이빗 클라우드 중 하나를 배포하기 위해 내부 도구를 사용했음.
- 이 용량 관리 내부 도구는 2023년 4분기에 폐기되었고, 이제는 완전히 자동화되어 인간의 개입이 필요하지 않음.
빈 입력 매개변수로 인한 의도치 않은 동작
- Google 운영자는 내부 통제 프로토콜을 따랐음.
- 그러나 고객의 프라이빗 클라우드를 프로비저닝할 때 내부 도구를 사용할 때 하나의 입력 매개변수가 비어 있었음.
- 이로 인해 시스템은 이 매개변수에 대해 당시 알려지지 않은 기본 고정 1년 기간 값을 할당했음.
- 시스템이 할당한 1년 기간이 끝난 후, 고객의 GCVE 프라이빗 클라우드가 삭제되었음.
- 삭제는 Google 운영자가 내부 도구를 사용할 때 매개변수를 비워둔 결과로 발생했기 때문에 고객에게 알림이 전송되지 않았음.
- 고객이 시작한 삭제는 고객에게 알림이 전송된 후에만 발생했을 것임.
복구
- 고객과 Google 팀은 며칠 동안 24시간 내내 협력하여 고객의 GCVE 프라이빗 클라우드를 복구하고, 네트워크 및 보안 구성을 복원하고, 애플리케이션을 복원하고, 데이터를 복구하여 완전한 운영을 복구했음.
- 이는 고객의 강력하고 회복력 있는 아키텍처 접근 방식 덕분에 가능했음.
- 동일한 지역에 저장된 Google Cloud Storage에 저장된 데이터 백업은 삭제에 영향을 받지 않았으며, 제3자 백업 소프트웨어와 함께 신속한 복구에 중요한 역할을 했음.
수정 조치
- Google Cloud는 이 사건이 다시 발생하지 않도록 여러 조치를 취했음:
- 이 사건을 유발한 내부 도구를 폐기했음. 이 부분은 이제 완전히 자동화되어 고객이 사용자 인터페이스를 통해 제어할 수 있음.
- 시스템 데이터베이스를 정리하고 모든 GCVE 프라이빗 클라우드를 수동으로 검토하여 다른 GCVE 배포가 위험에 처하지 않도록 했음.
- 이러한 배포 워크플로우에 대해 GCVE 프라이빗 클라우드를 삭제하도록 설정하는 시스템 동작을 수정했음.
결론
- Google Cloud 내에서 이와 같은 성격의 사건은 이번이 처음임. 이는 체계적인 문제가 아님.
- Google Cloud 서비스는 소프트 삭제, 사전 알림, 인간 개입 등의 강력한 보호 장치를 갖추고 있음.
- 이러한 보호 장치가 계속 유지되고 있음을 확인했음.
- 고객과 긴밀히 협력하는 것이 신속한 복구에 필수적임. 고객의 CIO와 기술 팀은 Google Cloud 팀과 긴밀히 협력하여 24시간 복구를 신속하고 정확하게 수행한 점에 대해 칭찬받아야 함.
- 예기치 않은 사건 발생 시 신속한 복구를 위해서는 강력하고 회복력 있는 위험 관리가 필수적임.
- Google Cloud는 여전히 세계에서 가장 회복력 있고 안정적인 클라우드 인프라를 보유하고 있음. 이번 일회성 사건에도 불구하고, 우리의 가동 시간과 회복력은 독립적으로 검증된 바 있음.
GN⁺의 의견
- 사건의 중요성: 이 사건은 클라우드 서비스 제공자가 얼마나 신속하게 문제를 해결하고 고객과 협력하는지가 중요함을 보여줌.
- 자동화의 필요성: 내부 도구의 자동화가 얼마나 중요한지, 특히 인간의 실수가 시스템에 큰 영향을 미칠 수 있는 경우를 강조함.
- 고객과의 협력: 고객과의 긴밀한 협력이 문제 해결에 얼마나 중요한지 보여줌. 이는 신뢰를 쌓는 데도 중요한 요소임.
- 데이터 백업의 중요성: 데이터 백업이 얼마나 중요한지, 특히 예기치 않은 사건 발생 시 신속한 복구를 위해 필수적임을 강조함.
- 향후 예방 조치: Google Cloud가 사건 재발 방지를 위해 취한 조치들이 다른 클라우드 서비스 제공자들에게도 좋은 본보기가 될 수 있음.
Hacker News 의견
해커뉴스 댓글 모음 요약
-
문제 해결의 깊이에 대한 불만
- 사건의 영향력에 비해 해결책이 깊지 않음. 동일한 문제가 다시 발생하지 않도록 했지만, 유사한 문제가 발생할 가능성은 여전히 존재함. 서비스 종료/삭제를 체계적으로 방지하기 위한 추가 조치가 필요함.
-
GCP 고객 보호 조치에 대한 질문
- GCP 고객이 TAM에게 GCP의 보호 조치에 대해 질문할 것을 권장함. GCP의 인간 기반 보호 조치가 거의 없으며, AWS보다 훨씬 적음.
-
24x7 작업에 대한 의문
- "Google 팀이 며칠 동안 24x7로 작업했다"는 표현에 대해 의문을 제기함.
-
관련 사건
- UniSuper 회원들이 Google Cloud의 잘못된 설정으로 인해 일주일 동안 계정에 접근하지 못한 사건과 Google Cloud가 고객의 계정을 실수로 삭제한 사건을 언급함.
-
Google 측 실수에 대한 놀라움
- Google 측의 실수라는 사실에 놀라움을 표함. UniSuper가 큰 충격을 받았을 것이라고 언급함.
-
검토의 철저함
- 특정 도구/프로세스에 대한 조사뿐만 아니라 자동 삭제 문제를 검토하고 소프트 삭제 동작을 확인한 점에서 철저한 검토였다고 평가함. 그러나 기본 동작에 대한 추가 검토가 필요하다고 언급함.
-
GCP에 대한 기대
- UniSuper의 문제는 해결되었지만, 이 사건이 GCP에 필요한 자극이 되기를 바람.
-
고객의 노력에 대한 칭찬
- 고객의 CIO와 기술 팀이 Google Cloud 팀과 협력하여 24x7 복구를 신속하고 정확하게 수행한 점을 칭찬함.
-
UniSuper 고객의 경험
- UniSuper 고객이 사건의 실체를 뉴스에서 알게 되었으며, 사건을 "시스템 다운타임"으로 축소하려는 시도가 있었다고 언급함.
-
초기 발표의 오해
- 초기 발표가 오해를 불러일으켰으며, 실제로는 특정 지역의 가상 머신만 손실되었다고 설명함. 이는 시스템이 처리할 수 있는 문제라고 언급함.