11P by before30 2020-12-25 | favorite | 댓글과 토론

2020/12/18 업데이트 (원인과 대응방안 추가)

#ROOT CAUSE

지난 10월부터 구글 사용자 ID서비스에 새로운 자동 스토리지 할당 시스템을 도입하였다. 일부 서비스에서는 기존 쿼터 시스템을 사용중이였으며, 사용량을 0으로 보고하고 있는 문제를 가지고 있었다. 0으로 보고된 것이 즉각적인 영향이 없었던 것은 Expire 시간이 남아있었기 때문이고 시간이 만료된 이후 User ID 서비스의 쿼터를 줄이면서 장애가 발생했다. 의도치 않은 쿼터 변경을 검증하기 위한 안전 검사 항목이 있기는 하지만 0인 시나리오를 다루지는 않았다.

계정 Database의 쿼터가 줄어들었고 Paxos leader의 쓰기가 불가능해졌고 그리고 대부분의 읽기 작업이 만료되어 인증 조회시 오류가 발생하였다.

#REMEDIATION AND PREVENTION
1. 글로벌 변경사항의 빠른 Implementaion을 방지하기 위해 쿼터 매니지먼트 오토메이션 리뷰
2. 모니터링 및 얼럿을 개선하여 잘못된 설정을 빠르게 포착
3. 내부 툴에 의해 장애 발생시 외부 커뮤니케이션을 위한 툴과 프로세스의 안정성 향상
4. User ID 서비스 데이터베이스에 대한 쓰기 오류 Resilience 구현
5. User ID 서비스 실패시 데이터 영역에 미치는 영향을 엄격한 제한하여 GCP서비스의 Resilience 개선

* 12월 14일에 있었던 장애에 대해서 상세한 보고서가 업데이트되서 읽다가 발번역해봤어요. 오류가 있으면 알려주세요. 그리고 항상 재밌게 보는 GeekNews여서 재밌는 장애관련 내용있으면 남겨보도록할께요.