20년간의 사이트 신뢰성 엔지니어링에서 얻은 교훈

(sre.google)

5P by GN⁺ 2023-10-28 | ★ favorite | 댓글과 토론

구글의 사이트 신뢰성 엔지니어링(SRE)의 20년간 진화에 대한 기사
지난 20년 동안 구글의 컴퓨팅 파워는 1,000배, 네트워크는 10,000배 성장
SRE 도구는 파이썬 스크립트에서 통합 서비스 생태계로, 신뢰성을 기본으로 제공하는 통합 플랫폼으로 발전
구글의 20년간 SRE에서 배운 11가지 주요 교훈을 강조하는 기사
교훈 1: 완화 조치의 위험성은 중단의 심각성에 따라 달라져야 함
교훈 2: 비상 상황 전에 복구 메커니즘을 완전히 테스트해야 함
교훈 3: 모든 변경사항은 대규모 영향을 방지하기 위해 점진적으로 적용되어야 함
교훈 4: 모든 서비스 의존성은 바람직하지 않은 상태를 되돌리는 "큰 빨간 버튼"이 있어야 함
교훈 5: 단위 테스트만으로는 충분하지 않음; 통합 테스트도 필요
교훈 6: 중단 동안 백업을 포함한 다중 통신 채널이 필수
교훈 7: 서비스는 예외적인 상황에서 고의적이고 우아하게 성능을 저하시킬 수 있어야 함
교훈 8: 재난 복원력과 복구 테스트는 비즈니스 연속성 전략의 일부가 되어야 함
교훈 9: 완화 조치는 평균 해결 시간(MTTR)을 줄이기 위해 자동화되어야 함
교훈 10: 적절한 테스트와 함께 자주 롤아웃하면 롤아웃이 잘못되는 가능성을 줄일 수 있음
교훈 11: 단일 글로벌 하드웨어 버전은 단일 실패 지점이며, 다양한 인프라를 유지하면 전체 중단을 방지할 수 있음
이러한 교훈들은 구글이 수년 동안 경험하고 배운 실제 사건에 기반함