5P by neo 2023-10-28 | favorite | 댓글과 토론
  • 구글의 사이트 신뢰성 엔지니어링(SRE)의 20년간 진화에 대한 기사
  • 지난 20년 동안 구글의 컴퓨팅 파워는 1,000배, 네트워크는 10,000배 성장
  • SRE 도구는 파이썬 스크립트에서 통합 서비스 생태계로, 신뢰성을 기본으로 제공하는 통합 플랫폼으로 발전
  • 구글의 20년간 SRE에서 배운 11가지 주요 교훈을 강조하는 기사
  • 교훈 1: 완화 조치의 위험성은 중단의 심각성에 따라 달라져야 함
  • 교훈 2: 비상 상황 전에 복구 메커니즘을 완전히 테스트해야 함
  • 교훈 3: 모든 변경사항은 대규모 영향을 방지하기 위해 점진적으로 적용되어야 함
  • 교훈 4: 모든 서비스 의존성은 바람직하지 않은 상태를 되돌리는 "큰 빨간 버튼"이 있어야 함
  • 교훈 5: 단위 테스트만으로는 충분하지 않음; 통합 테스트도 필요
  • 교훈 6: 중단 동안 백업을 포함한 다중 통신 채널이 필수
  • 교훈 7: 서비스는 예외적인 상황에서 고의적이고 우아하게 성능을 저하시킬 수 있어야 함
  • 교훈 8: 재난 복원력과 복구 테스트는 비즈니스 연속성 전략의 일부가 되어야 함
  • 교훈 9: 완화 조치는 평균 해결 시간(MTTR)을 줄이기 위해 자동화되어야 함
  • 교훈 10: 적절한 테스트와 함께 자주 롤아웃하면 롤아웃이 잘못되는 가능성을 줄일 수 있음
  • 교훈 11: 단일 글로벌 하드웨어 버전은 단일 실패 지점이며, 다양한 인프라를 유지하면 전체 중단을 방지할 수 있음
  • 이러한 교훈들은 구글이 수년 동안 경험하고 배운 실제 사건에 기반함