GitHub Avaliability Report 매달 공개하기로
(github.blog)- 매월 첫째 수요일에 그간의 사고에 대한 설명과 기술적인 설명, 해결 방안 등을 정리한 가용성 보고서를 발간 예정
- 모든걸 투명하게 공유함으로써 단순한 에러보고가 아닌, 누구나 이 경험으로 배울수 있도록 하기 위함
- 최근 많아지고 있는 사이트 오류에 대한 깃헙의 대처
- 5/5 (2:24분간 장애)
MySQL 특정테이블의 auto-increment ID가 Integer Type 최대값을 초과하면서 발생
PK 사이즈의 70%가 넘으면 알림을 날리게 하고, 테스트 프레임워크가 int/bigint 체킹하도록 린터를 추가
- 5/22(5:09분간 장애)
정기 유지보수중 새로 실행된 MySQL Primary 서버가 다운. 급히 원본 Primary로 트래픽을 우회했지만, 6초간 죽어있었을때 Write 트래픽을 받았기 때문에, 이를 복구하기 위해 복제본에서 리스토어 하는데 4시간, 클러스터 재설정하는데 1시간 소요.
복구시간을 최소화 하기 위해 failover 자동화를 계속 테스트중
- 6/19 (51분간 장애)
향상된 A/B 테스트를 위해 넣은 변경사항이 동적생성된 다른 어플리케이션의 파일에 의존성을 가지면서 발생. 배포중 해당파일 생성이 실패하면서 레이트리밋이 걸림.
A/B 및 Multivariate 테스트 설정이 내부적으로 캐쉬되도록 변경
MS가 인수한뒤 부쩍 에러가 많아 졌다는 의심을 받고 있었는데
( Azure 가 불안한거 아니야? 라는쪽으로 이어지니 뜨끔했을지도 )
이에 대해서 투명하게 가용성 보고서를 발간한다는 정공법적인 대책을 발표했네요.
국내 기업들도 이런 대처 방식은 배워야 한다고 봅니다.
약간 다른 얘기지만 해외기업과 국내기업의 "투명성 보고서"를 비교해 보면 굉장히 질적/양적인 차이가 납니다.
투명성 보고서(Transparency Report) : 정부 및 기업의 정책과 조치가 개인정보 보호, 보안, 정보 이용에 미치는 영향을 보여주는 데이터를 공유하는 것
구글 투명성 보고서 : https://transparencyreport.google.com/?hl=ko
페이스북 투명성 보고서 : https://transparency.facebook.com/
네이버 투명성 보고서 : https://privacy.naver.com/transparency/transparency_report_statistic/…
카카오 투명성 보고서 : https://privacy.kakao.com/transparency/statistic
그냥 데이터를 나열만 하는데 그치지 않고,
보고서 자체를 통해서 기업이 생각하는 신념을 담아 잘 보여주도록 꾸며야 한다고 생각합니다.