Slack 의 2020-5-12 장애 보고
(slack.engineering)슬랙이 처음으로 꽤 오래 전체 다운되었던 이슈에 대한 설명
1. DB 구성변경 배포후 DB부하가 증가되는 퍼포먼스 버그가 발견되어서 몇분만에 롤백
2. 그럼에도 이 이슈로 웹앱 오토스케일링이 활성화 되면서, Hard Limit 보다 많은 수의 인스턴스가 증가
3. 이로 인해 로드밸런서 내에 호스트 리스트 업데이트 부분에 버그가 발생되면서 새로운 인스턴스들이 등록되지 못함
ㅤ→ HAProxy + Consul
4. 8시간이 지난뒤 호스트리스트에 남아있는 인스턴스들은 가장 오래된것들 뿐이었고, 스케일다운이 발생하자 오래된 인스턴스들이 셧다운
5. 새 인스턴스들이 이걸 넘겨받아야 했지만, 로드밸런서 호스트리스트에 새 인스턴스들이 없었음.