# Slack 의 2020-5-12 장애 보고

> Clean Markdown view of GeekNews topic #2408. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=2408](https://news.hada.io/topic?id=2408)
- GeekNews Markdown: [https://news.hada.io/topic/2408.md](https://news.hada.io/topic/2408.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2020-07-08T10:13:57+09:00
- Updated: 2020-07-08T10:13:57+09:00
- Original source: [slack.engineering](https://slack.engineering/a-terrible-horrible-no-good-very-bad-day-at-slack-dfe05b485f82)
- Points: 10
- Comments: 0

## Topic Body

슬랙이 처음으로 꽤 오래 전체 다운되었던 이슈에 대한 설명

1. DB 구성변경 배포후 DB부하가 증가되는 퍼포먼스 버그가 발견되어서 몇분만에 롤백

2. 그럼에도 이 이슈로 웹앱 오토스케일링이 활성화 되면서, Hard Limit 보다 많은 수의 인스턴스가 증가

3. 이로 인해 로드밸런서 내에 호스트 리스트 업데이트 부분에 버그가 발생되면서 새로운 인스턴스들이 등록되지 못함

ㅤ→ HAProxy + Consul

4. 8시간이 지난뒤 호스트리스트에 남아있는 인스턴스들은 가장 오래된것들 뿐이었고, 스케일다운이 발생하자 오래된 인스턴스들이 셧다운

5. 새 인스턴스들이 이걸 넘겨받아야 했지만, 로드밸런서 호스트리스트에 새 인스턴스들이 없었음.

## Comments



_No public comments on this page._
