알림의 개수를 95.7% 절감하여 알림 피로를 개선한 이야기

(velog.io/@skynet)

문제 배경: 크리티컬과 경고(Warning) 알림 채널을 분리하고 크리티컬 알림 시 전화 수신을 도입했으나, 월 1만 건이 넘는 경고 알림 폭증으로 인해 알림 무시 및 온콜(On-call) 피로도 증가 현상 발생.

핵심 인사이트: 과도한 알림은 메신저 헬스 체커로 전락하여 시스템 가시성을 저해함. 알림 절감을 위한 핵심 지표로 슬랙 이모지(👀, ✅)를 활용한 '알림 반응률' 측정 제안.

해결 과정:

최초 설정 의도와 현재 환경이 맞지 않는 알림(예: EBS 볼륨 증량 임계치 불일치) 조정 및 삭제.

이전 작업자의 의도를 알 수 없는 무의미한 알림은 과감히 제거.

추가 성과: 알림 노이즈를 걷어낸 후, 특정 서버의 높은 iowait 원인이 실제 워크로드 대비 과도하게 설정된 ZFS recordsize 때문임을 발견하고 정상화함.

결과: 경고성 알림 95.7% 감소(월 10,553개 → 453개). 심야/휴일 크리티컬 전화 수신 70% 이상 감소. 온콜 수면 부족 해결 및 실질적인 시스템 가용성·가시성 향상.

로그, 메트릭, 알람은 주기적으로 조정을 하는 프랙티스가 필요하죠.

어디서 본 닉네임이다 싶더라니 예전 cron 출력으로 재밌는 글을 써주셨던 분이네요. 이번 글도 잘 읽었습니다 :D

재밌게 읽어주셨다니 감사합니다

함께 보면 좋은 글 β