알림의 개수를 95.7% 절감하여 알림 피로를 개선한 이야기
(velog.io)문제 배경: 크리티컬과 경고(Warning) 알림 채널을 분리하고 크리티컬 알림 시 전화 수신을 도입했으나, 월 1만 건이 넘는 경고 알림 폭증으로 인해 알림 무시 및 온콜(On-call) 피로도 증가 현상 발생.
핵심 인사이트: 과도한 알림은 메신저 헬스 체커로 전락하여 시스템 가시성을 저해함. 알림 절감을 위한 핵심 지표로 슬랙 이모지(👀, ✅)를 활용한 '알림 반응률' 측정 제안.
해결 과정:
최초 설정 의도와 현재 환경이 맞지 않는 알림(예: EBS 볼륨 증량 임계치 불일치) 조정 및 삭제.
이전 작업자의 의도를 알 수 없는 무의미한 알림은 과감히 제거.
추가 성과: 알림 노이즈를 걷어낸 후, 특정 서버의 높은 iowait 원인이 실제 워크로드 대비 과도하게 설정된 ZFS recordsize 때문임을 발견하고 정상화함.
결과: 경고성 알림 95.7% 감소(월 10,553개 → 453개). 심야/휴일 크리티컬 전화 수신 70% 이상 감소. 온콜 수면 부족 해결 및 실질적인 시스템 가용성·가시성 향상.