저희 회사의 경우 보통 두달에 일주일 정도 업무외 시간 시스템 장애에 실시간으로 대응하는 걸 on-call이라고 합니다. PagerDuty 라는 앱을 많이 쓰는데, severity가 high인 장애가 발생하면, - dead letter가 생긴다든디, api failure rate가 어느 정도를 넘어간다든지 ... - 하면 휴대폰으로 즉시 alarm이 오고 회사 랩톱으로 접속해서 로그확인하면서 필요한 조치를 취합니다.