- GitHub 상태 페이지는 현재 All Systems Operational이며, 2026년 5월 27일에는 보고된 인시던트가 없음
- 최근 90일 기준 주요 구성요소는 모두 Operational이고, Actions 가동률은 99.66%, Pull Requests는 99.55%임
- 5월 26일 Actions와 Pages는 인증 문제로 실행 시작·액션 다운로드 실패가 발생했고, 대부분의 Actions 실행이 영향받음
- 5월 20일 Actions 지연은 잘못 구성된 헬스 체크가 원인이었고, 전체 실행 4.5%와 scale set 작업 30%가 지연됨
- 5월 15일 Actions 저하는 계획된 장애 조치 중 라우팅 문제로 발생했으며, 최대 시점에 실행 42%가 실패함
현재 서비스 상태
- GitHub 상태 페이지는 현재 All Systems Operational로 표시됨
- 2026년 5월 27일에는 보고된 인시던트 없음으로 표시됨
- 최근 90일 기준 주요 구성요소는 모두 Operational 상태임
- Git Operations: 99.83% 가동률
- Webhooks: 99.73% 가동률
- API Requests: 99.98% 가동률
- Issues: 99.86% 가동률
- Pull Requests: 99.55% 가동률
- Actions: 99.66% 가동률
- Packages: 99.98% 가동률
- Pages: 99.96% 가동률
- Copilot: 99.91% 가동률
- Codespaces: 99.77% 가동률
- Copilot AI Model Providers: 100.0% 가동률
- GitHub Enterprise Cloud 지역별 상태 페이지도 별도로 제공됨
2026년 5월 26일 Actions 및 Pages 인시던트
-
- 10:57 UTC에 Actions와 Pages 성능 저하 조사가 시작됨
- 11:19 UTC에는 Actions의 가용성 저하가 확인됨
- 11:53 UTC에는 Actions 실행 시작 실패와 액션 다운로드 실패를 일으키는 인증 문제가 조사 중이었고, 당시 Actions 실행의 대부분이 영향을 받음
- 12:37 UTC에 GitHub Actions에 영향을 준 인증 문제의 원인이 식별됐고 완화 작업이 진행됨
- 13:00 UTC에 Actions와 Pages 저하가 완화돼 안정성 확인을 위한 모니터링으로 전환됨
- 13:18 UTC에 인시던트가 해결됐으며, 상세 근본 원인 분석은 준비되는 대로 공유될 예정임
2026년 5월 20일 Actions 인시던트
-
- 16:00~17:45 UTC 사이 GitHub Actions 고객이 5분 초과 실행 시작 지연을 겪음
- 영향 구간 동안 전체 실행의 약 4.5% 가 지연됐고, scale set 작업은 더 큰 영향을 받음
- scale set 작업의 30% 가 지연됐고 4% 는 아예 시작하지 못함
- 원인은 러너에 작업을 할당하는 내부 서비스의 잘못 구성된 헬스 체크였음
- 상위 의존성의 짧은 지연 급증이 여러 pod에서 헬스 체크 실패를 유발했고, 해당 pod들이 서비스에서 제거되며 남은 용량에 부하가 집중됨
- 추가 부하는 메모리 압박으로 이어졌고, 한 지역 클러스터에서 연쇄 장애가 확대돼 자체 복구가 불가능해짐
- 대응은 정상 지역 클러스터의 용량을 확장하고 손상된 지역 클러스터에서 트래픽을 빼내는 방식으로 진행됐으며, 이후 실행 시작 지연이 회복됨
- 재발 방지를 위해 연쇄 장애 시나리오를 피하도록 헬스 체크 구성을 강화하고, 지역 저하 시 트래픽을 재분산하는 자동 완화 방안을 평가 중임
- 20:14 UTC에 인시던트가 해결됨
2026년 5월 15일 Actions 가용성 저하
-
- 07:43~08:48 UTC 사이 GitHub Actions에서 일부 고객의 워크플로 실행 실패 또는 시작 지연이 발생함
- 인시던트는 GitHub Actions가 사용하는 지원 인프라의 계획된 장애 조치 과정에서 시작됨
- 장애 조치 중 자동 서비스 디스커버리 업데이트가 올바르게 전파되지 않아 트래픽이 잘못 라우팅됐고, 워크플로 오케스트레이션의 핵심 의존성에서 요청 시간 초과가 증가함
- 최대 영향 시점에는 Actions 실행의 42% 가 실패함
- Actions 워크플로 실행에 의존하는 downstream 서비스도 영향을 받았으며, GitHub Pages와 Copilot cloud services가 포함됨
- 08:12 UTC에 대응자가 서비스 디스커버리 라우팅 문제를 수동으로 수정함
- 시간 초과와 실패율은 곧 회복됐고, 모든 영향 서비스가 안정화될 때까지 모니터링이 계속됨
- 재발 방지를 위해 장애 조치 완료 전 서비스 디스커버리 상태를 검증하는 장애 조치 가드레일, 사전·사후 검증 강화, 인프라 이벤트 중 시간 초과 연쇄를 줄이는 의존성 회복력 개선이 진행 중임
- 08:48 UTC에 인시던트가 해결됨
댓글과 토론