GitHub이 또다시 장애 발생
(githubstatus.com)- 일부 GitHub 서비스의 성능 저하가 보고되며, 알림(Notification) 전달 지연이 발생
- 평균 지연 시간은 처음 약 50분에서 최대 1시간 20분까지 증가
- 이후 점진적 복구가 이루어지며, 지연이 1시간 → 30분 → 15분 수준으로 단축
- UTC 기준 2026년 2월 9일 19시 29분에 문제 해결 및 사건 종료로 보고
- GitHub은 근본 원인 분석(RCA) 을 추후 공개할 예정임
GitHub 알림 지연 사고 개요
- GitHub은 일부 서비스에서 성능 저하가 발생했다고 보고함
- 초기 단계에서 알림 전달이 정상적으로 이루어지지 않음
- 문제 원인에 대한 조사는 진행 중이었음
알림 지연의 진행 상황
- 첫 번째 업데이트에서 평균 50분 지연이 발생했다고 명시
- GitHub은 완화 조치를 진행 중이라고 밝힘
- 이후 업데이트에서 1시간 20분 지연으로 악화되었으나, 회복 조짐이 관찰됨
- 점차 복구가 진행되어 1시간 → 30분 → 15분으로 지연 시간이 단축됨
- 백로그(누적된 알림)를 처리 중이라고 설명
- 최종적으로 알림 지연 문제가 해결되었으며, 정상적인 전달이 재개됨
사고 종료 및 후속 조치
- UTC 기준 2026년 2월 9일 19시 29분에 사건이 완전히 해결됨
- GitHub은 사용자들의 인내와 이해에 감사를 표함
- 근본 원인 분석(Root Cause Analysis) 결과는 준비되는 대로 공개 예정임
사용자 알림 및 구독 기능
- 사용자는 이메일, SMS, Slack, Webhook 등으로 사건 업데이트를 구독할 수 있음
- 구독 시 GitHub 및 Atlassian의 개인정보 보호정책과 서비스 약관에 동의해야 함
- 사이트는 Google reCAPTCHA로 보호됨
요약
- 이번 사고는 GitHub의 알림 시스템 지연 문제로, 약 4시간 동안 단계적 복구가 진행됨
- 서비스는 현재 정상 상태로 복귀했으며, 추가 분석 보고서가 예정되어 있음
Hacker News 의견들
-
GitHub이 더 이상 서비스 가동률 통계를 공개하지 않아서 직접 데이터를 파싱해봤음
현재 전체 서비스 기준으로는 ‘single 9’ 수준으로 보임
GitHub Statuses 페이지에서 확인 가능함- 예전 GitHub 상태 페이지가 떠오름. 그때는 실제 가동 시간을 투명하게 보여줬는데, 진실을 드러내자마자 지금의 페이지로 바뀐 게 놀랍지 않음
archive.org 링크 설명도 잘 봤음 - 전체 서비스 기준으로 ‘single 9’라고 표현한 건 가동률 계산 방식상 의미가 없음
각 영역별 수치는 괜찮지만, 모든 서비스를 단일 지표로 합치는 건 무의미함
대부분 99.5% 이상인데 Copilot만 예외로 보임 - Copilot의 전체 수치가 가장 낮은 게 흥미로움
매일 쓰지만 문제를 거의 못 느꼈음. 아마 사건 등록 시점이 늦게 반영되는 듯함 - 오늘 발생한 다운타임을 ‘minor’로 분류한 게 이해 안 됨
웹 UI가 거의 작동하지 않았는데, GitHub이 사건 심각도를 축소 보고하는 건 아닌지 궁금함 - 멋진 프로젝트임. 이렇게 공유해줘서 고마움
- 예전 GitHub 상태 페이지가 떠오름. 그때는 실제 가동 시간을 투명하게 보여줬는데, 진실을 드러내자마자 지금의 페이지로 바뀐 게 놀랍지 않음
-
몇 년 전만 해도 GitHub의 지배력이 위협받을 거라 생각하지 않았음
하지만 지금처럼 운영이 불안정하면 업계의 대표적 자충수로 기록될 것 같음- 작년 Azure로의 ‘존재적’ 마이그레이션 이후 가동률이 한두 단계 떨어진 듯함
- 지금 GitLab 문서의 “Migrate from GitHub” 페이지를 보고 있음
이슈와 프로젝트까지 가져올 수 있다면 진지하게 옮길 생각임 - 단순한 운영 문제가 아니라 아키텍처와 코드 품질의 문제라고 봄
GitHub Enterprise self-hosted 제품을 보면 그 복잡함을 알 수 있음 - 근거는 없지만, 최근 잦은 장애가 AI 중심 전략으로 인한 부작용일 수도 있다고 추측함
- Microsoft가 Azure로 강제 이전시키고 AI 워크로드를 우선시한 결과라고 생각함
GitHub은 전 세계 개발 데이터의 황금 거위인데, 지금처럼 불안정하면 프랜차이즈 자체가 위험함
Windows 11도 좋지 않고, GitHub이 현대 개발의 기반 역할을 잃을 수도 있음
-
Caddy의 보안 버그를 처리하던 중 GitHub이 다운돼서 리포트를 열면 유니콘 페이지만 보임
아이가 없는 2시간 동안 집중하려 했는데, 이 장애로 피드백 루프가 내일까지 밀릴까 걱정임
그래도 GitHub Sponsors 덕분에 생계를 유지하고 있으니 감사한 마음임- 어떤 보안 버그인지 궁금함
- 혹시 대체 플랫폼을 고려해본 적 있는지 묻고 싶음. 개인 서버를 운영하는 입장에서 보안이 중요함
-
GitHub이 점점 조각나며 폭발하는 걸 실시간으로 볼 수 있음
GitHub Status History 페이지가 거의 코미디 수준임- 2월 9일인데 벌써 14건의 사고가 있음
AI 산업의 ‘구세주’ 단계가 또 이렇게 흘러가는 걸 보니 아이러니함
관련 기사: The Verge 링크 - 이런 추세를 되돌리려면 vibe coding을 더 해야 한다고 농담함
- 그래도 GitHub이 투명하게 공개하는 건 좋음
다운타임을 숨기지 않으니 대응할 수 있고, 곧 회고도 있을 것 같음 - Azure 마이그레이션이 끝날 때까지 이런 현상은 계속될 듯함
- GitHub 프로필의 기여 그래프처럼 연간 시각화가 있었으면 좋겠음
- 2월 9일인데 벌써 14건의 사고가 있음
-
올해 들어 GitHub은 거의 매일 상태 페이지를 갱신할 정도로 사고가 많음
상태 기록을 보면, 이건 대형 서비스라도 정상은 아님
매일 오후 4시쯤 GitHub Actions가 멈춘다는 농담이 있을 정도임
내부에서 원인과 대책을 공개해줬으면 함- 코딩 에이전트 등장 이후 운영 트래픽이 100배 늘었을 가능성이 큼
GitHub은 원래 다른 규모를 전제로 설계됐는데, 갑자기 새로운 차원의 부하를 맞은 셈임
- 코딩 에이전트 등장 이후 운영 트래픽이 100배 늘었을 가능성이 큼
-
상태 페이지에는 처음엔 알림 지연만 표시됐지만, 실제로는 PR 접근 시 유니콘 페이지가 계속 떴음
이후 PR 관련 별도 상태 페이지가 생겼고, 결국 전체 서비스 문제로 확장됨
관련 사건 링크- “일부 서비스 성능 저하를 조사 중”이라는 항목이 추가됐음
UTC 16:10에는 없었는데 몇 분 뒤에 나타남 - PR 승인 시 JSON API가 HTML 오류 페이지를 반환함. 내부가 완전히 꼬인 듯함
- 나도 500 에러를 자주 봄. 지연 시간도 급증함
모니터링 링크 - 커밋 세부 정보 접근 시에도 유니콘 페이지만 뜸
- git 명령어 자체도 작동하지 않음
- “일부 서비스 성능 저하를 조사 중”이라는 항목이 추가됐음
-
최근 몇 주간 Forgejo로 마이그레이션을 완료했음
우리 회사는 대형 클라우드 의존을 줄이려는 입장이라, GitHub/Azure 장애로 핵심 인프라가 멈추는 게 말이 안 됐음
전환 과정은 순조로웠고, 몇 가지 커스텀 개발도 진행 중임- Firecracker 기반 러너를 만들어 Forgejo Actions에서 VM 환경으로 CI를 실행하도록 함
-
환경 변수 그룹 기능을 추가하는 제안을 준비 중임
커뮤니티가 매우 환영적이어서 Forgejo가 더 성장하길 바람
회사 링크, 제안 토론 링크
- 런던에 있다면 왜 .eu 도메인을 쓰는지, 서버 위치와 호스팅 제공자가 궁금함
-
GitHub의 불안정성은 이제 용납할 수 없음
앞으로 코드 저장소 선택에 영향력을 행사할 수 있다면 GitHub을 피하도록 하겠음- 기능은 다른 포지(Forge)에서도 충분히 대체 가능함
다만 GitHub의 발견성과 소셜 신호(별, 포크) 는 여전히 매력적임
내부 포지(GitLab, Gitea 등)를 쓰고 GitHub에는 미러링하는 방식이 현실적임
아이러니하게도, GitHub이 더 나았다면 유료 플랜을 썼을 텐데 지금은 무료만 쓰고 다른 곳에 돈을 씀
- 기능은 다른 포지(Forge)에서도 충분히 대체 가능함
-
지난 3개월 동안 3번의 대규모 장애가 있었음
상태 기록에도 명시돼 있음- 최근 팀에서 누가 떠났는지 궁금함. 혹시 핵심 지식자가 빠졌거나, 운영을 다른 지역으로 옮긴 건 아닐까 함
- 2주 후 MVP 출시를 앞두고 있는데 또 장애라니 답답함. 신뢰성이 너무 떨어짐
- 혹시 이것도 vibe coding 때문은 아닐까 하는 농담을 덧붙임
-
지금 상황은 마치 AI가 엔지니어를 대체한 결과처럼 보임
- “맞아, 미안. 네 데이터베이스를 삭제했어.”라는 농담으로 응수함
- 실제로는 GitHub이 Microsoft Azure로 이전 중이라 이런 다운타임이 생기는 것으로 알고 있음
- 마치 Tay.ai와 Zoe.ai가 내부에서 싸우느라 서비스를 못 지키는 듯한 풍자임