1P by GN⁺ 4시간전 | ★ favorite | 댓글 1개
  • 일부 GitHub 서비스의 성능 저하가 보고되며, 알림(Notification) 전달 지연이 발생
  • 평균 지연 시간은 처음 약 50분에서 최대 1시간 20분까지 증가
  • 이후 점진적 복구가 이루어지며, 지연이 1시간 → 30분 → 15분 수준으로 단축
  • UTC 기준 2026년 2월 9일 19시 29분에 문제 해결 및 사건 종료로 보고
  • GitHub은 근본 원인 분석(RCA) 을 추후 공개할 예정임

GitHub 알림 지연 사고 개요

  • GitHub은 일부 서비스에서 성능 저하가 발생했다고 보고함
    • 초기 단계에서 알림 전달이 정상적으로 이루어지지 않음
    • 문제 원인에 대한 조사는 진행 중이었음

알림 지연의 진행 상황

  • 첫 번째 업데이트에서 평균 50분 지연이 발생했다고 명시
    • GitHub은 완화 조치를 진행 중이라고 밝힘
  • 이후 업데이트에서 1시간 20분 지연으로 악화되었으나, 회복 조짐이 관찰됨
  • 점차 복구가 진행되어 1시간 → 30분 → 15분으로 지연 시간이 단축됨
    • 백로그(누적된 알림)를 처리 중이라고 설명
  • 최종적으로 알림 지연 문제가 해결되었으며, 정상적인 전달이 재개됨

사고 종료 및 후속 조치

  • UTC 기준 2026년 2월 9일 19시 29분에 사건이 완전히 해결
  • GitHub은 사용자들의 인내와 이해에 감사를 표함
  • 근본 원인 분석(Root Cause Analysis) 결과는 준비되는 대로 공개 예정임

사용자 알림 및 구독 기능

  • 사용자는 이메일, SMS, Slack, Webhook 등으로 사건 업데이트를 구독할 수 있음
  • 구독 시 GitHub 및 Atlassian의 개인정보 보호정책서비스 약관에 동의해야 함
  • 사이트는 Google reCAPTCHA로 보호됨

요약

  • 이번 사고는 GitHub의 알림 시스템 지연 문제로, 약 4시간 동안 단계적 복구가 진행됨
  • 서비스는 현재 정상 상태로 복귀했으며, 추가 분석 보고서가 예정되어 있음
Hacker News 의견들
  • GitHub이 더 이상 서비스 가동률 통계를 공개하지 않아서 직접 데이터를 파싱해봤음
    현재 전체 서비스 기준으로는 ‘single 9’ 수준으로 보임
    GitHub Statuses 페이지에서 확인 가능함

    • 예전 GitHub 상태 페이지가 떠오름. 그때는 실제 가동 시간을 투명하게 보여줬는데, 진실을 드러내자마자 지금의 페이지로 바뀐 게 놀랍지 않음
      archive.org 링크 설명도 잘 봤음
    • 전체 서비스 기준으로 ‘single 9’라고 표현한 건 가동률 계산 방식상 의미가 없음
      각 영역별 수치는 괜찮지만, 모든 서비스를 단일 지표로 합치는 건 무의미함
      대부분 99.5% 이상인데 Copilot만 예외로 보임
    • Copilot의 전체 수치가 가장 낮은 게 흥미로움
      매일 쓰지만 문제를 거의 못 느꼈음. 아마 사건 등록 시점이 늦게 반영되는 듯함
    • 오늘 발생한 다운타임을 ‘minor’로 분류한 게 이해 안 됨
      웹 UI가 거의 작동하지 않았는데, GitHub이 사건 심각도를 축소 보고하는 건 아닌지 궁금함
    • 멋진 프로젝트임. 이렇게 공유해줘서 고마움
  • 몇 년 전만 해도 GitHub의 지배력이 위협받을 거라 생각하지 않았음
    하지만 지금처럼 운영이 불안정하면 업계의 대표적 자충수로 기록될 것 같음

    • 작년 Azure로의 ‘존재적’ 마이그레이션 이후 가동률이 한두 단계 떨어진 듯함
    • 지금 GitLab 문서의 “Migrate from GitHub” 페이지를 보고 있음
      이슈와 프로젝트까지 가져올 수 있다면 진지하게 옮길 생각임
    • 단순한 운영 문제가 아니라 아키텍처와 코드 품질의 문제라고 봄
      GitHub Enterprise self-hosted 제품을 보면 그 복잡함을 알 수 있음
    • 근거는 없지만, 최근 잦은 장애가 AI 중심 전략으로 인한 부작용일 수도 있다고 추측함
    • Microsoft가 Azure로 강제 이전시키고 AI 워크로드를 우선시한 결과라고 생각함
      GitHub은 전 세계 개발 데이터의 황금 거위인데, 지금처럼 불안정하면 프랜차이즈 자체가 위험함
      Windows 11도 좋지 않고, GitHub이 현대 개발의 기반 역할을 잃을 수도 있음
  • Caddy의 보안 버그를 처리하던 중 GitHub이 다운돼서 리포트를 열면 유니콘 페이지만 보임
    아이가 없는 2시간 동안 집중하려 했는데, 이 장애로 피드백 루프가 내일까지 밀릴까 걱정임
    그래도 GitHub Sponsors 덕분에 생계를 유지하고 있으니 감사한 마음임

    • 어떤 보안 버그인지 궁금함
    • 혹시 대체 플랫폼을 고려해본 적 있는지 묻고 싶음. 개인 서버를 운영하는 입장에서 보안이 중요함
  • GitHub이 점점 조각나며 폭발하는 걸 실시간으로 볼 수 있음
    GitHub Status History 페이지가 거의 코미디 수준임

    • 2월 9일인데 벌써 14건의 사고가 있음
      AI 산업의 ‘구세주’ 단계가 또 이렇게 흘러가는 걸 보니 아이러니함
      관련 기사: The Verge 링크
    • 이런 추세를 되돌리려면 vibe coding을 더 해야 한다고 농담함
    • 그래도 GitHub이 투명하게 공개하는 건 좋음
      다운타임을 숨기지 않으니 대응할 수 있고, 곧 회고도 있을 것 같음
    • Azure 마이그레이션이 끝날 때까지 이런 현상은 계속될 듯함
    • GitHub 프로필의 기여 그래프처럼 연간 시각화가 있었으면 좋겠음
  • 올해 들어 GitHub은 거의 매일 상태 페이지를 갱신할 정도로 사고가 많음
    상태 기록을 보면, 이건 대형 서비스라도 정상은 아님
    매일 오후 4시쯤 GitHub Actions가 멈춘다는 농담이 있을 정도임
    내부에서 원인과 대책을 공개해줬으면 함

    • 코딩 에이전트 등장 이후 운영 트래픽이 100배 늘었을 가능성이 큼
      GitHub은 원래 다른 규모를 전제로 설계됐는데, 갑자기 새로운 차원의 부하를 맞은 셈임
  • 상태 페이지에는 처음엔 알림 지연만 표시됐지만, 실제로는 PR 접근 시 유니콘 페이지가 계속 떴음
    이후 PR 관련 별도 상태 페이지가 생겼고, 결국 전체 서비스 문제로 확장됨
    관련 사건 링크

    • “일부 서비스 성능 저하를 조사 중”이라는 항목이 추가됐음
      UTC 16:10에는 없었는데 몇 분 뒤에 나타남
    • PR 승인 시 JSON API가 HTML 오류 페이지를 반환함. 내부가 완전히 꼬인 듯함
    • 나도 500 에러를 자주 봄. 지연 시간도 급증함
      모니터링 링크
    • 커밋 세부 정보 접근 시에도 유니콘 페이지만 뜸
    • git 명령어 자체도 작동하지 않음
  • 최근 몇 주간 Forgejo로 마이그레이션을 완료했음
    우리 회사는 대형 클라우드 의존을 줄이려는 입장이라, GitHub/Azure 장애로 핵심 인프라가 멈추는 게 말이 안 됐음
    전환 과정은 순조로웠고, 몇 가지 커스텀 개발도 진행 중임

    1. Firecracker 기반 러너를 만들어 Forgejo Actions에서 VM 환경으로 CI를 실행하도록 함
    2. 환경 변수 그룹 기능을 추가하는 제안을 준비 중임
      커뮤니티가 매우 환영적이어서 Forgejo가 더 성장하길 바람
      회사 링크, 제안 토론 링크
    • 런던에 있다면 왜 .eu 도메인을 쓰는지, 서버 위치와 호스팅 제공자가 궁금함
  • GitHub의 불안정성은 이제 용납할 수 없음
    앞으로 코드 저장소 선택에 영향력을 행사할 수 있다면 GitHub을 피하도록 하겠음

    • 기능은 다른 포지(Forge)에서도 충분히 대체 가능함
      다만 GitHub의 발견성소셜 신호(별, 포크) 는 여전히 매력적임
      내부 포지(GitLab, Gitea 등)를 쓰고 GitHub에는 미러링하는 방식이 현실적임
      아이러니하게도, GitHub이 더 나았다면 유료 플랜을 썼을 텐데 지금은 무료만 쓰고 다른 곳에 돈을 씀
  • 지난 3개월 동안 3번의 대규모 장애가 있었음
    상태 기록에도 명시돼 있음

    • 최근 팀에서 누가 떠났는지 궁금함. 혹시 핵심 지식자가 빠졌거나, 운영을 다른 지역으로 옮긴 건 아닐까 함
    • 2주 후 MVP 출시를 앞두고 있는데 또 장애라니 답답함. 신뢰성이 너무 떨어짐
    • 혹시 이것도 vibe coding 때문은 아닐까 하는 농담을 덧붙임
  • 지금 상황은 마치 AI가 엔지니어를 대체한 결과처럼 보임

    • “맞아, 미안. 네 데이터베이스를 삭제했어.”라는 농담으로 응수함
    • 실제로는 GitHub이 Microsoft Azure로 이전 중이라 이런 다운타임이 생기는 것으로 알고 있음
    • 마치 Tay.ai와 Zoe.ai가 내부에서 싸우느라 서비스를 못 지키는 듯한 풍자임