# GitHub: Git 작업 장애

> Clean Markdown view of GeekNews topic #24478. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=24478](https://news.hada.io/topic?id=24478)
- GeekNews Markdown: [https://news.hada.io/topic/24478.md](https://news.hada.io/topic/24478.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-11-20T04:33:35+09:00
- Updated: 2025-11-20T04:33:35+09:00
- Original source: [githubstatus.com](https://www.githubstatus.com/incidents/5q7nmlxz30sk)
- Points: 3
- Comments: 1

## Topic Body

- 2025년 11월 18일(UTC) GitHub에서 **모든 Git 작업 실패**가 발생해 SSH·HTTP 클라이언트와 원시 파일 접근이 중단됨  
- 문제의 원인은 **내부 서비스 간 통신에 사용된 TLS 인증서 만료**로 확인됨  
- GitHub은 만료된 인증서를 교체하고 영향을 받은 서비스를 재시작해 **정상 복구**를 완료함  
- 이후 **인증서 만료 감시 알림을 강화**하고, 수동으로 관리되는 인증서를 제거하는 **자동화 전환 작업**을 진행 중임  
- 이번 장애는 GitHub의 **Git Operations와 Codespaces**에 영향을 미쳤으며, 복구 후 모든 서비스가 정상 상태로 돌아옴  

---

### Git 작업 장애 보고서

- 2025년 11월 18일 20:30~21:34 UTC 동안 GitHub에서 **모든 Git 작업 실패**가 발생  
  - SSH 및 HTTP Git 클라이언트 상호작용, 원시 파일 접근이 모두 영향을 받음  
  - Git 작업에 의존하는 제품들도 동일하게 장애를 겪음  

- **원인**은 내부 서비스 간 통신에 사용된 **만료된 TLS 인증서**로 확인  
  - GitHub은 인증서를 교체하고 영향을 받은 서비스를 재시작하여 문제를 해결  
  - 서비스 재시작 후 **완전한 복구**가 이루어짐  

- GitHub은 향후 동일 문제 방지를 위해 **인증서 만료 알림 시스템을 보강**  
  - 관련 영역의 다른 인증서에 대해서도 **감시 및 자동화 점검**을 수행 중  
  - 남아 있는 **수동 관리 인증서 제거**와 **자동화된 서비스 간 통신 체계 구축**을 가속화  

### 장애 진행 및 복구 단계

- 20:39 UTC: Git 작업 및 Codespaces에서 **가용성 저하** 발생 보고  
- 20:52 UTC: 일부 Git HTTP 작업 실패 확인  
- 21:11 UTC: 모든 Git 작업 실패 현상 확인  
- 21:25 UTC: Codespaces의 **가용성 저하 지속**  
- 21:27 UTC: **원인 파악 완료**, 수정 작업 진행  
- 21:36 UTC: **수정 배포 후 일부 복구** 시작  
- 21:55 UTC: **모든 서비스 정상화**, Codespaces 복구 완료  
- 21:56 UTC: Git 작업 정상 운영 확인  
- 21:59 UTC: **사건 종료 및 보고서 게시**

### 영향받은 서비스

- **Git Operations**  
  - SSH 및 HTTP 기반 Git 작업 전반  
- **Codespaces**  
  - 일시적 가용성 저하 발생  

### 후속 조치

- **인증서 만료 감시 및 자동화 강화**  
  - 만료 전 경고 알림 체계 확립  
  - 모든 내부 인증서의 자동 갱신 프로세스 점검  
- **보안 및 운영 자동화 확대**  
  - 수동 인증서 관리 제거  
  - 최신 보안 관행에 부합하는 자동화된 서비스 간 통신 구축

## Comments



### Comment 46571

- Author: neo
- Created: 2025-11-20T04:33:36+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=45971726) 
- 최근 주요 **소프트웨어 시스템 장애**가 너무 자주 발생하는 것 같아 걱정스러움  
  작년에는 업무에 영향을 준 장애가 네 번뿐이었는데, 이번 분기에는 이미 네 번째임  
  네트워크 소프트웨어의 **복원력(resiliency)** 이 점점 사라지고 있는 느낌임  
  우리 팀은 모놀리식 구조지만 Redis, S3, 외부 통합 서비스 등 여러 의존성이 많음  
  그래서 장애 조건을 문서화하고, 테스트와 배포 자동화를 강화하고, 클라우드 대신 VPS로 옮기는 등 단순화를 진행했음  
  그 결과 시스템이 훨씬 안정적이고 예측 가능해졌음  
  이런 **지루하지만 필수적인 작업**이 없었다면 복잡성만 늘어 더 취약해졌을 것임  
  최근 겪은 장애는 AWS us-east-1, Azure Front Door, Cloudflare, 그리고 GitHub 장애였음
  - 결국 문제는 **돈**이라고 생각함  
    고객들은 복원력이나 중복 인프라에 돈을 쓰려 하지 않음  
    2008년 이후 10여 개 프로젝트를 해왔지만, 대부분 “그냥 운에 맡기자”는 태도였음
  - 동의함. 비용 절감이 결국 “장애가 와도 버티는 시스템을 만드는 법을 잊어버리는” 결과로 이어지고 있음
  - 일부러 도발적으로 말하자면, **LLM 사용 증가**도 이런 현상에 일조하고 있다고 봄

- Git은 **분산 버전 관리 시스템**이라 GitHub가 없어도 작업은 가능함  
  GitHub는 단지 편리한 허브일 뿐임
  - 단, GitHub Actions에 **전적으로 의존**한 회사라면 지금처럼 완전히 막힘
  - “이 에스컬레이터는 임시로 계단이 되었습니다. 불편을 드려 죄송합니다” 같은 상황임
  - 문제의 본질은 GitHub가 다운된 것이지, git 자체가 다운된 게 아님
  - GitHub가 없으면 다른 사람과의 **협업 허브** 기능을 잃게 됨
  - 지금 Hacker News에 있는 이유는, **일을 못 하고 있기 때문**임

- GitHub의 **신뢰성 부족**이 심각하다고 느낌  
  CI/CD에 의존하는 사람들에게는 치명적임  
  내부에서는 “우리 팀의 CI/CD가 깨졌다” 수준으로만 인식하고, “전 세계 절반이 멈췄다”는 관점이 부족함  
  이런 **사일로 문화**와 “우리 문제 아님” 태도가 신뢰성 저하로 이어짐  
  게다가 독점적 지위 덕분에 고객들도 어쩔 수 없이 참고 쓰는 구조임  
  예전 Verio, Verisign에서도 봤던 “어차피 다른 데 못 가잖아”식 태도와 같음

- 요즘 클라우드/SaaS 장애가 정말 **더 자주 발생**하는지 궁금함  
  단순히 보도가 많아진 건지, 실제로 빈도가 늘어난 건지 모르겠음  
  혹시 **예산 삭감, 인력 감축, AI 도입, 과도한 성장** 때문일까?
  - Microsoft는 GitHub를 Azure로 옮기면 해결될 거라고 믿는 듯함
  - 오래 써온 입장에서 보면 확실히 **장애 빈도 증가**를 체감함  
    예전엔 1년에 한두 번이었는데, 요즘은 거의 매달, 최근엔 매주 수준임
  - 어떤 사람은 Cloudflare 장애 때 “AI 기반 코딩 문화”가 이런 문제를 키운다고 말했음  
    작은 AI 코드 조각이 **도미노식 장애**를 유발할 수도 있음
  - [Techrights 기사](https://techrights.org/n/2025/08/12/Microsoft_Can_Now_Stop_R...)처럼,  
    **대규모 해고**가 신뢰성 저하에 영향을 줬다고 봄
  - AI로 인한 **FOMO(놓칠까 두려움)** 때문에 프로젝트 일정이 더 빡빡해지고,  
    결국 마지막 10%의 안정성 작업이 무시되는 것 같음

- 푸시가 안 돼서 처음엔 내 문제인 줄 알았음  
  그냥 오늘은 포기하고 내일 다시 하기로 함
  - 인증은 되는데 푸시가 안 돼서 정말 **머리 쥐어뜯는 경험**이었음
  - SSH 키를 새로 추가해도 소용없었음. 처음엔 이상한 에러만 나오더니 결국 “upstream unhealthy” 메시지
  - 나도 거의 환경을 **처음부터 다시 세팅**할 뻔했음

- 오늘은 일하기 싫었는데, Cloudflare에 이어 GitHub까지 터지니 그냥 쉬라는 **신호** 같음
  - 미국 중심의 **집중화된 기술 의존**이 문제임  
    더 많은 **기술 주권과 분산화**가 필요함

- 지난 5년간 써본 서비스 중 GitHub가 가장 **불안정**했음  
  GitLab이 더 나은지 궁금함. 이제 GitHub에 대한 신뢰는 거의 0임
  - 우리 회사는 GitLab을 **셀프호스팅** 중인데, Gitaly 서버가 자주 터짐  
    대형 모노레포 환경이라 그런 듯하지만 확실히 확장성 문제 있음
  - GitLab은 기능은 많지만 **통합이 엉성**하고 완성도가 낮음  
    그래도 리포지토리, CI/CD, 이슈, 위키를 한곳에 둘 수 있는 건 장점임
  - GitHub.com과 셀프호스팅 GitLab을 둘 다 쓰는데,  
    GitHub는 **클라우드 장애**에 취약하고, GitLab은 **자동 업그레이드 중단**이 잦음  
    각각 장단이 있음
  - GitLab은 **느리고 무겁다**는 게 문제임  
    JS를 몇 MB씩 불러오느라 저속 네트워크에서는 페이지가 거의 안 뜸
  - 온프레미스에 두면 원하는 만큼 **안정성 확보**가 가능함

- 긴급 상황에서는 GitHub 웹 UI에서 직접 파일을 수정할 수 있음  
  하지만 GH Actions의 `actions/checkout@v4`는 현재 git 문제로 작동 안 함
  - 사실 어떤 **SSH 가능한 호스트**로도 git push/pull이 가능함
  - 우리도 프로덕션 핫픽스 중이었는데 막혀버림. 요즘 인터넷에 무슨 일이 있는지 모르겠음
  - CircleCI도 GitHub SSH 키 인식 문제로 **git 작업 실패** 중임
  - 이번엔 GitHub AI가 githubstatus.com을 확인하라고 알려줘서 **의외로 도움**이 됨
  - GitHub UI에서 **브랜치 생성**은 가능한지 궁금함

- 지난 10년간 대기업과 스타트업을 오가며 본 **공통 패턴**이 있음  
  스타트업 → 엔터프라이즈 고객 대응 → 복잡한 재설계 → 이상주의 → 이익 추구 → 제품 비대화 → 핵심 엔지니어 이탈 → 품질 저하  
  이런 사이클이 클라우드 대기업들(AWS, Cloudflare, GCP 등)에도 반복됨  
  내부적으로도 각 서비스가 **작은 비즈니스 단위**로 쪼개져 이익 중심으로 움직임  
  결국 **기초 인프라조차 이윤 압박**으로 인해 약화되고 있음  
  “AWS나 GCP는 너무 커서 망하지 않겠지”라는 믿음이 위험하다고 느낌
  - 동의함. 엔터프라이즈 대응 과정에서 제품이 **복잡하고 둔해지는 건 필연적**임  
    하지만 초기 스타트업의 기술 부채와 보안 문제도 심각했음  
    결국 대규모 성장 과정에서 시스템의 **균열이 드러나는 건 자연스러운 일**임

- GitHub 상태 페이지에 “일부 사용자에게 문제가 발생할 수 있음”이라는 문구가 또 등장했음  
  하지만 실제로는 HTTPS뿐 아니라 **SSH 푸시도 전부 실패** 중임  
  - 상태 페이지 담당자들이 “일부 사용자”라는 표현을 벗어나지 못하는 듯함  
    **PR식 완곡어법** 대신 투명한 정보 공개가 오히려 신뢰를 높일 텐데 말임  
    게다가 상태 페이지 업데이트조차 늦는 경우가 많음
  - 내 친구는 잠깐 푸시가 됐다고 하지만, 대부분은 여전히 **fatal 에러** 상태임
