최근 주요 소프트웨어 시스템 장애가 너무 자주 발생하는 것 같아 걱정스러움
작년에는 업무에 영향을 준 장애가 네 번뿐이었는데, 이번 분기에는 이미 네 번째임
네트워크 소프트웨어의 복원력(resiliency) 이 점점 사라지고 있는 느낌임
우리 팀은 모놀리식 구조지만 Redis, S3, 외부 통합 서비스 등 여러 의존성이 많음
그래서 장애 조건을 문서화하고, 테스트와 배포 자동화를 강화하고, 클라우드 대신 VPS로 옮기는 등 단순화를 진행했음
그 결과 시스템이 훨씬 안정적이고 예측 가능해졌음
이런 지루하지만 필수적인 작업이 없었다면 복잡성만 늘어 더 취약해졌을 것임
최근 겪은 장애는 AWS us-east-1, Azure Front Door, Cloudflare, 그리고 GitHub 장애였음
결국 문제는 돈이라고 생각함
고객들은 복원력이나 중복 인프라에 돈을 쓰려 하지 않음
2008년 이후 10여 개 프로젝트를 해왔지만, 대부분 “그냥 운에 맡기자”는 태도였음
동의함. 비용 절감이 결국 “장애가 와도 버티는 시스템을 만드는 법을 잊어버리는” 결과로 이어지고 있음
일부러 도발적으로 말하자면, LLM 사용 증가도 이런 현상에 일조하고 있다고 봄
Git은 분산 버전 관리 시스템이라 GitHub가 없어도 작업은 가능함
GitHub는 단지 편리한 허브일 뿐임
단, GitHub Actions에 전적으로 의존한 회사라면 지금처럼 완전히 막힘
“이 에스컬레이터는 임시로 계단이 되었습니다. 불편을 드려 죄송합니다” 같은 상황임
문제의 본질은 GitHub가 다운된 것이지, git 자체가 다운된 게 아님
GitHub가 없으면 다른 사람과의 협업 허브 기능을 잃게 됨
지금 Hacker News에 있는 이유는, 일을 못 하고 있기 때문임
GitHub의 신뢰성 부족이 심각하다고 느낌
CI/CD에 의존하는 사람들에게는 치명적임
내부에서는 “우리 팀의 CI/CD가 깨졌다” 수준으로만 인식하고, “전 세계 절반이 멈췄다”는 관점이 부족함
이런 사일로 문화와 “우리 문제 아님” 태도가 신뢰성 저하로 이어짐
게다가 독점적 지위 덕분에 고객들도 어쩔 수 없이 참고 쓰는 구조임
예전 Verio, Verisign에서도 봤던 “어차피 다른 데 못 가잖아”식 태도와 같음
요즘 클라우드/SaaS 장애가 정말 더 자주 발생하는지 궁금함
단순히 보도가 많아진 건지, 실제로 빈도가 늘어난 건지 모르겠음
혹시 예산 삭감, 인력 감축, AI 도입, 과도한 성장 때문일까?
Microsoft는 GitHub를 Azure로 옮기면 해결될 거라고 믿는 듯함
오래 써온 입장에서 보면 확실히 장애 빈도 증가를 체감함
예전엔 1년에 한두 번이었는데, 요즘은 거의 매달, 최근엔 매주 수준임
어떤 사람은 Cloudflare 장애 때 “AI 기반 코딩 문화”가 이런 문제를 키운다고 말했음
작은 AI 코드 조각이 도미노식 장애를 유발할 수도 있음
AI로 인한 FOMO(놓칠까 두려움) 때문에 프로젝트 일정이 더 빡빡해지고,
결국 마지막 10%의 안정성 작업이 무시되는 것 같음
푸시가 안 돼서 처음엔 내 문제인 줄 알았음
그냥 오늘은 포기하고 내일 다시 하기로 함
인증은 되는데 푸시가 안 돼서 정말 머리 쥐어뜯는 경험이었음
SSH 키를 새로 추가해도 소용없었음. 처음엔 이상한 에러만 나오더니 결국 “upstream unhealthy” 메시지
나도 거의 환경을 처음부터 다시 세팅할 뻔했음
오늘은 일하기 싫었는데, Cloudflare에 이어 GitHub까지 터지니 그냥 쉬라는 신호 같음
미국 중심의 집중화된 기술 의존이 문제임
더 많은 기술 주권과 분산화가 필요함
지난 5년간 써본 서비스 중 GitHub가 가장 불안정했음
GitLab이 더 나은지 궁금함. 이제 GitHub에 대한 신뢰는 거의 0임
우리 회사는 GitLab을 셀프호스팅 중인데, Gitaly 서버가 자주 터짐
대형 모노레포 환경이라 그런 듯하지만 확실히 확장성 문제 있음
GitLab은 기능은 많지만 통합이 엉성하고 완성도가 낮음
그래도 리포지토리, CI/CD, 이슈, 위키를 한곳에 둘 수 있는 건 장점임
GitHub.com과 셀프호스팅 GitLab을 둘 다 쓰는데,
GitHub는 클라우드 장애에 취약하고, GitLab은 자동 업그레이드 중단이 잦음
각각 장단이 있음
GitLab은 느리고 무겁다는 게 문제임
JS를 몇 MB씩 불러오느라 저속 네트워크에서는 페이지가 거의 안 뜸
온프레미스에 두면 원하는 만큼 안정성 확보가 가능함
긴급 상황에서는 GitHub 웹 UI에서 직접 파일을 수정할 수 있음
하지만 GH Actions의 actions/checkout@v4는 현재 git 문제로 작동 안 함
사실 어떤 SSH 가능한 호스트로도 git push/pull이 가능함
우리도 프로덕션 핫픽스 중이었는데 막혀버림. 요즘 인터넷에 무슨 일이 있는지 모르겠음
CircleCI도 GitHub SSH 키 인식 문제로 git 작업 실패 중임
이번엔 GitHub AI가 githubstatus.com을 확인하라고 알려줘서 의외로 도움이 됨
GitHub UI에서 브랜치 생성은 가능한지 궁금함
지난 10년간 대기업과 스타트업을 오가며 본 공통 패턴이 있음
스타트업 → 엔터프라이즈 고객 대응 → 복잡한 재설계 → 이상주의 → 이익 추구 → 제품 비대화 → 핵심 엔지니어 이탈 → 품질 저하
이런 사이클이 클라우드 대기업들(AWS, Cloudflare, GCP 등)에도 반복됨
내부적으로도 각 서비스가 작은 비즈니스 단위로 쪼개져 이익 중심으로 움직임
결국 기초 인프라조차 이윤 압박으로 인해 약화되고 있음
“AWS나 GCP는 너무 커서 망하지 않겠지”라는 믿음이 위험하다고 느낌
동의함. 엔터프라이즈 대응 과정에서 제품이 복잡하고 둔해지는 건 필연적임
하지만 초기 스타트업의 기술 부채와 보안 문제도 심각했음
결국 대규모 성장 과정에서 시스템의 균열이 드러나는 건 자연스러운 일임
GitHub 상태 페이지에 “일부 사용자에게 문제가 발생할 수 있음”이라는 문구가 또 등장했음
하지만 실제로는 HTTPS뿐 아니라 SSH 푸시도 전부 실패 중임
상태 페이지 담당자들이 “일부 사용자”라는 표현을 벗어나지 못하는 듯함 PR식 완곡어법 대신 투명한 정보 공개가 오히려 신뢰를 높일 텐데 말임
게다가 상태 페이지 업데이트조차 늦는 경우가 많음
Hacker News 의견
최근 주요 소프트웨어 시스템 장애가 너무 자주 발생하는 것 같아 걱정스러움
작년에는 업무에 영향을 준 장애가 네 번뿐이었는데, 이번 분기에는 이미 네 번째임
네트워크 소프트웨어의 복원력(resiliency) 이 점점 사라지고 있는 느낌임
우리 팀은 모놀리식 구조지만 Redis, S3, 외부 통합 서비스 등 여러 의존성이 많음
그래서 장애 조건을 문서화하고, 테스트와 배포 자동화를 강화하고, 클라우드 대신 VPS로 옮기는 등 단순화를 진행했음
그 결과 시스템이 훨씬 안정적이고 예측 가능해졌음
이런 지루하지만 필수적인 작업이 없었다면 복잡성만 늘어 더 취약해졌을 것임
최근 겪은 장애는 AWS us-east-1, Azure Front Door, Cloudflare, 그리고 GitHub 장애였음
고객들은 복원력이나 중복 인프라에 돈을 쓰려 하지 않음
2008년 이후 10여 개 프로젝트를 해왔지만, 대부분 “그냥 운에 맡기자”는 태도였음
Git은 분산 버전 관리 시스템이라 GitHub가 없어도 작업은 가능함
GitHub는 단지 편리한 허브일 뿐임
GitHub의 신뢰성 부족이 심각하다고 느낌
CI/CD에 의존하는 사람들에게는 치명적임
내부에서는 “우리 팀의 CI/CD가 깨졌다” 수준으로만 인식하고, “전 세계 절반이 멈췄다”는 관점이 부족함
이런 사일로 문화와 “우리 문제 아님” 태도가 신뢰성 저하로 이어짐
게다가 독점적 지위 덕분에 고객들도 어쩔 수 없이 참고 쓰는 구조임
예전 Verio, Verisign에서도 봤던 “어차피 다른 데 못 가잖아”식 태도와 같음
요즘 클라우드/SaaS 장애가 정말 더 자주 발생하는지 궁금함
단순히 보도가 많아진 건지, 실제로 빈도가 늘어난 건지 모르겠음
혹시 예산 삭감, 인력 감축, AI 도입, 과도한 성장 때문일까?
예전엔 1년에 한두 번이었는데, 요즘은 거의 매달, 최근엔 매주 수준임
작은 AI 코드 조각이 도미노식 장애를 유발할 수도 있음
대규모 해고가 신뢰성 저하에 영향을 줬다고 봄
결국 마지막 10%의 안정성 작업이 무시되는 것 같음
푸시가 안 돼서 처음엔 내 문제인 줄 알았음
그냥 오늘은 포기하고 내일 다시 하기로 함
오늘은 일하기 싫었는데, Cloudflare에 이어 GitHub까지 터지니 그냥 쉬라는 신호 같음
더 많은 기술 주권과 분산화가 필요함
지난 5년간 써본 서비스 중 GitHub가 가장 불안정했음
GitLab이 더 나은지 궁금함. 이제 GitHub에 대한 신뢰는 거의 0임
대형 모노레포 환경이라 그런 듯하지만 확실히 확장성 문제 있음
그래도 리포지토리, CI/CD, 이슈, 위키를 한곳에 둘 수 있는 건 장점임
GitHub는 클라우드 장애에 취약하고, GitLab은 자동 업그레이드 중단이 잦음
각각 장단이 있음
JS를 몇 MB씩 불러오느라 저속 네트워크에서는 페이지가 거의 안 뜸
긴급 상황에서는 GitHub 웹 UI에서 직접 파일을 수정할 수 있음
하지만 GH Actions의
actions/checkout@v4는 현재 git 문제로 작동 안 함지난 10년간 대기업과 스타트업을 오가며 본 공통 패턴이 있음
스타트업 → 엔터프라이즈 고객 대응 → 복잡한 재설계 → 이상주의 → 이익 추구 → 제품 비대화 → 핵심 엔지니어 이탈 → 품질 저하
이런 사이클이 클라우드 대기업들(AWS, Cloudflare, GCP 등)에도 반복됨
내부적으로도 각 서비스가 작은 비즈니스 단위로 쪼개져 이익 중심으로 움직임
결국 기초 인프라조차 이윤 압박으로 인해 약화되고 있음
“AWS나 GCP는 너무 커서 망하지 않겠지”라는 믿음이 위험하다고 느낌
하지만 초기 스타트업의 기술 부채와 보안 문제도 심각했음
결국 대규모 성장 과정에서 시스템의 균열이 드러나는 건 자연스러운 일임
GitHub 상태 페이지에 “일부 사용자에게 문제가 발생할 수 있음”이라는 문구가 또 등장했음
하지만 실제로는 HTTPS뿐 아니라 SSH 푸시도 전부 실패 중임
PR식 완곡어법 대신 투명한 정보 공개가 오히려 신뢰를 높일 텐데 말임
게다가 상태 페이지 업데이트조차 늦는 경우가 많음