필수 서비스들, 특히 대중교통이 클라우드에 완전히 의존하고 백업이 없는 게 여전히 놀라움
네덜란드에서는 오늘 총선 투표일인데, Azure 장애로 기차가 몇 시간 동안 지연되거나 취소되어 투표를 못 한 사람도 있었음
투표가 하루만 진행되는지 궁금함. 하루만 한다면 이런 문제는 언제든 생길 수 있음. 여러 날에 걸쳐 하는 이유가 분명 있을 것 같음
2025년인데도 여전히 직접 투표소에 가야 한다는 게 믿기지 않음. 나는 20년 넘게 우편투표를 해왔고, 1개월 전에 투표용지를 받아 우편으로 보냄. 언젠가는 온라인 투표로 종이 낭비를 없애길 바람
투표일은 국경일로 지정해야 한다고 생각함
하지만 두 개의 클라우드에 배포하면 세금 낭비라며 비난받음. 결국 신뢰성과 비용 절감 중 하나를 선택해야 함
뉴질랜드도 이번 장애에서 자유롭지 못했음. 정부의 RealME 서비스(세금 신고, 여권 신청 등)가 멈춰 큰 혼란이 있었음
Azure 상태 페이지 공지에 따르면 Azure Status에서 16:00 UTC경 Front Door 문제로 일부 서비스가 중단됨
포털 접근이 안 되는 고객은 PowerShell이나 CLI로 접근하라고 안내했고, AFD에서 포털을 분리해 복구 중이라고 함
17:17 UTC 업데이트에서는 잘못된 설정 변경이 원인일 가능성이 높다고 밝힘. 모든 변경을 차단하고 이전 정상 상태로 롤백 중이라고 함
유럽 지역에서는 AFD가 자주 지역 단위로 다운됨. 절반 이상은 공식적으로 보고조차 안 됨
DNS가 언급된 걸 보니 예전 AWS 장애와 유사한지 궁금함
상태 메시지에서는 AFD 문제를 인정했지만, 포털을 AFD 의존 없이 돌리려는 조치만 언급됨. AFD를 쓰는 우리는 장기전이 될지도 모름
포털뿐 아니라 microsoft.com도 다운됨
Starbucks 모바일 주문이 안 돼서 Grubhub로 주문하려 했더니 거기도 다운이었음. 결국 HN에 와서 원인을 찾았음
HN은 지하실 서버 몇 대로 돌고 있어서 클라우드보다 더 안정적인 듯함
sysadmin subreddit이 HN보다 한 시간 이상 빠르게 장애를 포착함. 온콜 엔지니어들이 즉시 알아차림
예전 AWS 장애 때도 Starbucks 앱이 멈췄었음
드라이브스루 줄이 안 움직이길래 이상했는데, 이 때문이었음
내 Netatmo 공기질 센서도 알림이 멈췄음. 집 안 데이터인데 왜 굳이 클라우드를 거쳐야 하는지 의문임
Azure 장애는 AWS 장애만큼 충격적이지 않음.
처음엔 Microsoft 생태계의 수직 통합이 매력적이었지만, 실제로 써보니 리소스 할당이 너무 불편해서 AWS로 돌아감
지금은 GCP를 한 번도 안 써봤지만 차라리 그게 낫겠다는 생각임
예전에 Azure를 처음 써봤을 때, 메뉴가 화면 전체를 덮을 정도로 복잡했음. 그때 처음으로 클라우드에서 길을 잃는 느낌을 받았음
솔직히 GCP는 꽤 괜찮음. 더 많은 사람들이 써봤으면 함
하지만 규제가 심한 산업에서는 Microsoft만 허용됨. AWS나 GCP는 아예 고려 대상이 아님
Microsoft는 공공 부문 규제 대응을 잘해서 정부 기관 고객이 많음. 그래서 Azure 장애가 공공 서비스에 더 큰 영향을 줌
사실 MS가 다운돼도 Github가 멀쩡하면 눈치 못 챌 수도 있음
지금 결제 시스템이 멈춰서 반쯤 닫힌 슈퍼마켓 안에 서 있음
예전에 일하던 마트는 오프라인 모드가 있어서 결제 승인 실패 시 고객이 공짜로 물건을 가져가는 일이 있었음
우리 동네 Family Dollar는 인터넷 문제로 한 달에 이틀은 항상 멈춤. 내가 백업 링크를 제공하고 매출의 절반을 받는다면 서로 윈윈일 듯함
이번 슈퍼마켓은 완전 다운은 아니었지만, 결제 단계에서 타임아웃이 걸린 듯 매우 느렸음
90년대 기계식 계산대가 전자식으로 바뀌던 시절이 떠오름. 요즘은 카드 단말기가 부팅 루프에 빠져 꽃값을 현금으로 냈음. 파트너는 점원이 세금 없이 현금을 챙기려는 거라고 농담함
어떤 소매점이든 최소한 오프라인 결제 기능은 있어야 한다고 생각함
이제는 Google Cloud Run이나 Cloudflare Workers로 옮길까 생각 중임
개인적으로는 Hetzner가 가격 대비 성능이 좋아 신뢰감이 있음
관련 비교 영상도 있었고, vpspricetracker.com 같은 사이트에 Geekbench 점수가 함께 있으면 좋겠음
Hetzner도 괜찮지만 Google 수준의 안정성은 아닐 것 같음
혹시 multi-provider로 구성하는 게 낫지 않을까 생각함
참고로 4개월 전 Cloudflare 장애도 Google Cloud 문제에서 비롯된 적이 있었음
지난 2년간 서비스를 천천히 Azure에서 옮기고 있음.
마지막 남은 건 정적 자산 버킷과 Matomo 분석용 VM뿐인데, Front Door 경험이 너무 끔찍했음. 오늘 일로 완전히 Cloudflare로 옮기기로 결심함
사실 올해는 모든 클라우드가 큰 장애를 겪었음. 이제는 어느 곳도 절대적 신뢰성을 보장하지 못함
그래도 이런 위기 상황을 기회로 삼는 게 중요함
login.microsoftonline.com이 다운돼서 SSO가 전사적으로 멈춤. microsoft.com도 같이 죽었음
미국 테넌트에서는 로그인 흐름이 멈추지만, 유럽(특히 germany-west)에서는 정상 작동함
우리 회사는 SSO와 365는 괜찮지만 관리 포털만 접속 불가임
이제는 NASSO(Not A Single Sign On) 상태라고 농담함
요즘 Office 365 장애가 거의 주간 단위로 발생하는데, 여전히 이걸 도입하는 게 신기함
Hacker News 의견
필수 서비스들, 특히 대중교통이 클라우드에 완전히 의존하고 백업이 없는 게 여전히 놀라움
네덜란드에서는 오늘 총선 투표일인데, Azure 장애로 기차가 몇 시간 동안 지연되거나 취소되어 투표를 못 한 사람도 있었음
Azure 상태 페이지 공지에 따르면 Azure Status에서 16:00 UTC경 Front Door 문제로 일부 서비스가 중단됨
포털 접근이 안 되는 고객은 PowerShell이나 CLI로 접근하라고 안내했고, AFD에서 포털을 분리해 복구 중이라고 함
Starbucks 모바일 주문이 안 돼서 Grubhub로 주문하려 했더니 거기도 다운이었음. 결국 HN에 와서 원인을 찾았음
Azure 장애는 AWS 장애만큼 충격적이지 않음.
처음엔 Microsoft 생태계의 수직 통합이 매력적이었지만, 실제로 써보니 리소스 할당이 너무 불편해서 AWS로 돌아감
지금은 GCP를 한 번도 안 써봤지만 차라리 그게 낫겠다는 생각임
지금 결제 시스템이 멈춰서 반쯤 닫힌 슈퍼마켓 안에 서 있음
이제는 Google Cloud Run이나 Cloudflare Workers로 옮길까 생각 중임
개인적으로는 Hetzner가 가격 대비 성능이 좋아 신뢰감이 있음
관련 비교 영상도 있었고, vpspricetracker.com 같은 사이트에 Geekbench 점수가 함께 있으면 좋겠음
지난 2년간 서비스를 천천히 Azure에서 옮기고 있음.
마지막 남은 건 정적 자산 버킷과 Matomo 분석용 VM뿐인데, Front Door 경험이 너무 끔찍했음. 오늘 일로 완전히 Cloudflare로 옮기기로 결심함
login.microsoftonline.com이 다운돼서 SSO가 전사적으로 멈춤. microsoft.com도 같이 죽었음
VSCode 다운로드가 실패함
다운로드 링크가 먹통임
우리 팀은 100% Azure 기반이지만 이번 장애의 영향은 없음
1년 전 Front Door를 버리고 나서부터 안정적임. 예전엔 새 배포 때마다 문제가 생겼고, 한 번은 홈페이지에 Microsoft 배너가 뜨는 황당한 일도 있었음