Azure 장애
(news.ycombinator.com)- Microsoft의 클라우드 서비스 Azure에서 장애(outage) 가 발생한 사실이 보고됨
 - Hacker News 게시물은 사용자가 직접 장애 발생을 알리는 공지 형태로 작성됨
 - 장애의 원인, 영향 범위, 복구 상태 등은 본문에 구체적으로 언급되지 않음
 - 게시물은 Azure 서비스 이용자들의 주의 환기를 목적으로 함
 - 클라우드 인프라 의존도가 높은 기업과 개발자에게 운영 리스크 인식의 중요성을 상기시키는 사례임
 
Azure 서비스 장애 보고
- Hacker News의 “Tell HN: Azure outage” 게시물은 Azure 플랫폼의 장애 발생 사실을 알림
 - 본문 내용은 추출되지 않아 세부 원인, 영향 지역, 서비스 종류 등은 확인 불가
 - 게시물 형식상, 사용자가 직접 장애를 목격하고 커뮤니티에 공유한 형태로 보임
 
추가 정보
- Microsoft Azure는 전 세계적으로 사용되는 클라우드 컴퓨팅 서비스임
 - 본문에 복구 진행 상황이나 공식 발표 내용은 포함되지 않음
 - 원문에 추가 정보 없음
 
Hacker News 의견
- 
필수 서비스들, 특히 대중교통이 클라우드에 완전히 의존하고 백업이 없는 게 여전히 놀라움
네덜란드에서는 오늘 총선 투표일인데, Azure 장애로 기차가 몇 시간 동안 지연되거나 취소되어 투표를 못 한 사람도 있었음- 투표가 하루만 진행되는지 궁금함. 하루만 한다면 이런 문제는 언제든 생길 수 있음. 여러 날에 걸쳐 하는 이유가 분명 있을 것 같음
 - 2025년인데도 여전히 직접 투표소에 가야 한다는 게 믿기지 않음. 나는 20년 넘게 우편투표를 해왔고, 1개월 전에 투표용지를 받아 우편으로 보냄. 언젠가는 온라인 투표로 종이 낭비를 없애길 바람
 - 투표일은 국경일로 지정해야 한다고 생각함
 - 하지만 두 개의 클라우드에 배포하면 세금 낭비라며 비난받음. 결국 신뢰성과 비용 절감 중 하나를 선택해야 함
 - 뉴질랜드도 이번 장애에서 자유롭지 못했음. 정부의 RealME 서비스(세금 신고, 여권 신청 등)가 멈춰 큰 혼란이 있었음
 
 - 
Azure 상태 페이지 공지에 따르면 Azure Status에서 16:00 UTC경 Front Door 문제로 일부 서비스가 중단됨
포털 접근이 안 되는 고객은 PowerShell이나 CLI로 접근하라고 안내했고, AFD에서 포털을 분리해 복구 중이라고 함- 17:17 UTC 업데이트에서는 잘못된 설정 변경이 원인일 가능성이 높다고 밝힘. 모든 변경을 차단하고 이전 정상 상태로 롤백 중이라고 함
 - 유럽 지역에서는 AFD가 자주 지역 단위로 다운됨. 절반 이상은 공식적으로 보고조차 안 됨
 - DNS가 언급된 걸 보니 예전 AWS 장애와 유사한지 궁금함
 - 상태 메시지에서는 AFD 문제를 인정했지만, 포털을 AFD 의존 없이 돌리려는 조치만 언급됨. AFD를 쓰는 우리는 장기전이 될지도 모름
 - 포털뿐 아니라 microsoft.com도 다운됨
 
 - 
Starbucks 모바일 주문이 안 돼서 Grubhub로 주문하려 했더니 거기도 다운이었음. 결국 HN에 와서 원인을 찾았음
- HN은 지하실 서버 몇 대로 돌고 있어서 클라우드보다 더 안정적인 듯함
 - sysadmin subreddit이 HN보다 한 시간 이상 빠르게 장애를 포착함. 온콜 엔지니어들이 즉시 알아차림
 - 예전 AWS 장애 때도 Starbucks 앱이 멈췄었음
 - 드라이브스루 줄이 안 움직이길래 이상했는데, 이 때문이었음
 - 내 Netatmo 공기질 센서도 알림이 멈췄음. 집 안 데이터인데 왜 굳이 클라우드를 거쳐야 하는지 의문임
 
 - 
Azure 장애는 AWS 장애만큼 충격적이지 않음.
처음엔 Microsoft 생태계의 수직 통합이 매력적이었지만, 실제로 써보니 리소스 할당이 너무 불편해서 AWS로 돌아감
지금은 GCP를 한 번도 안 써봤지만 차라리 그게 낫겠다는 생각임- 예전에 Azure를 처음 써봤을 때, 메뉴가 화면 전체를 덮을 정도로 복잡했음. 그때 처음으로 클라우드에서 길을 잃는 느낌을 받았음
 - 솔직히 GCP는 꽤 괜찮음. 더 많은 사람들이 써봤으면 함
 - 하지만 규제가 심한 산업에서는 Microsoft만 허용됨. AWS나 GCP는 아예 고려 대상이 아님
 - Microsoft는 공공 부문 규제 대응을 잘해서 정부 기관 고객이 많음. 그래서 Azure 장애가 공공 서비스에 더 큰 영향을 줌
 - 사실 MS가 다운돼도 Github가 멀쩡하면 눈치 못 챌 수도 있음
 
 - 
지금 결제 시스템이 멈춰서 반쯤 닫힌 슈퍼마켓 안에 서 있음
- 예전에 일하던 마트는 오프라인 모드가 있어서 결제 승인 실패 시 고객이 공짜로 물건을 가져가는 일이 있었음
 - 우리 동네 Family Dollar는 인터넷 문제로 한 달에 이틀은 항상 멈춤. 내가 백업 링크를 제공하고 매출의 절반을 받는다면 서로 윈윈일 듯함
 - 이번 슈퍼마켓은 완전 다운은 아니었지만, 결제 단계에서 타임아웃이 걸린 듯 매우 느렸음
 - 90년대 기계식 계산대가 전자식으로 바뀌던 시절이 떠오름. 요즘은 카드 단말기가 부팅 루프에 빠져 꽃값을 현금으로 냈음. 파트너는 점원이 세금 없이 현금을 챙기려는 거라고 농담함
 - 어떤 소매점이든 최소한 오프라인 결제 기능은 있어야 한다고 생각함
 
 - 
이제는 Google Cloud Run이나 Cloudflare Workers로 옮길까 생각 중임
개인적으로는 Hetzner가 가격 대비 성능이 좋아 신뢰감이 있음
관련 비교 영상도 있었고, vpspricetracker.com 같은 사이트에 Geekbench 점수가 함께 있으면 좋겠음- Hetzner도 괜찮지만 Google 수준의 안정성은 아닐 것 같음
 - 혹시 multi-provider로 구성하는 게 낫지 않을까 생각함
 - 참고로 4개월 전 Cloudflare 장애도 Google Cloud 문제에서 비롯된 적이 있었음
 
 - 
지난 2년간 서비스를 천천히 Azure에서 옮기고 있음.
마지막 남은 건 정적 자산 버킷과 Matomo 분석용 VM뿐인데, Front Door 경험이 너무 끔찍했음. 오늘 일로 완전히 Cloudflare로 옮기기로 결심함- 사실 올해는 모든 클라우드가 큰 장애를 겪었음. 이제는 어느 곳도 절대적 신뢰성을 보장하지 못함
 - 그래도 이런 위기 상황을 기회로 삼는 게 중요함
 
 - 
login.microsoftonline.com이 다운돼서 SSO가 전사적으로 멈춤. microsoft.com도 같이 죽었음
- 미국 테넌트에서는 로그인 흐름이 멈추지만, 유럽(특히 germany-west)에서는 정상 작동함
 - 우리 회사는 SSO와 365는 괜찮지만 관리 포털만 접속 불가임
 - 이제는 NASSO(Not A Single Sign On) 상태라고 농담함
 - 요즘 Office 365 장애가 거의 주간 단위로 발생하는데, 여전히 이걸 도입하는 게 신기함
 
 - 
VSCode 다운로드가 실패함
다운로드 링크가 먹통임- 오늘 winget도 간헐적으로 실패함. UniGetUI를 쓰는데, Microsoft 관련 패키지만 목록 갱신이 안 됨
 - Azure DevOps의 저장소도 접근 불가라 작업이 멈춤
 - 차라리 VSCodium을 쓰라는 제안도 있음
 
 - 
우리 팀은 100% Azure 기반이지만 이번 장애의 영향은 없음
1년 전 Front Door를 버리고 나서부터 안정적임. 예전엔 새 배포 때마다 문제가 생겼고, 한 번은 홈페이지에 Microsoft 배너가 뜨는 황당한 일도 있었음- Front Door OriginTimeout 문제를 1년 넘게 겪다가 결국 이전함. 하지만 API 서버는 여전히 AFD 뒤에 있어서 이번에도 영향 받음
 - 장애보다 더 심각한 건 콘텐츠 오염 문제임. 구독하지도 않은 Microsoft 배너가 뜨는 건 좀 심각한 일임