AWS 북버지니아 데이터센터 장애

▲

GN⁺ 3시간전 | parent | ★ favorite | on: AWS 북버지니아 데이터센터 장애 - 해결됨(cnbc.com)

Hacker News 의견들

AWS US-East 1은 계속 인터넷의 아킬레스건임
여러 리전과 가용 영역에 걸쳐 구축할 수는 있지만, AWS는 US-East 1 문제가 더 넓은 영향을 내는 사고를 반복해 왔고, AWS가 암시하는 것만큼 중복성과 복원력이 높지 않게 만듦
- AWS 서비스가 완전히 리전별로 분리되어 있다는 생각은 늘 신화에 가까웠음
  중국 외 퍼블릭 클라우드의 모든 식별·접근 서비스, 즉 직원들이 말하는 “aws 파티션용 IAM”은 us-east-1에 중앙화되어 있음. 계정, 과금, 권한을 일관되게 보려면 사실상 이런 중앙화가 필요함
  IAM도 완전히 독립된 소프트웨어 스택이 아니고 DynamoDB 등 몇몇 서비스에 의존하며, 그 서비스들은 다시 IAM에 순환 의존함
  us-east-1 장애 중에는 다른 리전에서 기존 인증 토큰이나 세션을 계속 쓰는 것은 가능할 때가 있지만, 새 토큰을 발급하지 못할 수 있음. 예전에 근무할 때는 장애가 끝날 때까지 잠길 수 있다며 온콜에게 SSH 세션이나 AWS 콘솔 브라우저 탭을 닫지 말라고 한 적도 기억남
- 다들 그렇게 말하지만 이번 건은 단일 가용 영역 문제였음
  지난 3년간 스타트업을 거의 use-1에서 운영했는데 리전 장애는 한 번뿐이었고, 그마저도 부분 장애라 대부분 인스턴스는 영향이 없었음
  솔직히 고객들의 것도 전부 use-1에 있으니 장애가 고객과 상관관계를 갖는다는 장점은 있음
- 너무 많은 사람이 쓰고 있음
  환상의 마법 나라에서는 부하가 여러 클라우드 제공자에 고르게 분산되고, 단일 장애 지점은 존재하지 않음
  첫 여자친구와도 잘 풀렸고, 쌍둥이는 영어와 한국어에 능통하며, 대규모 서비스를 배포할 때 AWS 하나에만 의존하면 안 된다는 것도 앎
  미국 의료비도 감당 가능함. 하지만 현실은 또 하루가 지나고, AWS US-East 1 하나가 인터넷 대부분을 쓰러뜨릴 수 있음
- 복원력을 위해 여러 리전과 가용 영역을 쓴다면 용량세를 낼 준비가 필요함
  2개 리전이면 2배 용량, 3개 리전이면 1.5배 용량을 준비해야 하고, 다중 리전 구성에서 머신을 이미 실행 중이어야 함. 장애 중에 인스턴스를 띄우거나 용량을 확보할 수 있을 거라 기대하면 안 되며, 다중 리전 호스팅의 추가 복잡성도 감당해야 함
- 들은 바로는 us-east-1에서 넘어온 사람들 때문에 us-east-2에도 연쇄 영향이 있었던 것 같음
  여러 리전/가용 영역 구성이 이렇게 노골적으로 겉치레처럼 보이는데도, 다 같이 클라우드 종교의 신조처럼 믿고 있는 모습이 좀 웃김
이런 베팅은 위험함. AWS를 다운시킬 수 있는 직원 같은 사람이 베팅을 할 수 있기 때문임
이런 베팅은 보기만큼 무해하지 않은데, 베팅한 사람이 결과에 영향을 주거나 바꿀 수 있는 경우가 많음
- 빅테크가 돈이나 사회적 지위만 신경 쓰는 사람이 아니라 윤리적인 엔지니어를 뽑아서 참 다행임
- 정작 모든 베팅 사이트가 US-East1 위에 있으면 말짱 도루묵임
- AWS가 내려가서 베팅 웹사이트 자체가 닫히는 상황도 상상 가능함
  전체적으로는 이런 예측 시장이 내부자 거래와 부정적 시나리오를 유인할 수 있다는 주장에 동의함. 그런 상황을 이용해 이익을 얻을 동기가 생김
데이터센터의 냉각은 거의 미리 계획되어 있고, 냉각 가능한 것보다 더 많이 설치하지 않는 줄 알았음
여기서는 냉각 장비가 고장 난 건지, 과열에 외부 원인이 있었던 건지, 아니면 Amazon이 데이터센터 냉각 용량을 초과 예약하는 건지 궁금함
- 지붕에 여러 중복 냉각기, 각 층에 여러 중복 냉각 장치가 있는 데이터센터에서 일한 적이 있는데, 어떤 식으로든 급수 배관이 고장 나자 건물 전체 냉각이 한꺼번에 멈췄음
  자세한 원인은 말해주지 않았지만 각 층과 지붕 사이 배관은 중복화되어 있지 않았던 듯하고, 수리에 거의 24시간이 걸렸음
- 거의 확실히 장비 고장 문제임
  데이터센터 냉각은 다른 모든 것처럼 과잉 provision과 과소 provision이 동시에 존재함
  큰 열교환 장비는 N+1이고, 매우 중요한 소규모 부하 시설에서는 2N/3N으로 구성되므로 과잉 provision임. 정기 점검을 위해 내려야 하고, 전통적인 데이터센터 부품보다 고장률이 높으며, 전문 인력과 긴 조달 시간이 필요한 기계 수리가 필요하기 때문임
  큰 시설에서는 N이 커질수록 냉각이 N+3 이상인 것도 드물지 않음. 항상 뭔가를 정비 중이거나, 더 이상 존재하지 않는 부품을 선반으로 새로 만들어야 해서 전체 장비 교체보다 싸기 때문에 부품을 기다리는 장치가 생김
  반대로 시설의 모든 컴퓨팅 용량이 평균 전력 사용량에서 갑자기 100%로 올라가면 냉각 용량을 초과하게 되므로 과소 provision이기도 함. 전기와 다른 경로도 흔히 초과 부하가 걸리며, 업계의 본질이 과잉 판매에 가까움
  보통은 큰 문제가 되지 않음. 컴퓨팅 부하가 전체 용량의 100%까지 치솟는 일은 드물고, 치솟아도 오래가지 않으며, 냉각이나 전력 용량을 칼날 위에 놓고 시설을 만들지는 않기 때문임
  문제는 여러 사건이 교차할 때 생김. 평균 부하의 200%를 처리하도록 냉각 시스템을 설계해 유지보수와 장애에 충분한 여유가 있음
  화요일에 수리 기사가 장비 하나를 보러 왔다가 베어링 불량을 찾고, 다른 주에서 부품을 가져와야 해서 팬 어셈블리를 망가뜨릴 위험을 피하려고 밤새 장비를 꺼둠
  인접한 냉각 장치 둘이 조금 더 세게 일하다가, 그중 하나에 살짝 불균형한 모터나 헐거워져 열이 나던 퓨즈가 있었고, 몇 년간 잘 버티던 부품이 늘어난 가동률 때문에 터짐
  이제 N+2 시설에서 두 대가 빠졌지만, 평균 부하 200% 기준이라 아직 치명적이지 않음
  첫 고장 장치 반대편의 세 번째 장치도 부하가 커진 상태에서 결함이 터지면 N+2 시설에서 세 대가 빠짐. 그래도 평균 부하 200%로 설계했으니 아직 대참사는 아님
  그런데 새벽 4시라 현장 운영자는 이 결함을 고칠 수 없고, 업체는 7시에야 일어나 9시에야 도착함. 그 사이 부하가 올라가기 시작함
  이런 일은 미국 어딘가의 데이터센터에서 매일 일어나고, 아마 모든 데이터센터에서 1년에 한 번쯤은 생김
  다음에 일어나는 사건의 합류가 뉴스를 만드는 부분임. 큰 고객 하나가 지금이 대규모 일괄 처리 작업을 시작하기 좋은 시간이라고 판단함. 어떤 핀테크가 장 시작 전에 큰 모델을 돌리거나, 석유 회사가 새 유전에 대한 빠른 분석을 돌림
  VM 10,000개를 새로 띄움. 평소라면 남는 용량이 있으니 괜찮음
  하지만 냉각은 평균 냉각 용량의 200%로 계획했을 뿐이고, 이번 노드는 적당히 바쁜 노드가 아니라 최적화된 고강도 수치 계산을 수행해 최대 전력을 끌어 쓰고 최대 폐열을 내는 노드임
  전체 머신 수 기준 부하뿐 아니라 평균 폐열 영향도 커짐. 그러면 연쇄 장애가 터지고 냉각은 N-4가 됨
  서버 팬이 더 빨리 돌기 시작해 전력을 더 먹고, 냉각은 N-5가 됨. 경보가 사방에서 울림
  냉각 장치의 안전장치가 부하와 냉매 압력 상승으로 차례로 작동하면서 냉각은 N-6, N-7, 그리고 0이 됨
- 데이터센터의 냉각 루프 하나가 고장 난 것임
- 비슷한 주제는 여기서 듣기 좋음: https://signalsandthreads.com/the-thermodynamics-of-trading/
올해 EU에서는 Hetzner가 AWS보다 가동 시간이 더 좋았는지 궁금함
- OVH는 왜 사랑받지 못하는지 모르겠음
  Hetzner의 UI는 너무 헷갈려서 관리하기 어렵다고 느낌
관련 글: AWS EC2 outage in use1-az4 (us-east-1)
https://news.ycombinator.com/item?id=48057294
늘 East 1임. 농담은 제쳐두고, east-1이 다른 리전에 비해 왜 이렇게 자주 내려가는지 이해가 안 됨
아키텍처상으로는 다른 리전과 꽤 비슷해야 할 것 같음
- east one이 핵심 데이터센터이자 가장 오래된 곳 아닌가 싶음
  다른 리전보다 부하가 더 크고, 처음 만들 때 경험이 적었으니 기술 부채와 아키텍처/엔지니어링 부채도 더 많을 것 같음
  기억상 IAM이나 일부 S3 구성처럼 east-1을 단일 장애 지점으로 의존하는 서비스도 있음
- 가장 오래된 리전 시스템이고, 내부 인증 기관이 거기에 있는 것처럼 구조적으로 중요한 역할이 있음
- 재밌게도 이런 글이 있었음
  
  AWS in 2025: The Stuff You Think You Know That’s Now Wrong
  us-east-1 is no longer a merrily burning dumpster fire of sadness and regret.
  — https://www.lastweekinaws.com/blog/aws-in-2025-the-stuff-you...
  그 외에는 좋은 글임
Coinbase는 여러 가용 영역이 내려갔다고 했지만, AWS 발표는 단일 가용 영역만 영향받았다는 내용이었음
더 자세히 아는 사람이 있는지 궁금함
- Coinbase가 X에서 거래소를 지연 시간 때문에 한 가용 영역에서만 운영했다고 확인함: https://x.com/i/status/2052855725857329254
- 암호화폐 회사가 정직할 거라고 믿으면 안 됨
- 공식 출처는 못 찾겠지만 폭발 반경이 해당 가용 영역에만 한정되지는 않은 것 같음
  us-east-1에서 시스템을 돌리고 있는데, 사고 중 az4 밖에서도 전에 본 적 없는 설명하기 어려운 간헐적 연결 문제가 보였음
- East-1이 내려가면 항상 다른 가용 영역의 일부도 같이 영향을 받음. 늘 뭔가가 East-1에 의존하기 때문임
- 저녁 내내 리전 전체가 터지나 싶어 SLI 그래프를 보고 있었지만 결국 그렇게 되지는 않았음
  여러 환경 중 몇 개에서 단일 가용 영역의 EBS 볼륨이 조금 나빠졌을 뿐이고, 확실히 단일 가용 영역(use-az4) 문제였음
지난번에 “친구라면 친구가 USE1을 쓰게 두지 않는다”는 말을 봤는데, Slack에 USE1과 거기에 배포한 것들이 전부 망가졌다는 메시지가 뜨자 그 말이 떠올랐음
여기 댓글에는 us-east-1이 중앙화되어 있고 AWS의 단일 장애 지점이며 고쳐야 하고 거기에 올리지 말라는 익숙한 얘기가 많음
이번 일은 다중 영역 리전 안의 한 영역에 있는 데이터센터 하나의 문제였음
IAM/R53 등은 거기에 중앙화되어 있고, 그 서비스를 탈중앙화·교차 리전 구조로 바꾸는 건 좋은 일임. 하지만 us-east-1 자체는 이미 6개 영역, 2026년 예정인 7번째 영역까지 있는 다중 영역 리전이고, 영역 안에도 여러 데이터센터가 있음
기억상 IAM 같은 전역 서비스가 내려갈 때는 “교차 리전이었다면 죽지 않았을 것”이라기보다 구현이나 의존성 버그인 경우가 더 많음
이번에는 AWS 전역 서비스 장애가 아니었음. 더 큰 영향을 받은 것으로 보인 건 MSK 정도였고, 그건 AWS 관련이라기보다 Kafka 쪽 문제일 가능성이 큼
왜 이런 것을 바다 근처에 짓지 않는지 궁금함. 원자력 발전소처럼 냉각 용량이 많이 필요한 시설도 그렇지 않나 싶음
열교환기를 둔 2루프 순환으로 열을 빼내면 될 것 같음
- Ashburn VA가 데이터센터 허브가 된 이유는 세계 최초의 비정부 인터넷 교환 지점이 거기에 있었기 때문임(https://en.wikipedia.org/wiki/MAE-East)
  1990년대에는 전 세계 인터넷 트래픽의 절반가량이 MAE-East를 거쳤고, 그 결과 AWS가 첫 리전을 거기에 두었음. us-east-1은 eu-west-1보다 2년, us-west-1보다 3년 먼저 나왔음
  데이터센터를 지을 줄 아는 사람과 공급할 줄 아는 업체가 많아지면서 Dulles Corridor는 여러 회사 데이터센터의 주요 허브가 됨
  AWS에서는 us-east-1이 첫 리전이라 압도적으로 가장 복잡하고 이상하며, 다른 AWS 서비스의 많은 제어 평면이 여기에 의존하게 됨. 그래서 다른 리전보다 자주 내려가고, 내려가면 스페인의 eu-south-2와 달리 전국 뉴스가 됨
  NoVA는 공장이 아니라 데이터센터에 대한 사례일 뿐, Paul Krugman이 노벨 경제학상을 받은 연구 주제와 같은 종류의 경제 클러스터임
- 서로 다른 데이터센터 두 곳에서 중대한 과열 장애를 겪은 적이 있음
  하나는 Hosting.com의 SOMA 데이터센터가 너무 뜨거워져 지붕에서 호스로 물을 뿌려 식혔던 사건이고, 다른 하나는 Alibaba의 Chai Wan 데이터센터가 너무 뜨거워져 제어 평면을 포함해 거기서 돌던 모든 것이 내려간 사건임
  그래서 바다와 가깝다고 비상 방열 측면에서 추가 이점이 생기지는 않는다고 봄. 열을 밖으로 빼내는 용량은 정해져 있고, 바닷가에 있든 Nebraska 한가운데 있든 전체 시스템이 특정 성능을 만족하도록 설계되어야 함
- 석사 과정에서 데이터센터 수업을 들었는데, 교수는 미국 중부의 더운 지역 데이터센터를 예로 들며 이상적인 시나리오와 비교했음
  슬라이드에는 데이터센터 입지 결정에 영향을 주는 요소들이 있었고, 충분한 공간과 그 데이터센터에서 일할 숙련 인력을 찾는 항목이 여럿 포함되어 있었음. 때로는 다음 데이터센터 위치 선정에 정치가 개입된다고도 했음
- 떠오르는 것만 적어보면, 해수 수준의 소금이 들어간 물 시스템은 유지보수 비용이 훨씬 비쌈. 2차 루프도 마찬가지임
  해안 토지는 훨씬 비싸고, 외딴 해안 지역으로 가면 전력 접근성이 좋지 않을 가능성이 큼
  해안 부지는 보통 더 심한 기상 현상에 노출됨
  예측하기 어려운 일도 있음. Diablo Canyon 원전은 잔해와 해파리 이동 때문에 해수 냉각 취수구가 막히는 문제를 겪었음
  https://www.nbcnews.com/news/world/diablo-canyon-nuclear-pla...
- 바다에는 소금이 있음. 소금물은 일반 물보다 전자장비에 훨씬 나쁨
  물이 충분히 깊어야 하고, 그렇지 않으면 표면 온도까지 데워짐. 또한 전통적인 증발 냉각과 가격 경쟁력이 있어야 함
  이 방식이 잘 되는 교과서적 사례는 Toronto임. 해안에서 비교적 가까운 곳에 깊은 담수호가 있고, 도심은 부동산이 비싸 전통적인 방식이 막혀 있음
  https://en.wikipedia.org/wiki/Deep_Lake_Water_Cooling_System