오늘은 아마존의 인재 유출로 인해 AWS가 마침내 망가진 날

(theregister.com)

44P by GN⁺ 8달전 | ★ favorite | 댓글 8개

이번 AWS US-EAST-1 지역 장애는 단순한 기술 결함이 아니라, 핵심 인력 유출로 인한 조직적 약화의 신호로 분석됨
장애의 원인은 여전히 고전적인 DNS 문제로 밝혀졌으며, DynamoDB API 엔드포인트 오류로 인해 다른 서비스가 연쇄적으로 중단됨
과거 시스템의 실패 패턴을 기억하는 베테랑 엔지니어들이 퇴사하면서 문제 식별과 복구 속도가 현저히 느려진 정황이 드러남
Amazon 내부의 대규모 감원과 높은 ‘유감 이직률(69~81%)’ 이 복합적으로 작용해 AWS의 운영 안정성이 흔들리고 있음
이는 기술 노후화가 아니라 사람의 부재로 인한 위기이며, AWS의 “한 번의 사고”가 아닌 지속적인 신뢰 붕괴의 전조로 해석됨

DNS 장애와 서비스 중단

오랜 기간 시스템 관리자들 사이에서 통용되던 "It's always DNS" 라는 농담처럼, 많은 서비스 장애의 중심에는 항상 DNS 이슈가 자리함
2025년 10월 20일 12:11AM(PDT), US-EAST-1 지역의 AWS 서비스 오류율 급증 보고
- 1:26AM, DynamoDB 엔드포인트 요청 실패가 본격화됨
- 2:01AM, DynamoDB API 엔드포인트의 DNS Resolution 오류가 원인으로 확인되어 다수의 종속 서비스가 연쇄 장애에 빠짐
DynamoDB는 AWS 인프라의 기반 서비스로, 해당 지역의 서비스가 무너지면 인터넷 전반이 영향을 받음
- 은행, 게임, SNS, 정부 서비스, Amazon.com 쇼핑 등 대규모 마비 발생
문제 인식 후 원인 규명까지 75분이 소요, 이는 AWS의 “모범적 복구 속도” 전통에 비춰볼 때 이례적으로 느린 대응임
- 장애 인지와 원인 식별까지 상당한 시간이 걸린 것은, 투명성 부족이라기보다 경험 부족에 기인함으로 분석됨
- 상태 페이지에는 이 시간 동안 “정상 운영 중” 메시지만 표시되어 커뮤니티의 비판을 받음

‘예언’의 실현: 퇴사자들의 경고

전통적으로 AWS는 리전 한 곳만 장애가 발생해도 크게 이슈화될 만큼 고도의 인프라 운영 능력을 자랑했으나, 복잡성이 크고, 과거와 유사한 이슈가 반복될수록 현장 경험이 중요
AWS 전직 엔지니어 Justin Garrison은 2023년 퇴사 시 “대규모 이벤트(LSE)가 증가하고 있다”고 경고함
- 그는 “2024년 중대 장애가 발생할 것”이라 예측했으며, 이번 사태가 이를 입증한 셈임
AWS 내 고위급 기술자들의 연쇄 퇴사가 지속되며,
수십 년간 축적된 트라이벌 지식(내부 경험 기반 지식) 이 함께 유실된 상황
DNS 장애처럼 단순히 기술적 원인을 아는 사람보다,
“이 시스템이 과거 비슷한 문제를 일으킨 적이 있었는가”를 기억하는 인력이 필요함
- 그러나 그 기억을 가진 이들이 RTO(복귀 정책) 반발과 감원으로 회사를 떠났음

인재 유출의 증거

2022~2025년 사이 27,000명 이상의 Amazon 직원이 감원되었으며,
부서별 비율은 비공개지만 AWS 역시 직접적인 타격을 입은 것으로 추정됨
내부 문건에 따르면 “유감 이직률”이 69~81% 에 달하며,
이는 “회사가 붙잡고 싶었던 인력”이 퇴사했음을 의미함
사무실 복귀 명령(Return to Office) 으로 인한 불만이 폭발하면서
숙련된 베테랑 엔지니어들이 대거 퇴사한 정황이 다수 보고됨
결과적으로 AWS는 경험이 부족한 저비용 팀으로 재편되어,
복잡한 인프라를 운용하는 능력이 점차 약화됨

구조적 문제: ‘프루갈리티’의 변질

과거 Amazon의 핵심 가치였던 Frugality(절약) 는
“적은 자원으로 효율을 극대화” 하는 철학이었음
그러나 최근에는 “거의 아무 자원 없이 모든 일을 처리”하는 의미로 변질됨
- 인력 감축으로 인해 기본적 유지보수마저 어려운 수준에 이르렀음
이는 “기술이 오래돼서가 아니라, 유지하는 사람이 새로워서 생긴 문제”임

향후 전망

시장은 이번 장애를 단발성으로 받아들이겠지만, 문제의 구조는 지속됨
- 경험 있는 인력이 떠나고, 시스템 복잡성은 커지며,
  “다음 사고”의 가능성이 점점 높아지는 순환 구조가 형성됨
AWS는 이번 사건을 “고립된 단일 장애”로 발표할 가능성이 높지만,
내부 공백이 누적되면 비슷한 대규모 장애가 반복될 위험이 큼
“닭들이 둥지로 돌아오는 중(chickens are coming home to roost)”이라는 표현처럼,
기술보다 인적 자본의 상실이 AWS의 최대 리스크로 떠오름

GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기

jjw9512151 8달전 [-]

사람사는데 다 똑같군요..

답변달기

botplaysdice 8달전 [-]

반대로 위에서는 '그렇게 많이 잘랐는데, 이정도로 수습이 되는구나...' 라고 생각할지도 모르죠

답변달기

tujuc 8달전 [-]

한국은 엔지니어들이 어느정도 되면 전부 메니저가 되어서 끊기고...
미국은 효율화라는 명목아래 시니어들을 다 짤라버려서 문제고...
참 쉽지 않네요...

답변달기

t7vonn 8달전 [-]

multi-az 까지는 해놨는데.. 리전단위 장애 준비도 해놔야되려나요..

답변달기

skageektp 8달전 [-]

그 비용이 손실 비용보다 정말 큰지도 고려해야한다고 생각합니다.

답변달기

shakespeares 8달전 [-]

모든 시장에서 통용되는 이야기네요.
IT 기술의 노하우를 숙련 용접공의 노하우와 비슷하게 대우 해야 하는 것 같은데 말이죠.

답변달기

bus710 8달전 [-]

얼마 전에 본 글 중에
아마존에서 시니어 엔지니어 레벨2에서 그 다음 넘어가는게 정말 어렵다는 얘기가 떠오르네요 왠지.
저 유감 퇴직 같은 일이 저 구간에서 특히 많이 발생하지 않을까 싶습니다.

답변달기

GN⁺ 8달전 [-]

Hacker News 의견

엔지니어 직원들과 창고 일꾼들 사이에서, 이제 직원들을 계속 해고하다 보면 차라리 예전에 이 회사에서 일해봤던 사람들마저 다 떠나는 날도 머지 않았다는 생각이 듦
아무리 수십만 명의 H1-B 엔지니어 후보자와 수천만 명의 불법 이민 창고 일꾼이 있더라도, 이렇게 큰 기업이 빠르게 대량 해고를 해버리면 결국 사람 자원이 바닥날 수밖에 없음
이 상황이 Robot Chicken의 스타워즈 패러디 에피소드가 떠오름. 거기서 임페리얼 오피서들이 다스베이더가 포스초크를 하는 척하고 죽은 척해서 광선검에 썰리지 않으려고 도망가고, 그 뒤 다른 이름으로 다시 돌아오는데, Amazon은 이보다 더함. 아무도 다시 돌아오고 싶어하지 않음
https://www.youtube.com/watch?v=fFihTRIxCkg
- 솔직히 말해, 그나마 실력 있는 엔지니어라면 Amazon에서 두 번 다시 일하고 싶어하는 경우는 못 봤음
- 창고에 정말 불법 이민자가 그렇게 많음? Amazon은 신분 대조하고 서류도 꼼꼼히 확인하는 걸로 아는데, 가끔 신분 도용하는 사람도 있을 순 있어도 그게 많을 것 같진 않음
- 해고만이 문제가 아니라, Amazon이 전면 RTO 시행하자마자 리크루터 이메일 폭탄을 엄청나게 받았던 기억이 있음
- H-1B라는 이유만으로 엔지니어 실력에 대한 선입견이 들어가는 분위기가 있는 듯함
  예전에 나도 H-1B로 일했고, 지금은 인도로 돌아가 내 비즈니스를 꾸리고 있음. Amazon 출신임. 힘든 곳이었지만, 90년대 중반 그때는 스톡옵션이 있어 일할 만했음
  아마 여기 있는 사람 중 상당수보다 내가 코딩 더 잘할 자신 있음. 그나마 내 주변 H-1B 출신이 진짜 실력자였던 경우도 많았음
  선입견을 가지지 말고 실력을 직접 평가해야 함. 경쟁자를 과소평가하면 결국 스스로 손해임
지금이야말로 직원들을 지키고, 그들이 일 잘할 수 있도록 최고의 도구를 제공해주는 미래가 답임
개발 툴은 매일 발전하고 있고, 당장은 인원 감축을 할 수도 있지만 효과가 바로 나오진 않을 것임
미래의 성장과 조직의 지속 가능성을 담보로 현재를 버티는 셈임. 착각해봐야 다운사이징이 더 잘되진 않음
- 실제로는 전략이 잘 먹히는 것처럼 보임. 주니어 프린서플 엔지니어의 4분의 1을 해고했지만 주가는 올랐고, 그 후 대규모 장애가 있었을 때도 주가는 오히려 또 올랐음. 당장 그들의 전략은 잘 돌아가는 것처럼 보임
- 이젠 예전의 “신생” 빅테크 기업들도 IBM처럼 늙은 대기업 시대로 들어서고 있음
- 이직율이 나쁘다는 걸 모르는 게 아니라, 아예 필드를 기획할 때부터 직원 전반을 평균적인 수준으로 평준화하고, 서로 대체 가능한 인간 리소스로 만들어버리는 방향 같음
  이제는 그저 실력이 뛰어나다는 것마저도 “카우보이 문화”로 치부하는 지경임
실제 장애 해결이 시작된 시점이 미국 서부 시작 시간과 맞아떨어지는 게 상당히 의심스러웠음
그 전 업데이트는 “모니터링 중, 완화 작업 진행”이라며 구체적인 정보가 없었음
- 내가 알기로는 복구가 시애틀 시간으로 새벽 4시쯤인 것 같았음. 업무 시작은 보통 9시인데, 어쩌면 뉴욕 기준으론 오전 6시쯤 시작된 걸지도 모르겠음
- 오늘 아침 Reddit에서 읽은 글이 이제 와서 더 의미 있게 느껴짐
AWS는 여전히 내가 가장 선호하는 클라우드이고, 정말 효율적으로 잘 쓰고 있음
나도 한 번쯤 AWS에서 일해보고 싶다는 생각을 했지만, 몇 가지 우려가 해결되었는지 확실하지 않으면 생각이 많아짐

험한 기업 문화 소문과, 매니저가 직원을 그 문화로부터 지켜야 한다는 점 (전체 Amazon이나 화이트칼라까지 바로 못 고치더라도 최소한 AWS 내 팀부터 구직자 신뢰를 높이는 방향 필요함)
경력 많은 엔지니어도 의미 없는 코딩 스크리닝이나 리더십 원칙에 관한 STAR 답변 면접이 필수임
예비 매니저가 이런 과정에서조차 후보자를 보호 못 한다면, 더 심각한 기업 문화 문제에서도 보호를 못할 것 같다는 우려
RTO 전환과, 고위 원칙과 맞지 않은 방식으로 처리했다는 주장이 있음
Principal 돼야 당직에서 벗어난다는 것 같은데, 그렇다고 해도 동료들에게 과부하가 가지 않게 해야 하며, 서로 수면 스케줄 다르다고 어색함 생기지 않도록 배려 필요함
요즘 FAANG 전체에 적용할 만한 아이디어가 있는데, 원래 실력있는 사람들이 가고 싶은 곳이라는 인식을 계속 새롭게 심어줄 필요가 있음
Meta는 주로 더 높은 페이와 오픈소스·오픈 하드웨어 릴리즈 등으로 브랜딩했고, Google은 기술 우위와 따뜻한 기업 문화를 강조해왔음(A.K.A. 신입 수련 문화, 현재는 형식적이지만)
AWS도 이미 자랑할 만한 기술 인재가 많고, 이들을 잘 유치하고 유지하는 데에 투자하면서 업계에 이런 이미지를 적극적으로 알릴 필요가 있다고 생각함

스타트업에서도 똑같은 일 본 적 있음
인수 후에는 핵심 인재들이 주식이 베스트 되거나, 대기업이 자리에 다른 사람 앉히려고 내쫓는 경우가 많음
기술을 정말 아는 사람들은 다 떠나고, 결국 유지 불가한 엉망진창 코드베이스만 남게 되어 아무도 고칠 줄 모르는 문제가 생김
El Reg가 사태의 본질을 정확하게 꼬집어주는 점이 너무 마음에 듦
- 기사 쓴 사람이 Corey Quinn이란 거, AWS 관련해서 글 많이 써온 걸 이제야 눈치챘음
- 글쓴이들이 위트와 개성을 잘 살려서 글을 쓰는 점도 좋아함
- 이 사람들은 무슨 일이든 본질을 제대로 찔러줌
“문제가 발생하여 75분 만에 특정 서비스 엔드포인트로 원인을 좁혔다”
이게 그렇게 오래 걸린 일일까? 난 웹 개발은 아니지만, 75분 만에 어디서 문제인지 찾아낸 거면 꽤 빠른 거라고 느껴짐
예전에 펌웨어 엔지니어로 일할 땐 어디서 망가졌는지 찾는 데 몇 주씩 걸리는 경우도 많았음
- 실제로 문제 발생 빈도가 0.01%고, 아무 연관성도 없으며, 재시도하면 사라지는 문제라면 진짜 몇 주가 걸릴 수도 있음
  하지만 이런 건 대개 높은 우선순위 사건이 아니고, 실제로 급한 사고는 반복 가능하고, 한 시간 전까지 멀쩡했던 게 갑자기 터지는 경우임
  일반적으로 제대로 설계된 사업 핵심 시스템이라면 75분 이상 진단에 안 걸림. 물론, 고치는데는 그보다 더 걸릴 수 있음
  현실에서 그런 이상적인 시스템이 흔하다곤 할 수는 없겠지만
- 일반 회사라면 75분이 길지 않을 수 있음. 하지만 전 세계 최대 클라우드에서 인터넷의 많은 부분이 마비된 거라면 얘기가 다름
- 실제론 공식 공지에 ‘아직 조사 중’이라 썼지만, 실제 내부적으로는 그보다 더 빠르게 원인을 유추했을 수도 있음
  업데이트를 서두르게 내면 사용자들이 불필요하게 오해할 수 있으니 조심하는 게 맞음
- 내 생각엔 75분이면 어떤 중대한 문제의 진단으로도 거의 최상급 속도임
- Amazon은 업계 최고 수준의 인프라를 갖고 있다고 알려짐
  다른 기업들 모두 Amazon 인프라를 쓰는 만큼, SRE급 인재들이 이런 사고를 정말 빠르게 잡아내야 한다고 기대함
조직 내에서 사라져가는 경험지와 노하우야말로, 그냥 엑셀 시트에 적어 넣기도 어려운 진짜 중요한 가치임
- 하지만, 그럼 그 노하우가 도대체 몇 줄 코드로 환산이 가능한지, 혹은 토큰 개수라도 산출해야 우리가 해고 시에 참고 자료로 쓸 수 있음!
조직이 진짜 실력자와 장기 근속 전문가보다 자신만의 브랜드를 키우는 사람이거나 보여주기식 채용을 우선하면서, 실제로 시스템을 이해하는 기술 코어 인력이 밀려나기 시작함
이런 불균형이 AWS처럼 커지면, LinkedIn 셀럽과 체크리스트형 DEI 인사가 진짜 빌더를 압도하게 되고, 실행 품질, 책임감, 기술적 완성도가 점차 약화됨
지금은 Andy Jassy 리더십이 효과가 없다는 게 슬슬 확실해지는 시점이며, 머지않아 월가가 교체를 공식적으로 요구할지도 모르겠음
- 증거 하나 없이 DEI 때문에 장애가 났다고 탓하는 게 신기함
The Register가 존경받는 언론사라는 얘기에, 사실 그들은 그렇게 불리고 싶어하지 않을 걸…싶은 느낌임

답변달기

오늘은 아마존의 인재 유출로 인해 AWS가 마침내 망가진 날

DNS 장애와 서비스 중단

‘예언’의 실현: 퇴사자들의 경고

인재 유출의 증거

구조적 문제: ‘프루갈리티’의 변질

향후 전망

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견