3P by princox 8시간전 | ★ favorite | 댓글 1개

Claude Code 장애, Boris Cherny의 사후 회고: “개인의 실수가 아닌, 프로세스의 문제”

Claude Code 창시자 Boris Cherny(@bcherny)가 3월 31일 발생한 Claude 서비스 장애에 대해 짧지만 인상적인 코멘트를 남겼다.
“실수는 생깁니다. 팀으로서 중요한 건 이게 특정 개인의 잘못이 아니라는 점을 인식하는 것입니다 — 프로세스, 문화, 또는 인프라의 문제입니다. 이번 경우엔 자동화됐어야 할 수동 배포 단계가 있었습니다. 팀이 자동화 개선을 몇 가지 적용했고, 몇 가지는 진행 중입니다.”

무슨 일이 있었나?

3월 31일 17:45 UTC부터 4월 1일 05:52 UTC까지 Claude Opus 4.6, Sonnet 4.6에 타임아웃이 급증하는 장애가 발생했다.  Downdetector 기준으로 오전 8시 30분(PT)에 2,400명 이상의 사용자가 문제를 보고했으며, 대부분은 Claude Chat 관련 이슈였다. 
원인은 배포 자동화가 미흡했던 수동 배포 단계였다고 Cherny가 직접 밝혔다.

눈에 띄는 것은 장애 자체보다 반응 방식

Cherny의 코멘트는 엔지니어링 문화에서 말하는 블레임리스 포스트모템(blameless postmortem) 철학을 그대로 담고 있다. 구글, 넷플릭스 같은 SRE(사이트 신뢰성 엔지니어링) 문화에서 오랫동안 강조해온 원칙 — “개인을 처벌하면 문제가 숨어버린다, 시스템을 고쳐야 한다” — 을 Claude Code 팀이 실천하고 있음을 보여준다.

빠르게 성장하는 AI 서비스에서 수동 배포 단계 하나가 대규모 장애로 이어질 수 있다는 것, 그리고 그것을 공개적으로 인정하고 자동화로 응답한다는 것은 소규모 팀이든 대형 서비스든 되새길 만한 포인트다.
참고
∙ Claude 공식 상태 페이지(status.claude.com)에 따르면 장애는 완전히 해소됐다. 
∙ 원문 트윗: https://x.com/bcherny/status/2039210700657307889​​​​​​​​​​​​​​​​

유출 경로라기보다는, 유출 경위...라고 써야할 듯 한데 글 수정이 안되네요.