문제 발생 즉시 상태 페이지를 업데이트한 점이 인상적이었음
Claude Code를 쓰다가 API 에러가 나서 상태 페이지를 확인했더니 실제로 장애가 표시되어 있었음
이런 투명한 대응은 모든 서비스가 기본적으로 해야 할 일이라고 생각함
사용자 영향이 시작되자마자 사건을 공개하는 습관은 Google과 Anthropic에서 SRE로 일하며 몸에 밴 본능임
마침 개인적으로 Claude를 쓰고 있던 덕분에 장애의 심각도를 바로 파악할 수 있었음
나도 문제를 겪고 2분 만에 상태 페이지를 확인했는데 이미 업데이트되어 있었음
529 에러를 디버깅 중이었는데, 이번 장애 때문에 한동안 혼란스러웠음
나도 같은 상황이었고, 상태 페이지를 보고 바로 업데이트 구독을 눌렀음
Claude 사용자들은 일요일 저녁에도 열심히 일하는 듯함
나는 이번 사건 대응 엔지니어 중 한 명임
14:43 PT / 22:43 UTC 기준으로 문제를 완화했음. 불편을 끼쳐 죄송함
나도 같은 팀의 엔지니어로, 원인은 네트워크 라우팅 설정 오류였음
중복된 경로 광고로 인해 일부 추론 백엔드로의 트래픽이 블랙홀로 빠졌음
탐지까지 약 75분이 걸렸고, 일부 완화 경로가 예상대로 작동하지 않았음
잘못된 경로는 제거되었고 서비스는 복구됨
앞으로는 synthetic monitoring과 인프라 변경 가시성을 강화해 더 빠르게 잡을 예정임
Cloudflare처럼 사건 분석 리포트를 공개할 계획이 있는지 궁금함
투명성 덕분에 Cloudflare를 더 신뢰하게 되었음
꼭 Claude에게 물어봐야 할 때 작동하지 않아서 난감했음
주말 잘 마무리하길 바람
개발자 입장에서 단순히 궁금한데, 대규모 배포 환경에서 어떤 식으로 문제가 생기는지 더 알고 싶음
50년 후 스팀펑크 디스토피아를 상상해봄
“LLM 호스팅이 멈추자 전 세계 생산이 중단되고 시장이 붕괴됨. Sam, 들리나?”
이 생각만 해도 웃김
모두가 동일한 세 개의 중앙화된 추론 제공자를 쓴다는 건, 지금 모두가 us-east-1과 Cloudflare 뒤에 있는 것만큼이나 비현실적임
인터넷이나 Cloudflare가 다운되는 상황과 다를 바 없을 듯함
Karpathy가 이런 장애를 ‘지능 정전(intelligence brownout)’ 이라 부른 게 기억남
관련 영상: YouTube Shorts
“상징 조작에 능한 외로운 코더만이 인류와 어둠 사이에 남았다” 같은 문장이 떠오름
“우리가 문제를 vibe 코딩으로 만들어냈는데, 이제 LLM이 다운돼서 vibe로 고칠 수 없다”는 농담이 나올 법함
Claude.ai 채팅에서 이런 메시지를 받았음
"You have reached the messages quota for your account. It will reset in 2 hours, or you can upgrade now"
타이밍이 절묘하게 맞았거나, 아니면 수익화 담당자가 보너스를 받아야 할 듯함
아마도 에러 핸들링이 제대로 구현되지 않은 듯함
백엔드가 429/402 에러를 던지지 않거나, 게이트웨이가 이를 잘못 처리해 잘못된 메시지를 반환한 것 같음
나도 같은 메시지를 봤는데 단순히 타이밍 문제인 줄 알았음
Opus 4.5를 중단하면 울 것 같음
이미 API 크레딧을 더 달라고 하는 사람들이 중독자처럼 보였음
모두 가격에 꽤 만족하고 있는 듯함
장애 직전 Opus가 이상하게 긴 응답을 내기 시작했음
단순한 질문에도 전체 코드베이스를 토해내듯 답했고, 데이터베이스 스키마 관련 간단한 질문에서도 두 번이나 압축이 일어났음
Hacker News 의견들
문제 발생 즉시 상태 페이지를 업데이트한 점이 인상적이었음
Claude Code를 쓰다가 API 에러가 나서 상태 페이지를 확인했더니 실제로 장애가 표시되어 있었음
이런 투명한 대응은 모든 서비스가 기본적으로 해야 할 일이라고 생각함
마침 개인적으로 Claude를 쓰고 있던 덕분에 장애의 심각도를 바로 파악할 수 있었음
Claude 사용자들은 일요일 저녁에도 열심히 일하는 듯함
나는 이번 사건 대응 엔지니어 중 한 명임
14:43 PT / 22:43 UTC 기준으로 문제를 완화했음. 불편을 끼쳐 죄송함
중복된 경로 광고로 인해 일부 추론 백엔드로의 트래픽이 블랙홀로 빠졌음
탐지까지 약 75분이 걸렸고, 일부 완화 경로가 예상대로 작동하지 않았음
잘못된 경로는 제거되었고 서비스는 복구됨
앞으로는 synthetic monitoring과 인프라 변경 가시성을 강화해 더 빠르게 잡을 예정임
투명성 덕분에 Cloudflare를 더 신뢰하게 되었음
50년 후 스팀펑크 디스토피아를 상상해봄
“LLM 호스팅이 멈추자 전 세계 생산이 중단되고 시장이 붕괴됨. Sam, 들리나?”
이 생각만 해도 웃김
관련 영상: YouTube Shorts
Claude.ai 채팅에서 이런 메시지를 받았음
타이밍이 절묘하게 맞았거나, 아니면 수익화 담당자가 보너스를 받아야 할 듯함
백엔드가 429/402 에러를 던지지 않거나, 게이트웨이가 이를 잘못 처리해 잘못된 메시지를 반환한 것 같음
Opus 4.5를 중단하면 울 것 같음
장애 직전 Opus가 이상하게 긴 응답을 내기 시작했음
단순한 질문에도 전체 코드베이스를 토해내듯 답했고, 데이터베이스 스키마 관련 간단한 질문에서도 두 번이나 압축이 일어났음
canivibe.ai — 어떤 서비스를 쓰느냐에 따라 vibe를 맞출 수 있을지도 모름
혹시 이번이 AWS 장애였던 건 아닌지 궁금함
상태 페이지 기준으로는 이제 복구된 것 같음
에이전트가 같은 오류 루프에 갇혔다가 이번엔 결과를 제대로 내는 걸 봤음
이런 장애를 자동으로 탐지하는 규칙이 추가된 게 아닐까 싶고, 꽤 영감을 주는 대응이었음