1P by GN⁺ 2일전 | ★ favorite | 댓글 1개
  • Claude 플랫폼에서 여러 모델의 오류율이 상승한 상태로 보고됨
  • 사용자는 이메일 또는 문자로 장애 발생 및 해결 알림을 구독할 수 있음
  • 문자 알림은 전 세계 국가 코드 목록을 통해 각국 번호로 등록 가능함
  • 구독자는 OTP(일회용 비밀번호) 인증을 거쳐 문자 업데이트를 받을 수 있음
  • Anthropic이 운영하는 Claude 서비스의 장애 상황 모니터링 체계를 보여주는 사례임

Claude 서비스 장애 공지

  • Claude 상태 페이지에서 여러 모델에서 오류율이 높아진 상태가 공지됨
    • “Elevated errors across many models”라는 문구로 표시
    • 구체적인 원인이나 영향 범위에 대한 설명은 없음

알림 구독 방식

  • 사용자는 이메일 또는 문자(SMS)를 통해 장애 업데이트 알림을 받을 수 있음
    • 이메일은 사건이 업데이트될 때마다 통보
    • 문자는 Claude가 사건을 생성하거나 해결할 때마다 발송

문자 알림 등록 절차

  • 문자 알림을 받기 위해서는 국가 코드 선택 → 휴대폰 번호 입력 → OTP 인증 절차 필요
    • OTP(일회용 비밀번호)를 입력해 번호를 검증해야 함
    • 인증 후 문자 업데이트 수신 가능

지원 국가 목록

  • 페이지에는 전 세계 대부분의 국가 코드 목록이 포함되어 있음
    • 예: 미국(+1), 한국(+82), 일본(+81), 영국(+44), 독일(+49) 등
    • 각국 사용자들이 동일한 절차로 문자 알림을 받을 수 있음

서비스 상태 모니터링의 의미

  • Claude 상태 페이지는 Anthropic 서비스의 실시간 장애 현황을 공개하는 창구 역할
    • 사용자에게 투명한 장애 알림 및 복구 진행 상황 공유 기능 제공
    • 개발자 및 기업 고객이 서비스 가용성을 즉시 파악할 수 있는 체계임
Hacker News 의견들
  • 문제 발생 즉시 상태 페이지를 업데이트한 점이 인상적이었음
    Claude Code를 쓰다가 API 에러가 나서 상태 페이지를 확인했더니 실제로 장애가 표시되어 있었음
    이런 투명한 대응은 모든 서비스가 기본적으로 해야 할 일이라고 생각함

    • 사용자 영향이 시작되자마자 사건을 공개하는 습관은 Google과 Anthropic에서 SRE로 일하며 몸에 밴 본능임
      마침 개인적으로 Claude를 쓰고 있던 덕분에 장애의 심각도를 바로 파악할 수 있었음
    • 나도 문제를 겪고 2분 만에 상태 페이지를 확인했는데 이미 업데이트되어 있었음
    • 529 에러를 디버깅 중이었는데, 이번 장애 때문에 한동안 혼란스러웠음
    • 나도 같은 상황이었고, 상태 페이지를 보고 바로 업데이트 구독을 눌렀음
      Claude 사용자들은 일요일 저녁에도 열심히 일하는 듯함
  • 나는 이번 사건 대응 엔지니어 중 한 명임
    14:43 PT / 22:43 UTC 기준으로 문제를 완화했음. 불편을 끼쳐 죄송함

    • 나도 같은 팀의 엔지니어로, 원인은 네트워크 라우팅 설정 오류였음
      중복된 경로 광고로 인해 일부 추론 백엔드로의 트래픽이 블랙홀로 빠졌음
      탐지까지 약 75분이 걸렸고, 일부 완화 경로가 예상대로 작동하지 않았음
      잘못된 경로는 제거되었고 서비스는 복구됨
      앞으로는 synthetic monitoring과 인프라 변경 가시성을 강화해 더 빠르게 잡을 예정임
    • Cloudflare처럼 사건 분석 리포트를 공개할 계획이 있는지 궁금함
      투명성 덕분에 Cloudflare를 더 신뢰하게 되었음
    • 꼭 Claude에게 물어봐야 할 때 작동하지 않아서 난감했음
    • 주말 잘 마무리하길 바람
    • 개발자 입장에서 단순히 궁금한데, 대규모 배포 환경에서 어떤 식으로 문제가 생기는지 더 알고 싶음
  • 50년 후 스팀펑크 디스토피아를 상상해봄
    “LLM 호스팅이 멈추자 전 세계 생산이 중단되고 시장이 붕괴됨. Sam, 들리나?”
    이 생각만 해도 웃김

    • 모두가 동일한 세 개의 중앙화된 추론 제공자를 쓴다는 건, 지금 모두가 us-east-1과 Cloudflare 뒤에 있는 것만큼이나 비현실적임
    • 인터넷이나 Cloudflare가 다운되는 상황과 다를 바 없을 듯함
    • Karpathy가 이런 장애를 ‘지능 정전(intelligence brownout)’ 이라 부른 게 기억남
      관련 영상: YouTube Shorts
    • “상징 조작에 능한 외로운 코더만이 인류와 어둠 사이에 남았다” 같은 문장이 떠오름
    • “우리가 문제를 vibe 코딩으로 만들어냈는데, 이제 LLM이 다운돼서 vibe로 고칠 수 없다”는 농담이 나올 법함
  • Claude.ai 채팅에서 이런 메시지를 받았음

    "You have reached the messages quota for your account. It will reset in 2 hours, or you can upgrade now"
    

    타이밍이 절묘하게 맞았거나, 아니면 수익화 담당자가 보너스를 받아야 할 듯함

    • 아마도 에러 핸들링이 제대로 구현되지 않은 듯함
      백엔드가 429/402 에러를 던지지 않거나, 게이트웨이가 이를 잘못 처리해 잘못된 메시지를 반환한 것 같음
    • 나도 같은 메시지를 봤는데 단순히 타이밍 문제인 줄 알았음
  • Opus 4.5를 중단하면 울 것 같음

    • 이미 API 크레딧을 더 달라고 하는 사람들이 중독자처럼 보였음
    • 모두 가격에 꽤 만족하고 있는 듯함
  • 장애 직전 Opus가 이상하게 긴 응답을 내기 시작했음
    단순한 질문에도 전체 코드베이스를 토해내듯 답했고, 데이터베이스 스키마 관련 간단한 질문에서도 두 번이나 압축이 일어났음

  • canivibe.ai — 어떤 서비스를 쓰느냐에 따라 vibe를 맞출 수 있을지도 모름

    • 사이트는 멋지지만 Discord 같은 채팅 앱에서는 임베드가 잘 안 됨
    • 가용성이 89%라니, 좀 농담 같은 수치
    • “Vibedetector”라는 이름이 딱 어울림
  • 혹시 이번이 AWS 장애였던 건 아닌지 궁금함

  • 상태 페이지 기준으로는 이제 복구된 것 같음
    에이전트가 같은 오류 루프에 갇혔다가 이번엔 결과를 제대로 내는 걸 봤음
    이런 장애를 자동으로 탐지하는 규칙이 추가된 게 아닐까 싶고, 꽤 영감을 주는 대응이었음