1P by GN⁺ 2일전 | ★ favorite | 댓글 1개
  • Google Cloud Platform에서 서비스 장애 발생함
  • Vertex AI Online Prediction 서비스에서 오류가 지속됨
  • 사용자 맞춤형 서비스 상태 확인이 어려운 상황 발생함
  • 여러 지역 사용자에게 영향을 미치는 서비스 이상 현상 보고됨
  • 정상화와 구체적 원인 파악 필요성 제기됨

장애 개요

  • Google Cloud Platform에서 서비스 이용 불가 현상 보고됨
  • 특히, Vertex AI Online Prediction 기능 등에서 지속적인 오류 발생 확인

영향 범위 및 현황

  • 문제는 Personalized Service Health 등 서비스의 상태 확인에도 영향을 주는 중임
  • 다양한 지역 사용자가 서비스 접근 또는 활용에 불편을 겪는 상황임

결론 및 전망

  • 서비스 정상화장애 원인 분석에 대한 필요성이 대두됨
  • 구체적인 복구 및 조치 방안에 관한 추가 공지가 기대되는 상황임
Hacker News 의견
  • Google 내부의 중앙 서비스인 Chemist가 다운된 상황 설명, Chemist는 프로젝트 상태, 활성화 상태, 남용 여부, 과금 상태, 위치 제한, VPC Service Controls, SuperQuota 등 다양한 정책 점검 기능 제공, 그래서 “visibility check (of the API) failed”나 “cannot load policy” 등 다양한 에러 메시지가 나타난 현상 이해, 구체적인 정책 확인 문서 링크 제시, EDIT: Google이 “Identity and Access Management Service Issue”로 인해 Google Cloud에 장애 발생 공지
    • 나는 Expo로 알림 중계 기능을 사용 중, 이번 Google 장애와 관련해 FCM도 영향을 받았을지 궁금증
    • 여러 인터넷 서비스가 동시다발적으로 다운 현상, GCP만의 문제가 아님, Chemist 서비스가 외부로부터 특히 큰 영향을 받아서 내부 GCP 네트워크까지 장애 파급 효과 발생 추정
  • Claude Sonnet 4 (Cursor)와 Gemini Pro 사용 중 다수 에러 발생, 2024년 12월로 돌아가 원시인처럼 코드를 100% 직접 써야 하는 상황 개탄
    • 나도 AI Studio에서 동일한 문제 경험, “이용자 할당량 초과로 콘텐츠 생성 실패” 안내 메시지
    • Cloud Storage 파일 업로드 실험 중이었지만, 지금은 산책하기 좋은 타이밍 판단
    • Cursor의 Auto Agent 모드에서도 유사한 에러 발생
    • 2025년 6월 12일 전 개발자: “AI? 환각 제조기일 뿐 나를 대체 못 해!” / 2025년 6월 12일 장애 중 개발자: “AI가 없으면 내가 노예라는 건가?”라는 농담
    • Auto 모드 전환하면 여전히 사용 가능 팁 제공
  • Cloudflare도 장애 발생 상황, Cloudflare status에서 다양한 서비스(Access, WARP, Durable Objects(SQL 기반), Workers KV, Realtime, Workers AI, Stream, Cloudflare 대시보드 일부)가 간헐적 장애 발생 안내 및 영향 평가 지속 갱신, 관련 Hacker News 토론 공유
    • Cloudflare가 GCP에 의존하고 있다면 이번 장애는 엄청난 사태라는 반응
    • 링크가 비정상적으로 동작했다는 의견, 잠깐 비어 있었던 현상 언급
  • 18:43 UTC 기준 거의 모든 서비스 장애 상황, downdetector 링크 공유
    • 이 서비스 차트도 내부적으로 GCP에서 데이터를 수집한 듯, Google 담당자와 통화 중 누군가 AWS도 다운됐다고 말했고, 나는 확인 안 하고 “BGP 공격 아닐까?”라고 추측성 발언 반성
    • “모든 서비스가 Google 서비스냐” 질문
    • Google 장애가 AWS나 Microsoft 365에도 영향을 줄 거라고 예상하지 못했다는 의견
    • 이번처럼 큰 사건에는 Downdetector가 100% 허위 정보 원천이라는 주장
    • 아마 이 탐지 로직도 Google Cloud에서 동작하고 있을 수 있다는 농담
  • 상태 페이지는 모두 정상(녹색 표시)이나, 실제로는 다수 장애 보고 발생 중, Google Cloud 장애 모니터
    • 상태 페이지의 존재 이유에 의구심, 10만명 이상의 유저가 Google Meet 못 쓰는 상황 보고, 대기업들이 실제 상황을 상태 페이지에反영하지 않는다면 존재 의미 없음, 관련 Google Apps StatusGCP Status Page 추가 공유, EDIT: 게시글 이후 1분 내에 GCP 상태 페이지가 업데이트되어 Cloud Data Fusion, Cloud Memorystore, Cloud Shell 등 다수 서비스 장애 노출
    • 이번 장애 공식 안내 링크
    • 현재는 console, dataproc, GCS, IAM, Identity Platform 등 영향 상황 갱신 안내 링크
    • 우리 회사도 수백 명 원격 근무 중인데 Google Meetings 접속 시 90% 이상 504 에러 발생 경험
  • Cloudflare 장애도 방금 새롭게 업데이트, Workers KV 등 필수 서비스가 3자 서비스 장애로 오프라인 됨, 이 서비스에 의존하던 Cloudflare 제품들 정보 전달에 직접적인 영향
  • Firebase Auth도 다운돼서 많은 앱에 영향, Discord와 Slack 커뮤니티에서도 다수 사용자 동시 경험 보고, 30분 가까이 상태 페이지에 아무 글도 없어 실망감 토로, Firebase Status
    • 이제야 상태 페이지가 업데이트, 아마 내부 장애로 상태 페이지 반영도 느린 영향
  • 이번 장애로 RCS 메시지도 같이 다운 사태, 기술 또는 인프라 설계가 취약했다는 점을 여실히 드러냄
    • RCS도 그저 인스턴트 메시징일 뿐 아닌가? 그래서 장애가 놀랍지 않다는 반응
    • 그래서 오늘 부모님 강아지 사진을 못 받았던 이유 설명
    • 내 RCS 채팅이 아까 실패했던 원인에 대한 답 발견에 놀람
    • Erlang을 사용했어야 했다는 농담
  • BGP 라우팅 이상 확인용 좋은 대시보드를 찾는 중, Cloudflare Radar Routing 참고 중이나 실제 경로 누수가 표시되지 않아서 추가 추천 대시보드 문의
    • Cloudflare Radar 처음 접하는데 멋진 서비스라는 반응, 다만 현재 장애 영향으로 대시보드들도 일부 작동 문제 발생 예상, 예시 RIPE Atlas, IHR 글로벌 리포트, IHR 네트워크, BGP He.net, IODA 대시보드 추천
    • 내가 기본적으로 쓰는 것은 bgp.tools, 단 이번 장애가 왜 BGP 때문이라고 생각하는지 궁금
    • 나도 신참이라 궁금한데, “Announced IP Address Space” 구간이 갑자기 크게 점프하는 현상이 평상시에도 있는 일인지 질문
    • BGP 공격 의심 여부 제기
  • Hacker News가 이런 복잡한 인프라와 무관하게 단일 베어메탈 서버에서 돌아가고 있어서 다행이라는 유머러스한 의견