19P by minsuchae 2달전 | ★ favorite | 댓글 16개

🚨 Cloudflare 글로벌 네트워크 이슈

  • 조사 중 (47분 전): Cloudflare가 다수의 고객에게 영향을 미치는 광범위한 500 에러 및 대시보드/API 장애를 인지하고 조사 중입니다.

  • 업데이트 (32분 전): 계속해서 문제를 조사하고 있습니다.

  • 복구 중 (14분 전): 서비스가 복구되는 중이지만, 복구 작업이 진행되는 동안 고객들은 평소보다 높은 에러율을 계속 관찰할 수 있습니다.

현재 트위터 등 대규모 장애가 발생하였다가 일시적으로 CDN 기능은 복구된 상황임

서버 터진 거 보고 바로 긱뉴스부터 들어왔습니다
역시 글이 올라와 있었군요 ㅋㅋㅋ
또 무슨 이유일지 궁금하네요

claude code web이 잠깐 안들어가진다더니, Cloudflare 장애 때문이었군요

Hardening ingestion of Cloudflare-generated configuration files in the same way we would for user-generated input

좋은 교훈인것 같습니다.

유저의 입력값은 오만가지 검증을 다 적용하면서

내부에서 만들어낸 크리티컬 데이터는 사실 이렇게까지 검증하지는 않지요.

조직이 방대해질수록 해당내용이 문서화되어 있더라도 발견되지 않을수도 있고
넉넉하게 설정한 사이즈여서 한동안 문제가 없어 잊혀버린후에 제한 사이즈를 넘어가거나 하면
맨붕이죠.. 정말..

https://blog.cloudflare.com/18-november-2025-outage/…
결국 약간은 무심하게 처리한 unwrap() 에서 터졌는데 설정 파일의 크기에 대한 전제 자체가 깨진터라 전적으로 탓하기도 어렵네요. 설정 파일을 "생성하는" 쪽에서 이런 전제를 지키는지 검사하는 코드가 있었어야 하는데 아마도 담당자가 달라서 size limit 을 크게 중요하게 생각지 않지 않았을까? 하는 생각을 해봅니다.

https://blog.cloudflare.com/18-november-2025-outage/

그래도 이러한 정직한 사후보고서 덕분에 클라우드플레어를 계속 쓸것 같아요.

국내업체였다면 북한 해커 소행이라고 할테지..

요즘따라 클라우드 관련 서비스들의 장애를 자주 목격하는 것 같네요.

아! 새벽에 github repo git clone 명령이 먹통이어서 당황했었는데,
이 사고 때문이었겠군요.

장애 발생 6시간만에 전체 복구 완료되었네요.
Update
Cloudflare services are currently operating normally. We are no longer observing elevated errors or latency across the network.

Our engineering teams continue to closely monitor the platform and perform a deeper investigation into the earlier disruption, but no configuration changes are being made at this time.

At this point, it is considered safe to re-enable any Cloudflare services that were temporarily disabled during the incident. We will provide a final update once our investigation is complete.
Posted 28 minutes ago. Nov 18, 2025 - 17:44 UTC

방금까지도 dashboard 안들어 가지다가 이제 들어가지네요..

3시간정도 서비스 내려갔었내요

큰일이네요. 빨리 회복되어야할텐데.. 금방 회복되지가 않네요..😢

지난 번 대규모 장애 때 트위터는 괜찮아서 많은 찬사가 있었는데 이번 장애는 트위터도 못 피했네요...

ㅋㅋㅋㅋ 저도 클라우드 플레어 관련 서비스들이 다운되어 있는것을 보고 긱뉴스부터 들어왔습니다.
빠른 소식 전달 감사합니다.
서비스 가장 앞단에 있는 CDN 의 오류는 정말 파급력이 크네요.
개발자들이야 대략 이런 사태에 대해 어느곳의 문제인지 짐작 하겠지만 사용자들은 서비스 자체의 문제로 이해할텐데 이런 인프라 서비스들의 장애는 여러모로 쉽지 않은 것 같습니다.

생각해보면 Single point failure 를 대처하지 못한것도 잘못? 은 잘못인 것 같기도...