2019년 7월 2일 Cloudflare 장애 보고서 [번역]

(ryanking13.github.io)

Cloudflare의 CTO가 사건 개요와 대처 등을 정리한 것으로, 대규모 조직에서 어떤 식으로 문제가 발생하고, 그것을 어떻게 대처하는지를 알 수 있는 글

원문의 appendix도 재미있네요. 문제가 된 패턴인 .*.*=.* 부분이 왜 cpu를 고갈시켰는지에 대한 자세한 설명도 있고 정규표현식을 고치는 것도 좋지만 대안으로 엔진 교체를 생각한 것도 의미가 있는 것 같습니다.

근사한 장애 보고서네요. 대처를 어떻게 했는지 상세하게 설명한 것 자체도 대단하지만, 단순히 한 엔지니어의 실수만으로 보지 않고, 복합적인 원인을 찾아 하나씩 해결했다는 것에서 배울 점이 많네요. 장애가 발생했지만 오히려 회사에 대한 신뢰가 쌓일 것만 같아요.

공감이 많이 갑니다. 저도 복합적 원인을 짚은 것이 인상적이었어요. 한 엔지니어의 실수로만 보지 않는 것이 배울 점이 많은 것 같습니다.

그러게요. 어쩌면 장애보고서 담당 임원이라도 있는걸까요? 저정도로 상세하게 원인들을 찾아 분석할수 있는 것도 대단하지만, 저정도로 써야하나 싶을 정도로 보고서도 잘 썼네요.

저 글을 쓴 Cloudflare의 CTO인 John Graham-Cumming은 원래도 유명한 블로거입니다. https://blog.jgc.org/

함께 보면 좋은 글 β