12P by xguru 2019-07-21 | favorite | 댓글 5개

Cloudflare의 CTO가 사건 개요와 대처 등을 정리한 것으로, 대규모 조직에서 어떤 식으로 문제가 발생하고, 그것을 어떻게 대처하는지를 알 수 있는 글

blurblah 2019-07-24  [-]

원문의 appendix도 재미있네요. 문제가 된 패턴인 .*.*=.* 부분이 왜 cpu를 고갈시켰는지에 대한 자세한 설명도 있고 정규표현식을 고치는 것도 좋지만 대안으로 엔진 교체를 생각한 것도 의미가 있는 것 같습니다.

curioe 2019-07-21  [-]

근사한 장애 보고서네요. 대처를 어떻게 했는지 상세하게 설명한 것 자체도 대단하지만, 단순히 한 엔지니어의 실수만으로 보지 않고, 복합적인 원인을 찾아 하나씩 해결했다는 것에서 배울 점이 많네요. 장애가 발생했지만 오히려 회사에 대한 신뢰가 쌓일 것만 같아요.

mytory 2019-07-23  [-]

공감이 많이 갑니다. 저도 복합적 원인을 짚은 것이 인상적이었어요. 한 엔지니어의 실수로만 보지 않는 것이 배울 점이 많은 것 같습니다.

quake21 2019-07-22  [-]

그러게요. 어쩌면 장애보고서 담당 임원이라도 있는걸까요? 저정도로 상세하게 원인들을 찾아 분석할수 있는 것도 대단하지만, 저정도로 써야하나 싶을 정도로 보고서도 잘 썼네요.

lifthrasiir 2019-07-22  [-]

저 글을 쓴 Cloudflare의 CTO인 John Graham-Cumming은 원래도 유명한 블로거입니다. https://blog.jgc.org/