25P by tenshi 2022-02-03 | favorite | 댓글 5개

인프런 서비스에서 발생한 2022년 1월 3일 ~ 17일까지 지속적으로 서비스를 사용할 수 없는 장애 부검 글입니다. 장애의 발견, 초기 대응, 재발, 근본 원인 분석, 근본 원인 해결까지의 과정을 상세히 다루고 있습니다.

좋은 글 감사합니다. 그런데 회고..라는 좋은 단어가 있는데 왜 부검이라는 단어를 사용하셨을까요? 틀린 말은 아니지만 좀 부정적으로 느껴지네요.

Postmortem 의 번역으로 사고 발생후에 행한 조치들을 보고 "부검" 이라는 단어를 많이 쓰더군요.

저는 서비스가 사망했으니(... ) 부검한다는 뉘앙스라고 생각해서 재미있게 느껴졌는데. 다르게 느낄 수도 있겠군요. 'ㅁ '

아마 넷플릭스의 부검메일(postmortem email) 같은 뉘앙스라고 생각합니다.

> 특히나 강의 테이블의 경우 고용량의 컬럼들 (강의 소개 컬럼의 HTML 코드)로 인해 Dead Tuple 하나 하나의 용량이 굉장히 높은데요.
> 그러다보니 잦은 업데이트 쿼리는 고용량의 Dead Tuple 대량 생산으로 이어지게 됩니다.

특히, PostgreSQL의 Dead Tuple이 서비스에 미칠 수 있는 영향을 체감할 수 있는 근본 원인 분석 부분은 좋은 참고가 될 것 같습니다.