그럼에도 불구하고 유의미한 측정기준은 있을거라 생각해요. 특히 상반되는 두 지표를 모두 책임질 누군가가 있어야 더욱 효과적일것 같습니다. SRE 관점에서 장애건수를 낮췄다고 좋아해도, 그만큼 돌다리 두드리느라 배포가 늦어져서 기능 개발이 더뎌질수 있고, Dev 관점에서 기능 개발 많이 했다고 좋아해도, 그만큼 장애 발생 건수도 많아질수도 있는거니까요.

p99 latency, 응답 성공율, 요청당 비용, MTTR, 장애 발생 건수 같은 지표도 어뷰징하기 어려운 좋은 지표라고 생각합니다. (물론 어뷰징 될수도 있긴하겠지만 추적하고 관리하는게 실보다 득이 더 많을것 같은...)