-
EBS gp3의 내구 지표: AWS 공식 문서상 연간 고장률(AFR)은 0.1% ~ 0.2% 임. 단일 디스크 기준 내구성은 99.9%로 매우 높으나, 인프라 규모가 커질수록 확률적 리스크가 누적됨.
-
규모에 따른 장애 발생 확률:
- 디스크 1,000개를 운영할 때, 1년 내에 장애가 전혀 발생하지 않을 확률은 약 36.8% ($0.999^{1000}$)임.
- 즉, 통계적으로 약 63.2%의 확률로 최소 1대 이상의 디스크 장애를 경험하게 되며, 이는 설계 시 상수로 취급해야 할 수준의 리스크임.
-
저장 구조에 따른 생존율 변화:
-
분산 구조 (Sharding/RAID 0): 전체 시스템 내구성이 개별 요소 내구성의 곱($R^n$)으로 결정됨. 디스크 수가 늘어날수록 시스템 생존 확률은 지수 함수적으로 하락함.
-
복제 구조 (Mirroring/RAID 1): 샤드당 장애 확률을 제곱($Q^2$)으로 낮춤으로써, 동일한 하드웨어를 사용하더라도 시스템 전체 내구성을 비약적으로 향상시킬 수 있음.
-
관리 전략의 분리:
-
Redundancy (RAID 등): 물리적 하드웨어의 기계적 고장에 대응하여 서비스 가용성과 내구성을 유지하는 전략.
-
Backup (S3 스냅샷 등): 운영자 실수, 소프트웨어 버그, 랜섬웨어 등 '데이터의 논리적 변질'을 복구하기 위한 유일한 수단. 양자는 상호 대체 불가능함.
-
결론*: 클라우드 관리형 서비스가 높은 안정성을 제공하는 것은 사실이나, 시스템의 최종적인 내구성은 개별 부품의 스펙보다 ** 엔지니어의 아키텍처 설계 능력**에 의해 결정됨.