- Tarsnap 장애로 인해 서비스가 오프라인 상태가 되었습니다.
- 장애는 Amazon의 EC2 us-east-1 지역에 호스팅된 중앙 Tarsnap 서버의 시스템 상태 확인 실패로 인해 발생했습니다.
- 고장의 정확한 원인은 알려지지 않았지만, 고립된 하드웨어 오류로 추정됩니다.
- Tarsnap의 모니터링 시스템이 고장을 감지하고 운영자에게 알림을 보냈습니다.
- 대체 EC2 인스턴스가 생성되었지만, 데이터 손실을 방지하기 위해 Tarsnap 서버 코드는 자동으로 다시 시작되지 않았습니다.
- 서버 재부팅 후 로그는 파일 시스템 손상을 보여주어 이전 서버를 복구하는 대신 새로운 서버를 설정하기로 결정되었습니다.
- 복구 과정은 Amazon S3에서 메타데이터 헤더를 읽고 작업을 로컬에서 다시 실행하는 것을 포함했습니다.
- 복구 과정에서는 기계 등록 로그 항목 및 초기화되지 않은 로그 항목 순서와 관련된 오류가 발생했습니다.
- 복구 과정은 예상보다 느리게 진행되었으며 더 빠른 성능을 위해 최적화될 수 있었습니다.
- 상태 복원 과정은 7월 3일에 완료되었으며 서버가 다시 온라인 상태로 돌아왔습니다.
- 장애 후 트래픽은 장애 시작 후 약 26시간 16분 후에 다시 시작되었습니다.
- Tarsnap은 장애로 인한 보상으로 사용자 계정에 한 달 저장 비용의 50%를 제공했습니다.
- 사용자들은 Tarsnap의 창립자인 Colin Percival에게 질문이나 걱정 사항을 문의할 것을 권장합니다.