아카이브 저장 (Archival Storage)
(blog.dshr.org)- 디지털 보존(Digital Preservation) 전문가인 David Rosenthal의 발표 내용 요약
백업(Backup)과 아카이브(Archival)의 차이점
- 백업은 재난 발생 시 최근 상태로 복구하기 위해 필요함
- 백업 데이터의 유효 수명은 마지막 백업부터 복구까지의 시간에 의해 결정됨
- 백업 데이터의 저장 매체 수명은 중요하지 않음
- 디지털 보존 분야에서 거의 20년 동안 일한 후, 나의 4 가지 중요 시스템 백업 방법
- 메일 및 웹 서버: Raspberry Pi에 주간 전체 백업 및 일일 증분 백업 수행 → 주간 백업을 DVD-R에 저장
- 데스크탑 PC: 외장 하드 드라이브에 야간 전체 백업 수행 → 주기적으로 3개의 하드 드라이브에 순환 저장
- iPhone: Mac Air에 매일 백업 → Time Machine을 통해 SSD에 주기적 백업
- 오프사이트 보관: 매주 DVD-R, SSD 및 하드 드라이브를 외부 장소에 보관
- 아카이브 데이터란?
- 시간이 지남에 따라 데이터는 저장 계층 구조에서 아래로 내려감
- 아카이브 데이터 = 운영 저장소에서 유지 비용을 감당할 수 없는 데이터
- 아카이브 저장 시스템의 주요 목표는 비용 절감이며, 접근 속도 지연을 감수함
아카이브 저장 매체의 현실
- 언론에서 '영원히 보관 가능한 저장소'에 대한 과장이 많음
- 연구에서 나온 새로운 저장 기술이 시장에서 대규모로 사용될 가능성은 낮음
- 아카이브 전용 매체는 시장 수요가 낮아 상업적으로 성공하기 어려움
- 예: LTO 테이프는 전체 저장 매체 시장의 1% 미만을 차지
- 2023년 OD-3 (1TB 광 디스크) 가 시장 부족으로 취소됨
저장 매체의 도입 시기 문제
- 새로운 저장 기술이 시장에 도입되기까지 시간이 오래 걸림
- HAMR 하드 드라이브: 연구 시작 후 26년이 지난 후 도입됨
- 실리카 및 DNA 저장소: 수십 년 연구 중이지만 상용화까지는 최소 5년 이상 필요
저장 매체의 경제성 문제
- 저장 매체 자체보다 저장 시스템 인프라 비용이 훨씬 중요함
- 테이프, 디스크 등 저장 매체 비용은 전체 비용에서 비중이 낮음
- 데이터 센터 규모에서 운영해야 비용이 절감됨
- 아카이브 저장은 소규모로 운영 시 경제성이 떨어짐
클라우드 저장과 락인(Lock-in) 문제
- 클라우드 서비스의 아카이브 저장 비용은 장기적으로 매우 비쌈
- Amazon Glacier: 장기 보관 시 비용 절감 가능하나, 데이터 복구 비용이 높음
- 저장 비용: $10,900/연간
- 복구 비용: $49,550 (1PB 기준)
- 총 비용: $60,950
- 락인 기간: 50.0개월
- Google Archive: 높은 저장 및 복구 비용 → 장기 보관에 비효율적
- 저장 비용: $13,200/연간
- 복구 비용: $210,810 (1PB 기준)
- 총 비용: $224,510
- 락인 기간: 175.6개월
- Microsoft Archive: 보관 비용은 낮으나 데이터 복구 비용이 높음
- 저장 비용: $22,000/연간
- 복구 비용: $40,100 (1PB 기준)
- 총 비용: $62,200
- 락인 기간: 20.0개월
- 락인 문제: 데이터 복구 비용이 높아 데이터 이동이 어려워짐
- Amazon Glacier는 저장 비용이 가장 저렴하고 복구 비용도 상대적으로 낮음
Project Silica (마이크로소프트의 실리카 프로젝트)
- 실리카: 초고밀도 데이터 저장 매체
- 펨토초 레이저로 실리카 플래터에 데이터 저장
- 저장 밀도가 높고 물리적 안정성이 뛰어남
- 비용 문제: 펨토초 레이저 비용이 높음 → 대량 생산으로 가격 인하 기대
- 읽기/쓰기 분리 → 보안 강화 및 데이터 무결성 보장
- 읽기 속도 문제: 응답 시간 15시간 예상 → 대규모 시스템에서만 효율적
데이터 복구 문제
- 아카이브에서 중요한 것은 데이터 복구 가능성
- 마이크로소프트는 스발바르(Svalbard) 섬에 필름 기반 오픈 소스 코드 저장
- 재난 이후 복구 가능성은 낮음
- 원거리 및 악천후로 인해 접근 어려움
LOCKSS 시스템 (Lots Of Copies Keep Stuff Safe)
- 저비용 저장 매체에 다수의 복사본을 보관 → 데이터 안전성 강화
- 백업 및 복구는 값비싼 시스템보다 복제본 다수를 통해 보장
- 비용 효율성이 중요 → 고가의 저장 매체보다 저렴한 저장 시스템 선호
결론
- 아카이브 저장의 핵심은 기술이 아니라 경제성
- 아카이브 전용 매체는 경제적으로 비효율적
- 클라우드 서비스는 높은 복구 비용 → 락인 문제 발생
- 대규모 데이터 센터에서 운영해야 장기 저장 비용 절감 가능
- Project Silica는 아카이브 저장 기술 중 가장 유망하지만 상용화까지는 시간 필요
댓글과 토론
Hacker News 의견
- AI, 양자 컴퓨팅, 6K 화면, M2 NVME, 수십억 개의 네트워크 장치 등이 있지만, 일반 데이터는 디스크 고장, SSD의 불안정성, 비트 부식 등으로 인해 약 5년 정도만 지속될 수 있음
- 이를 극복하려면 JBOD, RAID, NAS를 지속적으로 유지하거나 M-Disc 블루레이에 구워야 하며, 클라우드에 맡기거나 둘 다 해야 함
- 간단한 3-2-1 백업 전략이 운 좋게 작동할 수도 있지만, 대규모 데이터 아카이브는 여전히 어려움
- "수백 년" 문제에 대해 고민해 왔으며, 확실히 작동할 것으로 예상되는 방법은 다음과 같음
- 재료에 새기거나 찍어내기 (석판, 에디슨 실린더, 셸락 78, 비닐, 보이저 골든 레코드 등)
- 종이에 잉크로 인쇄하거나 펀치 (책, 카드, 테이프)
- 사진; 마이크로피시/마이크로필름 (GitHub Arctic Code Vault), 리소그래피
- 아카이브 등급의 마이크로필름을 "인쇄"하는 방법을 최근에 조사했으며, 몇 가지 옵션이 있지만 대부분은 마이크로필름을 스캔하여 디지털 복사본을 만드는 것임
- 개인적인 경험으로는 2학년 때 그린 연필 그림이 디지털 자료보다 몇 백 년 더 오래 지속될 가능성이 높음
- 기업 규모에서는 비용 계산이 개인 규모와 다를 수 있음
- Linear Tape-Open은 페타바이트를 저장해야 할 때 저렴한 저장 매체임
- 드라이브 비용으로 400TB의 하드 드라이브를 구매할 수 있음
- 대량 생산된 하드 드라이브가 LTO 테이프보다 더 신뢰할 수 있다고 생각함
- 개인적으로 테이프와의 경험이 좋지 않았음
- "Svalbard 군도에서 1969년 여름에 지질 조사를 했다"는 메모가 작성자에 대해 더 알고 싶게 만들었으며, 그들의 경력이 매우 흥미로움
- 클라우드 스토리지를 백업에 사용할 때 Object Lock을 켜는 것을 잊지 말아야 함
- 오프라인 저장만큼 좋지는 않지만 R/W 미디어보다 훨씬 나음
- 회사에서는 restic을 사용하여 B2에 백업하며, 중복 제거 백업을 매번 수행함
- 3-2-1 백업 전략을 사용함
- 데이터의 세 가지 복사본을 두 가지 다른 유형의 미디어에 저장하고, 한 복사본은 외부에 보관함
- 중요한 데이터는 SSD에 미러링하며, 블루레이 복사본을 여러 개 보관함
- 블루레이를 사용하는 이유는 1859년의 Carrington Event와 같은 지자기 폭풍으로부터 보호하기 위함
- 테이프 아카이브가 더 쉽게 접근할 수 있었으면 좋겠음
- 틈새 시장이고 주로 기업용이기 때문에 드라이브는 수천 달러부터 시작하며, 용량을 줄이면 현대 SSD보다 적음
- 기사는 다양한 주제를 다루고 있으며, 단일한 결론을 내리기 어려움
- Backblaze CTO의 인용구로 끝남: "실패를 대비하고 가장 저렴한 부품을 구매하라"
- 대기업에는 적합하지만 개인이나 소규모 기업에는 적합하지 않음
- 개인적으로는 저렴한 외장 하드 드라이브에 백업하고, M-DISC 블루레이에 아카이브 저장함
- 1991년부터 파일을 보관 중이며, 다양한 형식으로 이동함
- 3-2-1 백업 전략을 사용하며, 모든 파일을 연 2회 체크섬으로 검증함
- 스크립트를 사용하면 주간 몇 가지 명령어로 간단하게 처리 가능
- LOCKSS에 대한 의견을 구함
- LOCKSS는 데이터가 최근에 확인되지 않으면 실제로 존재하지 않는다는 개념을 진지하게 받아들이는 것 같음