# 아카이브 저장 (Archival Storage)

> Clean Markdown view of GeekNews topic #19819. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=19819](https://news.hada.io/topic?id=19819)
- GeekNews Markdown: [https://news.hada.io/topic/19819.md](https://news.hada.io/topic/19819.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-03-18T12:34:20+09:00
- Updated: 2025-03-18T12:34:20+09:00
- Original source: [blog.dshr.org](https://blog.dshr.org/2025/03/archival-storage.html)
- Points: 6
- Comments: 1

## Summary

디지털 보존 전문가 David Rosenthal은 백업과 아카이브의 차이를 설명하며, 아카이브의 주요 목표는 비용 절감이라고 강조합니다. 아카이브 저장 매체는 경제성이 낮고, 클라우드 서비스는 높은 복구 비용으로 인해 장기 보관에 비효율적입니다. Project Silica는 유망한 아카이브 저장 기술로 평가되지만, 상용화까지 시간이 필요하며, 아카이브 저장의 핵심은 기술보다 경제성에 있다고 결론지었습니다.

## Topic Body

- **디지털 보존(Digital Preservation)** 전문가인 David Rosenthal의 발표 내용 요약  
### 백업(Backup)과 아카이브(Archival)의 차이점  
- **백업**은 재난 발생 시 최근 상태로 복구하기 위해 필요함  
  - 백업 데이터의 유효 수명은 마지막 백업부터 복구까지의 시간에 의해 결정됨  
  - 백업 데이터의 저장 매체 수명은 중요하지 않음  
- 디지털 보존 분야에서 거의 20년 동안 일한 후, 나의 **4 가지 중요 시스템 백업 방법**  
  - **메일 및 웹 서버**: Raspberry Pi에 주간 전체 백업 및 일일 증분 백업 수행 → 주간 백업을 DVD-R에 저장  
  - **데스크탑 PC**: 외장 하드 드라이브에 야간 전체 백업 수행 → 주기적으로 3개의 하드 드라이브에 순환 저장  
  - **iPhone**: Mac Air에 매일 백업 → Time Machine을 통해 SSD에 주기적 백업  
  - **오프사이트 보관**: 매주 DVD-R, SSD 및 하드 드라이브를 외부 장소에 보관  
- **아카이브** 데이터란?  
  - 시간이 지남에 따라 데이터는 저장 계층 구조에서 아래로 내려감  
  - **아카이브 데이터** = 운영 저장소에서 유지 비용을 감당할 수 없는 데이터  
  - 아카이브 저장 시스템의 주요 목표는 **비용 절감**이며, 접근 속도 지연을 감수함  
  
### 아카이브 저장 매체의 현실  
- 언론에서 '영원히 보관 가능한 저장소'에 대한 과장이 많음  
- 연구에서 나온 새로운 저장 기술이 시장에서 대규모로 사용될 가능성은 낮음  
- 아카이브 전용 매체는 시장 수요가 낮아 상업적으로 성공하기 어려움  
  - 예: **LTO 테이프**는 전체 저장 매체 시장의 1% 미만을 차지  
  - 2023년 **OD-3 (1TB 광 디스크)** 가 시장 부족으로 취소됨  
  
### 저장 매체의 도입 시기 문제  
- 새로운 저장 기술이 시장에 도입되기까지 시간이 오래 걸림  
- **HAMR 하드 드라이브**: 연구 시작 후 26년이 지난 후 도입됨  
- **실리카 및 DNA 저장소**: 수십 년 연구 중이지만 상용화까지는 최소 5년 이상 필요  
  
### 저장 매체의 경제성 문제  
- 저장 매체 자체보다 **저장 시스템 인프라 비용**이 훨씬 중요함  
  - 테이프, 디스크 등 저장 매체 비용은 전체 비용에서 비중이 낮음  
  - 데이터 센터 규모에서 운영해야 비용이 절감됨  
  - 아카이브 저장은 소규모로 운영 시 경제성이 떨어짐  
  
### 클라우드 저장과 락인(Lock-in) 문제  
- 클라우드 서비스의 아카이브 저장 비용은 장기적으로 매우 비쌈  
- **Amazon Glacier**: 장기 보관 시 비용 절감 가능하나, 데이터 복구 비용이 높음  
  - 저장 비용: $10,900/연간  
  - 복구 비용: $49,550 (1PB 기준)  
  - 총 비용: $60,950  
  - 락인 기간: 50.0개월  
- **Google Archive**: 높은 저장 및 복구 비용 → 장기 보관에 비효율적  
  - 저장 비용: $13,200/연간  
  - 복구 비용: $210,810 (1PB 기준)  
  - 총 비용: $224,510  
  - 락인 기간: 175.6개월  
- **Microsoft Archive**: 보관 비용은 낮으나 데이터 복구 비용이 높음  
  - 저장 비용: $22,000/연간  
  - 복구 비용: $40,100 (1PB 기준)  
  - 총 비용: $62,200  
  - 락인 기간: 20.0개월  
- **락인 문제**: 데이터 복구 비용이 높아 데이터 이동이 어려워짐  
- **Amazon Glacier**는 저장 비용이 가장 저렴하고 복구 비용도 상대적으로 낮음  
  
### Project Silica (마이크로소프트의 실리카 프로젝트)  
- **실리카**: 초고밀도 데이터 저장 매체  
  - 펨토초 레이저로 실리카 플래터에 데이터 저장  
  - 저장 밀도가 높고 물리적 안정성이 뛰어남  
- **비용 문제**: 펨토초 레이저 비용이 높음 → 대량 생산으로 가격 인하 기대  
- **읽기/쓰기 분리** → 보안 강화 및 데이터 무결성 보장  
- **읽기 속도 문제**: 응답 시간 15시간 예상 → 대규모 시스템에서만 효율적  
  
### 데이터 복구 문제  
- 아카이브에서 중요한 것은 **데이터 복구** 가능성  
- 마이크로소프트는 스발바르(Svalbard) 섬에 필름 기반 오픈 소스 코드 저장  
  - **재난 이후 복구 가능성**은 낮음  
  - 원거리 및 악천후로 인해 접근 어려움  
  
### LOCKSS 시스템 (Lots Of Copies Keep Stuff Safe)  
- 저비용 저장 매체에 다수의 복사본을 보관 → 데이터 안전성 강화  
- 백업 및 복구는 값비싼 시스템보다 복제본 다수를 통해 보장  
- 비용 효율성이 중요 → 고가의 저장 매체보다 저렴한 저장 시스템 선호  
  
### 결론  
- 아카이브 저장의 핵심은 **기술**이 아니라 **경제성**  
  - 아카이브 전용 매체는 경제적으로 비효율적  
  - 클라우드 서비스는 높은 복구 비용 → 락인 문제 발생  
- **대규모 데이터 센터**에서 운영해야 장기 저장 비용 절감 가능  
- **Project Silica**는 아카이브 저장 기술 중 가장 유망하지만 상용화까지는 시간 필요

## Comments



### Comment 36041

- Author: neo
- Created: 2025-03-18T12:34:20+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=43391459) 
- AI, 양자 컴퓨팅, 6K 화면, M2 NVME, 수십억 개의 네트워크 장치 등이 있지만, 일반 데이터는 디스크 고장, SSD의 불안정성, 비트 부식 등으로 인해 약 5년 정도만 지속될 수 있음
  - 이를 극복하려면 JBOD, RAID, NAS를 지속적으로 유지하거나 M-Disc 블루레이에 구워야 하며, 클라우드에 맡기거나 둘 다 해야 함
  - 간단한 3-2-1 백업 전략이 운 좋게 작동할 수도 있지만, 대규모 데이터 아카이브는 여전히 어려움
- "수백 년" 문제에 대해 고민해 왔으며, 확실히 작동할 것으로 예상되는 방법은 다음과 같음
  - 재료에 새기거나 찍어내기 (석판, 에디슨 실린더, 셸락 78, 비닐, 보이저 골든 레코드 등)
  - 종이에 잉크로 인쇄하거나 펀치 (책, 카드, 테이프)
  - 사진; 마이크로피시/마이크로필름 (GitHub Arctic Code Vault), 리소그래피
- 아카이브 등급의 마이크로필름을 "인쇄"하는 방법을 최근에 조사했으며, 몇 가지 옵션이 있지만 대부분은 마이크로필름을 스캔하여 디지털 복사본을 만드는 것임
  - 개인적인 경험으로는 2학년 때 그린 연필 그림이 디지털 자료보다 몇 백 년 더 오래 지속될 가능성이 높음
- 기업 규모에서는 비용 계산이 개인 규모와 다를 수 있음
  - Linear Tape-Open은 페타바이트를 저장해야 할 때 저렴한 저장 매체임
  - 드라이브 비용으로 400TB의 하드 드라이브를 구매할 수 있음
  - 대량 생산된 하드 드라이브가 LTO 테이프보다 더 신뢰할 수 있다고 생각함
  - 개인적으로 테이프와의 경험이 좋지 않았음
- "Svalbard 군도에서 1969년 여름에 지질 조사를 했다"는 메모가 작성자에 대해 더 알고 싶게 만들었으며, 그들의 경력이 매우 흥미로움
- 클라우드 스토리지를 백업에 사용할 때 Object Lock을 켜는 것을 잊지 말아야 함
  - 오프라인 저장만큼 좋지는 않지만 R/W 미디어보다 훨씬 나음
  - 회사에서는 restic을 사용하여 B2에 백업하며, 중복 제거 백업을 매번 수행함
- 3-2-1 백업 전략을 사용함
  - 데이터의 세 가지 복사본을 두 가지 다른 유형의 미디어에 저장하고, 한 복사본은 외부에 보관함
  - 중요한 데이터는 SSD에 미러링하며, 블루레이 복사본을 여러 개 보관함
  - 블루레이를 사용하는 이유는 1859년의 Carrington Event와 같은 지자기 폭풍으로부터 보호하기 위함
- 테이프 아카이브가 더 쉽게 접근할 수 있었으면 좋겠음
  - 틈새 시장이고 주로 기업용이기 때문에 드라이브는 수천 달러부터 시작하며, 용량을 줄이면 현대 SSD보다 적음
- 기사는 다양한 주제를 다루고 있으며, 단일한 결론을 내리기 어려움
  - Backblaze CTO의 인용구로 끝남: "실패를 대비하고 가장 저렴한 부품을 구매하라"
  - 대기업에는 적합하지만 개인이나 소규모 기업에는 적합하지 않음
  - 개인적으로는 저렴한 외장 하드 드라이브에 백업하고, M-DISC 블루레이에 아카이브 저장함
- 1991년부터 파일을 보관 중이며, 다양한 형식으로 이동함
  - 3-2-1 백업 전략을 사용하며, 모든 파일을 연 2회 체크섬으로 검증함
  - 스크립트를 사용하면 주간 몇 가지 명령어로 간단하게 처리 가능
- LOCKSS에 대한 의견을 구함
  - LOCKSS는 데이터가 최근에 확인되지 않으면 실제로 존재하지 않는다는 개념을 진지하게 받아들이는 것 같음
