6P by GN⁺ 15일전 | ★ favorite | 댓글 1개
  • 디지털 보존(Digital Preservation) 전문가인 David Rosenthal의 발표 내용 요약

백업(Backup)과 아카이브(Archival)의 차이점

  • 백업은 재난 발생 시 최근 상태로 복구하기 위해 필요함
    • 백업 데이터의 유효 수명은 마지막 백업부터 복구까지의 시간에 의해 결정됨
    • 백업 데이터의 저장 매체 수명은 중요하지 않음
  • 디지털 보존 분야에서 거의 20년 동안 일한 후, 나의 4 가지 중요 시스템 백업 방법
    • 메일 및 웹 서버: Raspberry Pi에 주간 전체 백업 및 일일 증분 백업 수행 → 주간 백업을 DVD-R에 저장
    • 데스크탑 PC: 외장 하드 드라이브에 야간 전체 백업 수행 → 주기적으로 3개의 하드 드라이브에 순환 저장
    • iPhone: Mac Air에 매일 백업 → Time Machine을 통해 SSD에 주기적 백업
    • 오프사이트 보관: 매주 DVD-R, SSD 및 하드 드라이브를 외부 장소에 보관
  • 아카이브 데이터란?
    • 시간이 지남에 따라 데이터는 저장 계층 구조에서 아래로 내려감
    • 아카이브 데이터 = 운영 저장소에서 유지 비용을 감당할 수 없는 데이터
    • 아카이브 저장 시스템의 주요 목표는 비용 절감이며, 접근 속도 지연을 감수함

아카이브 저장 매체의 현실

  • 언론에서 '영원히 보관 가능한 저장소'에 대한 과장이 많음
  • 연구에서 나온 새로운 저장 기술이 시장에서 대규모로 사용될 가능성은 낮음
  • 아카이브 전용 매체는 시장 수요가 낮아 상업적으로 성공하기 어려움
    • 예: LTO 테이프는 전체 저장 매체 시장의 1% 미만을 차지
    • 2023년 OD-3 (1TB 광 디스크) 가 시장 부족으로 취소됨

저장 매체의 도입 시기 문제

  • 새로운 저장 기술이 시장에 도입되기까지 시간이 오래 걸림
  • HAMR 하드 드라이브: 연구 시작 후 26년이 지난 후 도입됨
  • 실리카 및 DNA 저장소: 수십 년 연구 중이지만 상용화까지는 최소 5년 이상 필요

저장 매체의 경제성 문제

  • 저장 매체 자체보다 저장 시스템 인프라 비용이 훨씬 중요함
    • 테이프, 디스크 등 저장 매체 비용은 전체 비용에서 비중이 낮음
    • 데이터 센터 규모에서 운영해야 비용이 절감됨
    • 아카이브 저장은 소규모로 운영 시 경제성이 떨어짐

클라우드 저장과 락인(Lock-in) 문제

  • 클라우드 서비스의 아카이브 저장 비용은 장기적으로 매우 비쌈
  • Amazon Glacier: 장기 보관 시 비용 절감 가능하나, 데이터 복구 비용이 높음
    • 저장 비용: $10,900/연간
    • 복구 비용: $49,550 (1PB 기준)
    • 총 비용: $60,950
    • 락인 기간: 50.0개월
  • Google Archive: 높은 저장 및 복구 비용 → 장기 보관에 비효율적
    • 저장 비용: $13,200/연간
    • 복구 비용: $210,810 (1PB 기준)
    • 총 비용: $224,510
    • 락인 기간: 175.6개월
  • Microsoft Archive: 보관 비용은 낮으나 데이터 복구 비용이 높음
    • 저장 비용: $22,000/연간
    • 복구 비용: $40,100 (1PB 기준)
    • 총 비용: $62,200
    • 락인 기간: 20.0개월
  • 락인 문제: 데이터 복구 비용이 높아 데이터 이동이 어려워짐
  • Amazon Glacier는 저장 비용이 가장 저렴하고 복구 비용도 상대적으로 낮음

Project Silica (마이크로소프트의 실리카 프로젝트)

  • 실리카: 초고밀도 데이터 저장 매체
    • 펨토초 레이저로 실리카 플래터에 데이터 저장
    • 저장 밀도가 높고 물리적 안정성이 뛰어남
  • 비용 문제: 펨토초 레이저 비용이 높음 → 대량 생산으로 가격 인하 기대
  • 읽기/쓰기 분리 → 보안 강화 및 데이터 무결성 보장
  • 읽기 속도 문제: 응답 시간 15시간 예상 → 대규모 시스템에서만 효율적

데이터 복구 문제

  • 아카이브에서 중요한 것은 데이터 복구 가능성
  • 마이크로소프트는 스발바르(Svalbard) 섬에 필름 기반 오픈 소스 코드 저장
    • 재난 이후 복구 가능성은 낮음
    • 원거리 및 악천후로 인해 접근 어려움

LOCKSS 시스템 (Lots Of Copies Keep Stuff Safe)

  • 저비용 저장 매체에 다수의 복사본을 보관 → 데이터 안전성 강화
  • 백업 및 복구는 값비싼 시스템보다 복제본 다수를 통해 보장
  • 비용 효율성이 중요 → 고가의 저장 매체보다 저렴한 저장 시스템 선호

결론

  • 아카이브 저장의 핵심은 기술이 아니라 경제성
    • 아카이브 전용 매체는 경제적으로 비효율적
    • 클라우드 서비스는 높은 복구 비용 → 락인 문제 발생
  • 대규모 데이터 센터에서 운영해야 장기 저장 비용 절감 가능
  • Project Silica는 아카이브 저장 기술 중 가장 유망하지만 상용화까지는 시간 필요
Hacker News 의견
  • AI, 양자 컴퓨팅, 6K 화면, M2 NVME, 수십억 개의 네트워크 장치 등이 있지만, 일반 데이터는 디스크 고장, SSD의 불안정성, 비트 부식 등으로 인해 약 5년 정도만 지속될 수 있음
    • 이를 극복하려면 JBOD, RAID, NAS를 지속적으로 유지하거나 M-Disc 블루레이에 구워야 하며, 클라우드에 맡기거나 둘 다 해야 함
    • 간단한 3-2-1 백업 전략이 운 좋게 작동할 수도 있지만, 대규모 데이터 아카이브는 여전히 어려움
  • "수백 년" 문제에 대해 고민해 왔으며, 확실히 작동할 것으로 예상되는 방법은 다음과 같음
    • 재료에 새기거나 찍어내기 (석판, 에디슨 실린더, 셸락 78, 비닐, 보이저 골든 레코드 등)
    • 종이에 잉크로 인쇄하거나 펀치 (책, 카드, 테이프)
    • 사진; 마이크로피시/마이크로필름 (GitHub Arctic Code Vault), 리소그래피
  • 아카이브 등급의 마이크로필름을 "인쇄"하는 방법을 최근에 조사했으며, 몇 가지 옵션이 있지만 대부분은 마이크로필름을 스캔하여 디지털 복사본을 만드는 것임
    • 개인적인 경험으로는 2학년 때 그린 연필 그림이 디지털 자료보다 몇 백 년 더 오래 지속될 가능성이 높음
  • 기업 규모에서는 비용 계산이 개인 규모와 다를 수 있음
    • Linear Tape-Open은 페타바이트를 저장해야 할 때 저렴한 저장 매체임
    • 드라이브 비용으로 400TB의 하드 드라이브를 구매할 수 있음
    • 대량 생산된 하드 드라이브가 LTO 테이프보다 더 신뢰할 수 있다고 생각함
    • 개인적으로 테이프와의 경험이 좋지 않았음
  • "Svalbard 군도에서 1969년 여름에 지질 조사를 했다"는 메모가 작성자에 대해 더 알고 싶게 만들었으며, 그들의 경력이 매우 흥미로움
  • 클라우드 스토리지를 백업에 사용할 때 Object Lock을 켜는 것을 잊지 말아야 함
    • 오프라인 저장만큼 좋지는 않지만 R/W 미디어보다 훨씬 나음
    • 회사에서는 restic을 사용하여 B2에 백업하며, 중복 제거 백업을 매번 수행함
  • 3-2-1 백업 전략을 사용함
    • 데이터의 세 가지 복사본을 두 가지 다른 유형의 미디어에 저장하고, 한 복사본은 외부에 보관함
    • 중요한 데이터는 SSD에 미러링하며, 블루레이 복사본을 여러 개 보관함
    • 블루레이를 사용하는 이유는 1859년의 Carrington Event와 같은 지자기 폭풍으로부터 보호하기 위함
  • 테이프 아카이브가 더 쉽게 접근할 수 있었으면 좋겠음
    • 틈새 시장이고 주로 기업용이기 때문에 드라이브는 수천 달러부터 시작하며, 용량을 줄이면 현대 SSD보다 적음
  • 기사는 다양한 주제를 다루고 있으며, 단일한 결론을 내리기 어려움
    • Backblaze CTO의 인용구로 끝남: "실패를 대비하고 가장 저렴한 부품을 구매하라"
    • 대기업에는 적합하지만 개인이나 소규모 기업에는 적합하지 않음
    • 개인적으로는 저렴한 외장 하드 드라이브에 백업하고, M-DISC 블루레이에 아카이브 저장함
  • 1991년부터 파일을 보관 중이며, 다양한 형식으로 이동함
    • 3-2-1 백업 전략을 사용하며, 모든 파일을 연 2회 체크섬으로 검증함
    • 스크립트를 사용하면 주간 몇 가지 명령어로 간단하게 처리 가능
  • LOCKSS에 대한 의견을 구함
    • LOCKSS는 데이터가 최근에 확인되지 않으면 실제로 존재하지 않는다는 개념을 진지하게 받아들이는 것 같음