Hacker News 의견
  • S3의 내구성에 대한 문제를 들어본 적은 없지만, 이러한 주장이 테스트된 것을 본 적도 없다. 이 주장들에 대해 궁금하긴 하다.

    • S3의 내구성은 업계 선두이며, 전통적인 파일 시스템과는 비교할 수 없음.
    • AWS의 가용성 구역 분리는 다른 클라우드 제공업체보다 우수함.
    • S3는 데이터 무결성과 자연재해에 대한 걱정이 매우 큼.
    • S3는 '비트로트'를 감지할 정도로 큰 규모로 운영됨.
    • 중요 데이터는 S3 외에 다른 곳에 저장하지 않을 것임.
    • 출처: S3 배치 시스템을 작성한 사람.
  • 파일 목록을 나열하는 것이 느리다. S3는 읽기와 쓰기는 매우 빠르지만, 파일 목록을 나열하는 것은 매우 느림.

    • S3의 빠른 읽기와 쓰기가 유용한 것이 아니라, 파일 목록을 나열하는 기능이 유용함.
    • 버전 관리되지 않은 버킷에서는 주어진 접두사를 나열하는 것이 사실상 일정 시간 내에 가능함.
    • 데이터를 다양한 방식으로 분할하고 성능에 대한 걱정 없이 필요한 식별자를 사용할 수 있음.
  • 파일 목록을 나열하는 것이 느리다는 점에 최근 놀랐다. S3에서 자산을 관리하기 위한 스크립트 작업을 하면서, 파일 목록 캐시가 필요하다는 것을 깨달음.

    • 약 100,000개의 루트 레벨 디렉토리가 있으며, 각각에는 몇 개의 파일이 있는 몇 개의 디렉토리가 있음.
    • 파일을 재귀적으로 나열하는 데 15분이 걸림.
    • 아마존이 이 문제를 해결하지 않은 이유가 궁금함.
  • Amazon S3는 원래의 클라우드 기술로, 2006년에 출시됨. "객체"가 당시 인기 있었고 S3는 "객체 저장소"로 불림.

    • S3는 파일 시스템이 아니라 객체 저장소임.
    • S3는 파일이 아니며, 파일 시스템도 아님.
    • 파일 추상화에서 기대하는 것은 가변성임.
    • S3는 불변 객체의 가변 목록을 제공함.
    • S3는 다른 문제를 해결하고, 파일 시스템처럼 보이게 하려는 시도는 고객의 오해에서 비롯됨.
  • Apache Arrow의 object_store와 Apache OpenDAL 제공 API를 비교하는 논의가 있음.

    • Apache OpenDAL은 S3를 포함한 여러 클라우드 스토리지에 대한 FS와 같은 API를 제공하는 라이브러리임.
    • GreptimeDB와 Databend와 같은 몇몇 데이터베이스 시스템은 클라우드 스토리지에 데이터에 접근하기 위해 OpenDAL을 사용함.
    • Alluxio와 JuiceFS와 같은 다른 솔루션들도 S3 위에 파일 시스템과 같은 인터페이스를 관리함.
  • 파일 시스템 소프트웨어, 특히 데이터베이스는 Amazon S3로 이식될 수 없다.

    • 그러나 이식될 수 있음.
    • INSERT/UPDATE/DELETE를 할 때마다 전체 DB 파일을 덮어쓸 필요는 없음.
    • SQLite의 경우 S3로 복제하고 복원을 지원하는 Litestream과 같은 도구가 있음.
  • Minio를 로컬 "S3"로 사용하여 데이터셋과 모델 체크포인트를 저장함.

    • Minio에는 필요하지 않은 많은 기능이 있음.
    • CRUD 파일을 할 수 있고 목록을 볼 수 있는 최소한의 S3와 같은 "것"에 대한 현재 최선의 자체 호스팅, 단일 노드 옵션은 무엇인가?
  • S3에 대해 이야기하는 동안 Backblaze B2를 언급할 가치가 있음.

    • S3보다 3배 낮은 가격에 매우 만족함.
  • S3는 파일 시스템으로 잘못 사용될 수 있음.

    • S3는 객체를 원하며, 여기에 클러스터라고 불리는 512 또는 4096 바이트 객체가 있음.