▲GN⁺ 2024-03-11 | parent | ★ favorite | on: S3는 파일 시스템이 아닌 파일 저장 기술(calpaterson.com)Hacker News 의견 S3의 내구성에 대한 문제를 들어본 적은 없지만, 이러한 주장이 테스트된 것을 본 적도 없다. 이 주장들에 대해 궁금하긴 하다. S3의 내구성은 업계 선두이며, 전통적인 파일 시스템과는 비교할 수 없음. AWS의 가용성 구역 분리는 다른 클라우드 제공업체보다 우수함. S3는 데이터 무결성과 자연재해에 대한 걱정이 매우 큼. S3는 '비트로트'를 감지할 정도로 큰 규모로 운영됨. 중요 데이터는 S3 외에 다른 곳에 저장하지 않을 것임. 출처: S3 배치 시스템을 작성한 사람. 파일 목록을 나열하는 것이 느리다. S3는 읽기와 쓰기는 매우 빠르지만, 파일 목록을 나열하는 것은 매우 느림. S3의 빠른 읽기와 쓰기가 유용한 것이 아니라, 파일 목록을 나열하는 기능이 유용함. 버전 관리되지 않은 버킷에서는 주어진 접두사를 나열하는 것이 사실상 일정 시간 내에 가능함. 데이터를 다양한 방식으로 분할하고 성능에 대한 걱정 없이 필요한 식별자를 사용할 수 있음. 파일 목록을 나열하는 것이 느리다는 점에 최근 놀랐다. S3에서 자산을 관리하기 위한 스크립트 작업을 하면서, 파일 목록 캐시가 필요하다는 것을 깨달음. 약 100,000개의 루트 레벨 디렉토리가 있으며, 각각에는 몇 개의 파일이 있는 몇 개의 디렉토리가 있음. 파일을 재귀적으로 나열하는 데 15분이 걸림. 아마존이 이 문제를 해결하지 않은 이유가 궁금함. Amazon S3는 원래의 클라우드 기술로, 2006년에 출시됨. "객체"가 당시 인기 있었고 S3는 "객체 저장소"로 불림. S3는 파일 시스템이 아니라 객체 저장소임. S3는 파일이 아니며, 파일 시스템도 아님. 파일 추상화에서 기대하는 것은 가변성임. S3는 불변 객체의 가변 목록을 제공함. S3는 다른 문제를 해결하고, 파일 시스템처럼 보이게 하려는 시도는 고객의 오해에서 비롯됨. Apache Arrow의 object_store와 Apache OpenDAL 제공 API를 비교하는 논의가 있음. Apache OpenDAL은 S3를 포함한 여러 클라우드 스토리지에 대한 FS와 같은 API를 제공하는 라이브러리임. GreptimeDB와 Databend와 같은 몇몇 데이터베이스 시스템은 클라우드 스토리지에 데이터에 접근하기 위해 OpenDAL을 사용함. Alluxio와 JuiceFS와 같은 다른 솔루션들도 S3 위에 파일 시스템과 같은 인터페이스를 관리함. 파일 시스템 소프트웨어, 특히 데이터베이스는 Amazon S3로 이식될 수 없다. 그러나 이식될 수 있음. INSERT/UPDATE/DELETE를 할 때마다 전체 DB 파일을 덮어쓸 필요는 없음. SQLite의 경우 S3로 복제하고 복원을 지원하는 Litestream과 같은 도구가 있음. Minio를 로컬 "S3"로 사용하여 데이터셋과 모델 체크포인트를 저장함. Minio에는 필요하지 않은 많은 기능이 있음. CRUD 파일을 할 수 있고 목록을 볼 수 있는 최소한의 S3와 같은 "것"에 대한 현재 최선의 자체 호스팅, 단일 노드 옵션은 무엇인가? S3에 대해 이야기하는 동안 Backblaze B2를 언급할 가치가 있음. S3보다 3배 낮은 가격에 매우 만족함. S3는 파일 시스템으로 잘못 사용될 수 있음. S3는 객체를 원하며, 여기에 클러스터라고 불리는 512 또는 4096 바이트 객체가 있음.
Hacker News 의견