▲GN⁺ 2025-04-18 | parent | ★ favorite | on: DeepSeek의 분산 파일 시스템 3FS 소개(maknee.github.io)Hacker News 의견 S3FS는 확장 가능한 메타데이터 파일 시스템으로, 다양한 분산 파일 시스템과 비교됨 Collosus, Tectonic (Meta), ADLSv2 (Microsoft), HopsFS (Hopsworks), PolarFS (Alibaba) 등이 있음 S3FS는 FoundationDB를 사용하고, Collosus는 BigTable, Tectonic은 KV store, HopsFS는 RonDB를 사용함 S3FS의 중요한 점은 (1) fuse 클라이언트를 지원하여 사용이 편리하고, (2) NVMe 스토리지를 지원하여 디스크 I/O에 구애받지 않음 HopsFS는 계층형 스토리지를 추가하여 최근 데이터는 NVMe에, 보관 데이터는 S3에 저장함 이 시스템들을 평가할 때 이론적 한계, 효율성, 실질적 한계를 고려해야 함 이론적으로는 Lustre와 같은 병렬 분산 파일 시스템이 무한대로 확장 가능함 효율성을 평가하기 위해 X TiB 디스크를 가진 노드로 얼마나 많은 저장소와 처리량을 얻을 수 있는지 계산함 FSx for Lustre와 비교하여 AWS에서 3FS를 12-30% 저렴하게 운영할 수 있음 사람들이 원하는 배포 크기로 파일 시스템을 실제로 구성할 수 있는지에 대한 질문이 남아 있음 DeepSeek가 자체적으로 원하는 속성을 얻기 위해 이러한 시스템을 구축하는 것이 이해됨 Archil에서 대부분의 사람들이 거대한 클러스터를 관리하지 않고도 사용할 수 있는 더 나은 기본 설정을 찾기를 바람 SeaweedFS와의 비교에 관심이 있음 SeaweedFS는 날씨 데이터를 저장하는 데 사용되며, 약 3 PB의 데이터를 ML 훈련에 사용함 CephFS를 사용하지 않는 이유에 대한 질문 CephFS는 실세계 시나리오에서 철저히 테스트되었고, 페타바이트 규모에서도 신뢰성을 입증함 오픈 소스 솔루션으로, 가장 빠른 NVMe 스토리지에서 실행 가능하며, 10 기가비트 이상의 인터커넥트로 매우 높은 IOPS를 달성함 JuiceFS와의 비교에 대한 질문 개인 홈랩 설정에서 S3 Garage 위에 JuiceFS를 실행할 계획임 Garage는 복제만 지원하며, 소거 코딩이나 샤딩은 지원하지 않음 설정이 간단해 보여서 선택함 소규모 사업자 및 홈랩 사용자로서 대규모 분산 파일 시스템을 사용할 일은 없을 것 같음 페타바이트 규모의 데이터를 다룰 때 백업과 복구에 대한 궁금증이 있음 복잡한 설정이지만, 딥러닝 워크로드에 필수적인 기능은 명확하지 않음 필요한 기능은 페타바이트 규모의 저장소, 읽기/쓰기 병렬성, 중복성임 일관성을 달성하기 어려우며, 여기서는 필요하지 않음 DeepSeek의 분산 파일 시스템을 비활성화하는 것이 얼마나 쉬운지에 대한 질문 예를 들어, 미국 대학이 연구를 위해 DeepSeek를 사용하도록 승인받았지만, 데이터가 로컬 연구 클러스터 파일 시스템을 벗어나지 않도록 해야 함 여러 기기에 분산된 ZFS 드라이브로 이를 복제할 수 있는지에 대한 질문
Hacker News 의견
S3FS는 확장 가능한 메타데이터 파일 시스템으로, 다양한 분산 파일 시스템과 비교됨
이 시스템들을 평가할 때 이론적 한계, 효율성, 실질적 한계를 고려해야 함
SeaweedFS와의 비교에 관심이 있음
CephFS를 사용하지 않는 이유에 대한 질문
JuiceFS와의 비교에 대한 질문
소규모 사업자 및 홈랩 사용자로서 대규모 분산 파일 시스템을 사용할 일은 없을 것 같음
복잡한 설정이지만, 딥러닝 워크로드에 필수적인 기능은 명확하지 않음
DeepSeek의 분산 파일 시스템을 비활성화하는 것이 얼마나 쉬운지에 대한 질문
여러 기기에 분산된 ZFS 드라이브로 이를 복제할 수 있는지에 대한 질문