9P by neo with xguru 6달전 | favorite | 댓글 3개
  • AWS의 새로운 "S3 Express One Zone" Low Latency 스토리지 클래스가 데이터 인프라 커뮤니티에서 주목받는 중
    • 데이터 억세스 속도가 10배 빠르고, API 리퀘스트 비용은 50% 저렴. 분당 수백만 리퀘스트 처리 가능
  • S3 Express 스토리지 클래스는 기존 S3 Standard 대비 GiB당 8배 더 비싸서, 대규모 데이터 시스템의 "주" 저장소로는 부적합함
  • API 작업 비용은 50% 저렴하지만, 엄청 저렴한 것은 아니어서 이전에 S3 API의 비용 때문에 비실용적이었던 워크로드에는 여전히 맞지 않음
  • S3 Express는 512 KiB를 초과하는 모든 API 작업(쓰기 + 읽기)에 대해 GiB당 요금을 부과함
    • 다르게 생각하면 모든 API 작업에는 512 KiB의 "무료" 대역폭이 제공되며, 이를 초과할 때만 비용을 지불
  • 단, One Zone 스토리지 클래스이기 때문에, 데이터 시스템은 단일 AZ의 실패에 대비해 데이터를 수동으로 두 AZ에 복제해야 함
    • 두 AZ에 데이터를 두 번 쓰는 비용은 응용 프로그램 계층에서 수동으로 데이터를 복제하는 비용과 유사함

최신 데이터 인프라에 대한 새로운 기회

  • 새로운 스토리지 클래스는 동일한 아키텍처와 코드로 저지연과 높은 비용 또는 높은 지연과 낮은 비용 사이를 조정할 수 있는 새로운 기회를 제공함
  • 모든 최신 데이터 시스템은 이제 로컬 디스크나 블록 스토리지(EBS)의 가용성에 따라 설계할 필요가 없으며, 오브젝트 스토리지를 기반으로 완전히 구축될 수 있음
  • 데이터는 저지연 S3 Express 버킷에 쉽게 저장되었다가 비동기적으로 S3 Standard 버킷으로 이동될 수 있으며, 대부분의 최신 데이터 시스템은 이미 압축 기능을 가지고 있어 "스토리지 계층화"가 사실상 무료임

GN⁺의 의견

이 기사에서 가장 중요한 점은 AWS의 새로운 S3 Express One Zone 스토리지 클래스가 데이터 인프라에 어떤 변화를 가져올 수 있는지에 대한 전망이다. 이 스토리지 클래스는 데이터 시스템의 비용과 성능을 획기적으로 개선할 수 있는 새로운 기회를 제공하며, 이는 데이터 관리와 저장 방식에 혁신을 가져올 수 있다. 특히, 모든 데이터 시스템을 오브젝트 스토리지 중심으로 구축할 수 있는 능력은 많은 기업과 개발자에게 매력적인 옵션이 될 것이다. 이러한 변화는 데이터 인프라의 미래를 더욱 유연하고 비용 효율적으로 만들어 줄 것으로 기대된다.

어떻게 사용될지 궁금하네요.

바로 어제 WarpStream을 다시 검색해봤었기에 링크 첨부합니다
https://news.hada.io/topic?id=10234

Hacker News 의견
  • S3 기반의 대부분의 프로덕션 스토리지 시스템/데이터베이스는 생산적인 성능을 내기 위해 SSD/메모리 캐싱 계층을 구축하는 데 상당한 노력을 기울임.

    • S3 Express는 HDD 랜덤 읽기 속도에 근접하므로 SSD 캐시 없이도 프로덕션 시스템을 구축할 수 있음.
    • 많은 시스템은 여전히 SSD 캐시를 유지할 것이지만, MVP는 이제 SSD 캐시 없이 구축할 수 있으며, 콜드 쿼리 대기 시간이 크게 감소함.
    • 현재 객체 스토리지 위에 벡터 데이터베이스를 구축 중이므로 이 기술은 매우 시의적절함.
  • AWS S3 Express 스토리지 비용은 S3 표준보다 8배 높지만, 현대 데이터 스토리지 시스템에는 문제가 되지 않음.

    • 데이터는 저지연 S3 Express 버킷에 쉽게 저장되고, 비동기적으로 S3 표준 버킷으로 압축 이동됨.
    • 대부분의 현대 데이터 시스템은 이미 압축 기능을 가지고 있으므로, "스토리지 계층화"는 사실상 무료임.
    • 대부분의 데이터 집약적 앱이 주 스토리지 계층으로 S3를 사용할 미래를 예상함.
  • 몇 주 전에 검색 엔진 Quickwit에서 S3 Express를 테스트함.

    • 성능 측면에서 만족스러웠지만 가격에 대해 실망함.
    • 특정 사용 사례에서는 가격이 적절할 수 있지만, 대부분의 사용자는 기존 S3에 로컬 SSD 캐싱을 추가할 것으로 예상함.
  • 추가적인 맥락으로, warpstream은 S3를 객체 저장소로 사용하는 Kafka 호환 스트리밍 시스템을 구축 중임.

    • 이를 통해 저렴한 존 전송 비용과 자동 스토리지 계층화를 활용하여 시스템 운영 및 유지 관리 비용을 절감함.
    • S3의 읽기/쓰기 속도로 인한 지연 시간이 문제였지만, S3 Express로 인해 이러한 지연 시간에 민감한 애플리케이션에서 Confluent Kafka의 관리형 제품과 경쟁할 수 있게 됨.
  • 로컬에서 파일을 S3로 업로드하기 전에 Redis에 캐싱하여 문제를 해결함.

    • 코드베이스가 파일을 사용할 때 Redis를 확인하고, 거기에 없으면 가져와 다시 캐싱함.
  • EFS는 S3보다 훨씬 우수하지만 주목을 받지 못하는 이유를 이해하지 못함.

    • 시스템이 드라이브로 마운트할 수 있고, 시스템 간에 공유되며, 이미 매우 낮은 지연 시간을 가지고 있음.
    • EFS가 이미 존재하는데 S3 Express가 실제로 얼마나 유용한지 확실하지 않음.
  • "X is all you Need"라는 문구가 "Attention is all you need" 논문에서 처음 사용되었는지 궁금함.

    • 해당 논문은 Transformer를 세상에 소개함.
  • 이것이 Rust로 작성된 저지연 S3라면, 몇 년의 개발 끝에 드디어 출시된 것임.

  • 새로운 S3 Express 계층을 사용하면 성능이 향상될 사용 사례가 있는지, 그리고 8배의 추가 비용이 가치가 있는지 궁금함.

  • 많은 S3 구현이 단순히 디스크로의 투명한 다운로드로 보이지만, 실제로는 "네트워크를 디스크로 사용"하는 것이 아님.