S3 Express가 당신에게 필요한 전부입니다

(warpstream.com)

9P by GN⁺ 2023-12-07 | ★ favorite | 댓글 3개

AWS의 새로운 "S3 Express One Zone" Low Latency 스토리지 클래스가 데이터 인프라 커뮤니티에서 주목받는 중
- 데이터 억세스 속도가 10배 빠르고, API 리퀘스트 비용은 50% 저렴. 분당 수백만 리퀘스트 처리 가능
S3 Express 스토리지 클래스는 기존 S3 Standard 대비 GiB당 8배 더 비싸서, 대규모 데이터 시스템의 "주" 저장소로는 부적합함
API 작업 비용은 50% 저렴하지만, 엄청 저렴한 것은 아니어서 이전에 S3 API의 비용 때문에 비실용적이었던 워크로드에는 여전히 맞지 않음
S3 Express는 512 KiB를 초과하는 모든 API 작업(쓰기 + 읽기)에 대해 GiB당 요금을 부과함
- 다르게 생각하면 모든 API 작업에는 512 KiB의 "무료" 대역폭이 제공되며, 이를 초과할 때만 비용을 지불
단, One Zone 스토리지 클래스이기 때문에, 데이터 시스템은 단일 AZ의 실패에 대비해 데이터를 수동으로 두 AZ에 복제해야 함
- 두 AZ에 데이터를 두 번 쓰는 비용은 응용 프로그램 계층에서 수동으로 데이터를 복제하는 비용과 유사함

최신 데이터 인프라에 대한 새로운 기회

새로운 스토리지 클래스는 동일한 아키텍처와 코드로 저지연과 높은 비용 또는 높은 지연과 낮은 비용 사이를 조정할 수 있는 새로운 기회를 제공함
모든 최신 데이터 시스템은 이제 로컬 디스크나 블록 스토리지(EBS)의 가용성에 따라 설계할 필요가 없으며, 오브젝트 스토리지를 기반으로 완전히 구축될 수 있음
데이터는 저지연 S3 Express 버킷에 쉽게 저장되었다가 비동기적으로 S3 Standard 버킷으로 이동될 수 있으며, 대부분의 최신 데이터 시스템은 이미 압축 기능을 가지고 있어 "스토리지 계층화"가 사실상 무료임

GN⁺의 의견

이 기사에서 가장 중요한 점은 AWS의 새로운 S3 Express One Zone 스토리지 클래스가 데이터 인프라에 어떤 변화를 가져올 수 있는지에 대한 전망이다. 이 스토리지 클래스는 데이터 시스템의 비용과 성능을 획기적으로 개선할 수 있는 새로운 기회를 제공하며, 이는 데이터 관리와 저장 방식에 혁신을 가져올 수 있다. 특히, 모든 데이터 시스템을 오브젝트 스토리지 중심으로 구축할 수 있는 능력은 많은 기업과 개발자에게 매력적인 옵션이 될 것이다. 이러한 변화는 데이터 인프라의 미래를 더욱 유연하고 비용 효율적으로 만들어 줄 것으로 기대된다.

kuroneko 2023-12-07 [-]

어떻게 사용될지 궁금하네요.

heycalmdown 2023-12-07 [-]

바로 어제 WarpStream을 다시 검색해봤었기에 링크 첨부합니다
WarpStream : Kafka는 죽었다, Kafka 만세!

GN⁺ 2023-12-07 [-]

Hacker News 의견

S3 기반의 대부분의 프로덕션 스토리지 시스템/데이터베이스는 생산적인 성능을 내기 위해 SSD/메모리 캐싱 계층을 구축하는 데 상당한 노력을 기울임.
- S3 Express는 HDD 랜덤 읽기 속도에 근접하므로 SSD 캐시 없이도 프로덕션 시스템을 구축할 수 있음.
- 많은 시스템은 여전히 SSD 캐시를 유지할 것이지만, MVP는 이제 SSD 캐시 없이 구축할 수 있으며, 콜드 쿼리 대기 시간이 크게 감소함.
- 현재 객체 스토리지 위에 벡터 데이터베이스를 구축 중이므로 이 기술은 매우 시의적절함.
AWS S3 Express 스토리지 비용은 S3 표준보다 8배 높지만, 현대 데이터 스토리지 시스템에는 문제가 되지 않음.
- 데이터는 저지연 S3 Express 버킷에 쉽게 저장되고, 비동기적으로 S3 표준 버킷으로 압축 이동됨.
- 대부분의 현대 데이터 시스템은 이미 압축 기능을 가지고 있으므로, "스토리지 계층화"는 사실상 무료임.
- 대부분의 데이터 집약적 앱이 주 스토리지 계층으로 S3를 사용할 미래를 예상함.
몇 주 전에 검색 엔진 Quickwit에서 S3 Express를 테스트함.
- 성능 측면에서 만족스러웠지만 가격에 대해 실망함.
- 특정 사용 사례에서는 가격이 적절할 수 있지만, 대부분의 사용자는 기존 S3에 로컬 SSD 캐싱을 추가할 것으로 예상함.
추가적인 맥락으로, warpstream은 S3를 객체 저장소로 사용하는 Kafka 호환 스트리밍 시스템을 구축 중임.
- 이를 통해 저렴한 존 전송 비용과 자동 스토리지 계층화를 활용하여 시스템 운영 및 유지 관리 비용을 절감함.
- S3의 읽기/쓰기 속도로 인한 지연 시간이 문제였지만, S3 Express로 인해 이러한 지연 시간에 민감한 애플리케이션에서 Confluent Kafka의 관리형 제품과 경쟁할 수 있게 됨.
로컬에서 파일을 S3로 업로드하기 전에 Redis에 캐싱하여 문제를 해결함.
- 코드베이스가 파일을 사용할 때 Redis를 확인하고, 거기에 없으면 가져와 다시 캐싱함.
EFS는 S3보다 훨씬 우수하지만 주목을 받지 못하는 이유를 이해하지 못함.
- 시스템이 드라이브로 마운트할 수 있고, 시스템 간에 공유되며, 이미 매우 낮은 지연 시간을 가지고 있음.
- EFS가 이미 존재하는데 S3 Express가 실제로 얼마나 유용한지 확실하지 않음.
"X is all you Need"라는 문구가 "Attention is all you need" 논문에서 처음 사용되었는지 궁금함.
- 해당 논문은 Transformer를 세상에 소개함.
이것이 Rust로 작성된 저지연 S3라면, 몇 년의 개발 끝에 드디어 출시된 것임.
새로운 S3 Express 계층을 사용하면 성능이 향상될 사용 사례가 있는지, 그리고 8배의 추가 비용이 가치가 있는지 궁금함.
많은 S3 구현이 단순히 디스크로의 투명한 다운로드로 보이지만, 실제로는 "네트워크를 디스크로 사용"하는 것이 아님.