GN⁺: S3 Express가 당신에게 필요한 전부입니다
(warpstream.com)- AWS의 새로운 "S3 Express One Zone" Low Latency 스토리지 클래스가 데이터 인프라 커뮤니티에서 주목받는 중
- 데이터 억세스 속도가 10배 빠르고, API 리퀘스트 비용은 50% 저렴. 분당 수백만 리퀘스트 처리 가능
- S3 Express 스토리지 클래스는 기존 S3 Standard 대비 GiB당 8배 더 비싸서, 대규모 데이터 시스템의 "주" 저장소로는 부적합함
- API 작업 비용은 50% 저렴하지만, 엄청 저렴한 것은 아니어서 이전에 S3 API의 비용 때문에 비실용적이었던 워크로드에는 여전히 맞지 않음
- S3 Express는 512 KiB를 초과하는 모든 API 작업(쓰기 + 읽기)에 대해 GiB당 요금을 부과함
- 다르게 생각하면 모든 API 작업에는 512 KiB의 "무료" 대역폭이 제공되며, 이를 초과할 때만 비용을 지불
- 단, One Zone 스토리지 클래스이기 때문에, 데이터 시스템은 단일 AZ의 실패에 대비해 데이터를 수동으로 두 AZ에 복제해야 함
- 두 AZ에 데이터를 두 번 쓰는 비용은 응용 프로그램 계층에서 수동으로 데이터를 복제하는 비용과 유사함
최신 데이터 인프라에 대한 새로운 기회
- 새로운 스토리지 클래스는 동일한 아키텍처와 코드로 저지연과 높은 비용 또는 높은 지연과 낮은 비용 사이를 조정할 수 있는 새로운 기회를 제공함
- 모든 최신 데이터 시스템은 이제 로컬 디스크나 블록 스토리지(EBS)의 가용성에 따라 설계할 필요가 없으며, 오브젝트 스토리지를 기반으로 완전히 구축될 수 있음
- 데이터는 저지연 S3 Express 버킷에 쉽게 저장되었다가 비동기적으로 S3 Standard 버킷으로 이동될 수 있으며, 대부분의 최신 데이터 시스템은 이미 압축 기능을 가지고 있어 "스토리지 계층화"가 사실상 무료임
GN⁺의 의견
이 기사에서 가장 중요한 점은 AWS의 새로운 S3 Express One Zone 스토리지 클래스가 데이터 인프라에 어떤 변화를 가져올 수 있는지에 대한 전망이다. 이 스토리지 클래스는 데이터 시스템의 비용과 성능을 획기적으로 개선할 수 있는 새로운 기회를 제공하며, 이는 데이터 관리와 저장 방식에 혁신을 가져올 수 있다. 특히, 모든 데이터 시스템을 오브젝트 스토리지 중심으로 구축할 수 있는 능력은 많은 기업과 개발자에게 매력적인 옵션이 될 것이다. 이러한 변화는 데이터 인프라의 미래를 더욱 유연하고 비용 효율적으로 만들어 줄 것으로 기대된다.
Hacker News 의견
-
S3 기반의 대부분의 프로덕션 스토리지 시스템/데이터베이스는 생산적인 성능을 내기 위해 SSD/메모리 캐싱 계층을 구축하는 데 상당한 노력을 기울임.
- S3 Express는 HDD 랜덤 읽기 속도에 근접하므로 SSD 캐시 없이도 프로덕션 시스템을 구축할 수 있음.
- 많은 시스템은 여전히 SSD 캐시를 유지할 것이지만, MVP는 이제 SSD 캐시 없이 구축할 수 있으며, 콜드 쿼리 대기 시간이 크게 감소함.
- 현재 객체 스토리지 위에 벡터 데이터베이스를 구축 중이므로 이 기술은 매우 시의적절함.
-
AWS S3 Express 스토리지 비용은 S3 표준보다 8배 높지만, 현대 데이터 스토리지 시스템에는 문제가 되지 않음.
- 데이터는 저지연 S3 Express 버킷에 쉽게 저장되고, 비동기적으로 S3 표준 버킷으로 압축 이동됨.
- 대부분의 현대 데이터 시스템은 이미 압축 기능을 가지고 있으므로, "스토리지 계층화"는 사실상 무료임.
- 대부분의 데이터 집약적 앱이 주 스토리지 계층으로 S3를 사용할 미래를 예상함.
-
몇 주 전에 검색 엔진 Quickwit에서 S3 Express를 테스트함.
- 성능 측면에서 만족스러웠지만 가격에 대해 실망함.
- 특정 사용 사례에서는 가격이 적절할 수 있지만, 대부분의 사용자는 기존 S3에 로컬 SSD 캐싱을 추가할 것으로 예상함.
-
추가적인 맥락으로, warpstream은 S3를 객체 저장소로 사용하는 Kafka 호환 스트리밍 시스템을 구축 중임.
- 이를 통해 저렴한 존 전송 비용과 자동 스토리지 계층화를 활용하여 시스템 운영 및 유지 관리 비용을 절감함.
- S3의 읽기/쓰기 속도로 인한 지연 시간이 문제였지만, S3 Express로 인해 이러한 지연 시간에 민감한 애플리케이션에서 Confluent Kafka의 관리형 제품과 경쟁할 수 있게 됨.
-
로컬에서 파일을 S3로 업로드하기 전에 Redis에 캐싱하여 문제를 해결함.
- 코드베이스가 파일을 사용할 때 Redis를 확인하고, 거기에 없으면 가져와 다시 캐싱함.
-
EFS는 S3보다 훨씬 우수하지만 주목을 받지 못하는 이유를 이해하지 못함.
- 시스템이 드라이브로 마운트할 수 있고, 시스템 간에 공유되며, 이미 매우 낮은 지연 시간을 가지고 있음.
- EFS가 이미 존재하는데 S3 Express가 실제로 얼마나 유용한지 확실하지 않음.
-
"X is all you Need"라는 문구가 "Attention is all you need" 논문에서 처음 사용되었는지 궁금함.
- 해당 논문은 Transformer를 세상에 소개함.
-
이것이 Rust로 작성된 저지연 S3라면, 몇 년의 개발 끝에 드디어 출시된 것임.
-
새로운 S3 Express 계층을 사용하면 성능이 향상될 사용 사례가 있는지, 그리고 8배의 추가 비용이 가치가 있는지 궁금함.
-
많은 S3 구현이 단순히 디스크로의 투명한 다운로드로 보이지만, 실제로는 "네트워크를 디스크로 사용"하는 것이 아님.