S3 Express가 당신에게 필요한 전부입니다

▲

GN⁺ 2023-12-07 | parent | ★ favorite | on: S3 Express가 당신에게 필요한 전부입니다(warpstream.com)

Hacker News 의견

S3 기반의 대부분의 프로덕션 스토리지 시스템/데이터베이스는 생산적인 성능을 내기 위해 SSD/메모리 캐싱 계층을 구축하는 데 상당한 노력을 기울임.
- S3 Express는 HDD 랜덤 읽기 속도에 근접하므로 SSD 캐시 없이도 프로덕션 시스템을 구축할 수 있음.
- 많은 시스템은 여전히 SSD 캐시를 유지할 것이지만, MVP는 이제 SSD 캐시 없이 구축할 수 있으며, 콜드 쿼리 대기 시간이 크게 감소함.
- 현재 객체 스토리지 위에 벡터 데이터베이스를 구축 중이므로 이 기술은 매우 시의적절함.
AWS S3 Express 스토리지 비용은 S3 표준보다 8배 높지만, 현대 데이터 스토리지 시스템에는 문제가 되지 않음.
- 데이터는 저지연 S3 Express 버킷에 쉽게 저장되고, 비동기적으로 S3 표준 버킷으로 압축 이동됨.
- 대부분의 현대 데이터 시스템은 이미 압축 기능을 가지고 있으므로, "스토리지 계층화"는 사실상 무료임.
- 대부분의 데이터 집약적 앱이 주 스토리지 계층으로 S3를 사용할 미래를 예상함.
몇 주 전에 검색 엔진 Quickwit에서 S3 Express를 테스트함.
- 성능 측면에서 만족스러웠지만 가격에 대해 실망함.
- 특정 사용 사례에서는 가격이 적절할 수 있지만, 대부분의 사용자는 기존 S3에 로컬 SSD 캐싱을 추가할 것으로 예상함.
추가적인 맥락으로, warpstream은 S3를 객체 저장소로 사용하는 Kafka 호환 스트리밍 시스템을 구축 중임.
- 이를 통해 저렴한 존 전송 비용과 자동 스토리지 계층화를 활용하여 시스템 운영 및 유지 관리 비용을 절감함.
- S3의 읽기/쓰기 속도로 인한 지연 시간이 문제였지만, S3 Express로 인해 이러한 지연 시간에 민감한 애플리케이션에서 Confluent Kafka의 관리형 제품과 경쟁할 수 있게 됨.
로컬에서 파일을 S3로 업로드하기 전에 Redis에 캐싱하여 문제를 해결함.
- 코드베이스가 파일을 사용할 때 Redis를 확인하고, 거기에 없으면 가져와 다시 캐싱함.
EFS는 S3보다 훨씬 우수하지만 주목을 받지 못하는 이유를 이해하지 못함.
- 시스템이 드라이브로 마운트할 수 있고, 시스템 간에 공유되며, 이미 매우 낮은 지연 시간을 가지고 있음.
- EFS가 이미 존재하는데 S3 Express가 실제로 얼마나 유용한지 확실하지 않음.
"X is all you Need"라는 문구가 "Attention is all you need" 논문에서 처음 사용되었는지 궁금함.
- 해당 논문은 Transformer를 세상에 소개함.
이것이 Rust로 작성된 저지연 S3라면, 몇 년의 개발 끝에 드디어 출시된 것임.
새로운 S3 Express 계층을 사용하면 성능이 향상될 사용 사례가 있는지, 그리고 8배의 추가 비용이 가치가 있는지 궁금함.
많은 S3 구현이 단순히 디스크로의 투명한 다운로드로 보이지만, 실제로는 "네트워크를 디스크로 사용"하는 것이 아님.