- 이 기사는 S3 위에 직접 구축된 Kafka 프로토콜 호환 데이터 스트리밍 플랫폼인 WarpStream을 소개합니다.
- WarpStream은 단일, 상태 없는 Go 바이너리로 제공되어, 로컬 디스크 관리, 브로커 재균형 및 ZooKeeper 운영의 필요성을 제거합니다.
- 이 플랫폼은 데이터를 직접 S3로 스트리밍함으로써 인프라 비용을 크게 줄이고, 클라우드에서 Kafka보다 5-10배 저렴합니다.
- 이 기사는 Kafka의 현대 작업 부하에 대한 적합성을 비판하며, 높은 인터-AZ 대역폭 비용과 운영 오버헤드를 강조합니다.
- WarpStream의 아키텍처는 Kafka와 다릅니다. 브로커 대신에, 상태 없는 "에이전트"가 있어 어떤 주제의 "리더"로 작용하거나, 어떤 소비자 그룹에 대한 오프셋을 커밋하거나, 클러스터의 조정자로 작용할 수 있습니다.
- WarpStream에서 모든 저장소는 S3와 같은 객체 저장소로 오프로드되어, 쉬운 확장과 빠른 실패 복구가 가능합니다.
- WarpStream은 데이터와 메타데이터를 분리하며, 모든 "가상 클러스터"의 메타데이터를 사용자 정의 메타데이터 데이터베이스에 저장합니다.
- 이 플랫폼은 대부분의 Kafka 작업 부하의 총 비용을 5-10배 크게 줄이지만, 생산 요청에 대한 P99이 약 400ms이고 생산자에서 소비자까지 약 1초의 더 높은 지연 시간이 있습니다.
- WarpStream은 현재 개발자 미리보기 단계에 있으며 아직 생산 사용에는 준비되지 않았습니다.
- WarpStream의 창조자들은 Kafka의 개발자 UX가 문제라고 생각하며, 특히 파티션의 저수준 추상화를 문제로 지적합니다. 그들은 이를 WarpStream의 향후 업데이트에서 해결할 계획입니다.
- 이 기사는 독자들에게 WarpStream을 시도하고 피드백을 제공하도록 초대하며 마무리됩니다.