3P by neo 2023-08-09 | favorite | 댓글 1개
  • 이 기사는 S3 위에 직접 구축된 Kafka 프로토콜 호환 데이터 스트리밍 플랫폼인 WarpStream을 소개합니다.
  • WarpStream은 단일, 상태 없는 Go 바이너리로 제공되어, 로컬 디스크 관리, 브로커 재균형 및 ZooKeeper 운영의 필요성을 제거합니다.
  • 이 플랫폼은 데이터를 직접 S3로 스트리밍함으로써 인프라 비용을 크게 줄이고, 클라우드에서 Kafka보다 5-10배 저렴합니다.
  • 이 기사는 Kafka의 현대 작업 부하에 대한 적합성을 비판하며, 높은 인터-AZ 대역폭 비용과 운영 오버헤드를 강조합니다.
  • WarpStream의 아키텍처는 Kafka와 다릅니다. 브로커 대신에, 상태 없는 "에이전트"가 있어 어떤 주제의 "리더"로 작용하거나, 어떤 소비자 그룹에 대한 오프셋을 커밋하거나, 클러스터의 조정자로 작용할 수 있습니다.
  • WarpStream에서 모든 저장소는 S3와 같은 객체 저장소로 오프로드되어, 쉬운 확장과 빠른 실패 복구가 가능합니다.
  • WarpStream은 데이터와 메타데이터를 분리하며, 모든 "가상 클러스터"의 메타데이터를 사용자 정의 메타데이터 데이터베이스에 저장합니다.
  • 이 플랫폼은 대부분의 Kafka 작업 부하의 총 비용을 5-10배 크게 줄이지만, 생산 요청에 대한 P99이 약 400ms이고 생산자에서 소비자까지 약 1초의 더 높은 지연 시간이 있습니다.
  • WarpStream은 현재 개발자 미리보기 단계에 있으며 아직 생산 사용에는 준비되지 않았습니다.
  • WarpStream의 창조자들은 Kafka의 개발자 UX가 문제라고 생각하며, 특히 파티션의 저수준 추상화를 문제로 지적합니다. 그들은 이를 WarpStream의 향후 업데이트에서 해결할 계획입니다.
  • 이 기사는 독자들에게 WarpStream을 시도하고 피드백을 제공하도록 초대하며 마무리됩니다.
Hacker News 의견
  • 데이터 스트리밍 기술인 Kafka의 이분법적 성격에 대한 기사
  • 기술 회사 대부분이 Kafka를 사용하는지에 대한 논쟁
  • 각 메시지를 S3에 직접 푸시하는 것의 비용 효율성과 각 AZ에서 Kafka 클러스터를 운영하는 문제
  • S3 위에 바로 구축된 Kafka 프로토콜 호환 스트리밍 시스템인 WarpStream의 공동 창립자 및 CTO, Ryan Worl에 의한 소개
  • WarpStream의 비용 효율성, 상태를 가진 디스크/노드의 운영 필요성 없음, 데이터 재균형 또는 ZooKeeper 필요성 없음, 감소된 크로스-AZ 대역폭 요금 강조
  • 클라우드 공급자에서 별도의 VM에서 Kafka를 운영하는 비용에 대한 비판
  • 제공자의 중복성을 활용하기 위해 제대로 설계된 Hadoop/Kafka 클라우드 관리 서비스에서 스토리지 어댑터 사용에 대한 논의
  • Kafka가 전문가 팀과 큰 예산을 필요로 한다는 기사의 주장에 대한 일부 사용자들의 불평
  • Kafka에서 파티션 수를 변경할 수 있다는 사실 강조
  • Kafka 운영이 대규모 엔지니어 팀을 필요로 한다는 기사의 주장에 대한 논쟁
  • WarpStream이 서비스를 어떻게 관리하는지, 클라우드 공급자 또는 베어 메탈을 사용하는지, 메타데이터 스토어에 foundationdb를 사용하는지에 대한 의문
  • Kafka의 API의 잠재력과 클러스터 관리의 복잡성을 추상화하는 가능성에 대한 논의
  • 대규모 ML 트래픽을 S3로 이동시키는 것의 비용 절감, 한 사용자는 약 90%의 비용 절감을 보고함
  • 새로운 기술의 도입을 반영하여 "Kafka는 죽었다. 왕이 될 Warpstream."으로 기사 제목 변경 제안