20P by xguru 2023-02-13 | favorite | 댓글 1개
  • 나는 누구이고 왜 관심을 갖는가 → BigQuery의 초기 엔지니어
  • 필수 소개 슬라이드 → 모두들 참조하는 "시간이 지날수록 데이터는 폭증한다" 그래프
  • 대부분의 사람들은 그렇게 많은 데이터를 가지고 있지 않음
  • 스토리지와 컴퓨팅이 분리, 스토리지에 편향성을 가짐
  • 워크로드 크기가 전체 데이터 크기보다 작음
  • 대부분의 데이터는 거의 쿼리되지 앟음
  • 빅 데이터 프론티어는 계속해서 후퇴하는 중
  • 데이터는 책임(Liability)
    → 빅 데이터의 또 다른 정의는 "데이터를 유지하는 비용이 무엇을 버릴지 알아내는 비용보다 적을 때"
  • 당신은 빅데이터 1퍼센트에 속해있나요?
    • 정말 엄청난 양의 데이터를 생성하고 있나요?
    • 만약 그렇다면 정말 한 번에 엄청난 양의 데이터를 사용해야 하나요?
    • 만약 그렇다면 데이터가 너무 커서 하나의 시스템에 맞지 않습니까?
    • 만약 그렇다면, 당신은 단순한 데이터 수집가(Hoarder)가 아니라고 확신합니까?
    • 만약 그렇다면 요약하는 것이 더 좋지 않을까요?
  • 위 리스트중 하나의 질문에라도 노 라고 대답한다면,
    언제 가지게 될지도 모를 "무서운 규모의 빅 데이터"가 아닌
    "실제 가진 데이터 규모를 핸들링하게 해주는 차세대 데이터 도구"를 사용하는게 좋을 수도 있음

이 글을 쓴 회사는 MotherDuck 으로 "DuckDB"를 만드는 회사라는 걸 감안하고 봐야합니다.
DuckDB - Embedded OLAP DB 오픈소스

이 회사의 슬로건이 "Big Data is DEAD. Long live EASY DATA." 에요
"Your laptop is faster than your data warehouse. Why wait for the Cloud?" 라고 자신들의 임베디드DB를 홍보하는 회사입니다.

물론 그렇다고 글이 나쁜거는 아니에요. 전반적으로 한번 읽어볼만하고, 글의 많은 내용에 동의합니다.
얼마 되지도 않는 데이터로 "빅데이터" 한다고 얘기하는 회사가 너무 많아서요.