GN⁺: 빅 데이터 종말 (2023)
(motherduck.com)빅 데이터는 죽었다
나는 누구이며 왜 이 글을 쓰는가?
- 10년 이상 빅 데이터의 중요성을 강조해왔음
- Google BigQuery의 창립 엔지니어로서 빅 데이터를 다루는 기술을 홍보했음
- 고객과의 대화와 제품 분석을 통해 대부분의 사람들이 실제로 빅 데이터를 다루지 않음을 깨달았음
의무적인 소개 슬라이드
- 많은 빅 데이터 제품의 프레젠테이션은 "빅 데이터가 다가온다"는 메시지를 전달함
- 그러나 실제로는 대부분의 애플리케이션이 대규모 데이터를 처리할 필요가 없음
- 전통적인 데이터베이스 시스템들이 다시 인기를 얻고 있음
대부분의 사람들은 그렇게 많은 데이터를 가지고 있지 않음
- 대부분의 고객들은 1TB 이하의 데이터를 보유하고 있음
- 대규모 데이터를 보유한 고객들도 실제로는 작은 부분만을 사용함
- 데이터 크기는 파레토 법칙을 따르며, 대부분의 데이터는 소수의 고객에게 집중됨
저장과 컴퓨팅의 분리에서의 저장 편향
- 현대 클라우드 데이터 플랫폼은 저장과 컴퓨팅을 분리함
- 저장 공간은 빠르게 증가하지만 컴퓨팅 필요성은 크게 변하지 않음
- 대규모 데이터 세트를 처리하기 위해 분산 처리가 필요하지 않을 수 있음
작업 크기는 전체 데이터 크기보다 작음
- 대부분의 분석 작업은 작은 데이터 세트를 처리함
- 대규모 데이터를 처리하는 쿼리는 드물며, 주로 보고서 생성에 사용됨
- 데이터 처리 비용을 줄이기 위해 작은 쿼리를 선호함
대부분의 데이터는 거의 쿼리되지 않음
- 대부분의 데이터는 생성된 지 24시간 이내에만 자주 쿼리됨
- 오래된 데이터는 거의 쿼리되지 않으며, 저장 공간만 차지함
빅 데이터의 경계는 계속 후퇴함
- "빅 데이터"의 정의는 시간이 지남에 따라 변화함
- 현대의 하드웨어는 과거보다 훨씬 더 큰 데이터를 처리할 수 있음
데이터는 책임임
- 데이터를 보관하는 비용은 단순한 저장 비용을 초과함
- 규제 준수와 법적 책임을 고려해야 함
- 오래된 데이터는 유지 관리가 어려움
당신은 빅 데이터 1%에 속하는가?
- 대부분의 사람들은 빅 데이터를 다룰 필요가 없음
- 데이터가 정말로 큰지, 요약이 가능한지 등을 고려해야 함
GN⁺의 의견
- 데이터 관리의 중요성: 데이터 크기보다는 데이터의 품질과 관리가 중요함. 불필요한 데이터를 제거하고 중요한 데이터에 집중하는 것이 효율적임.
- 현실적인 접근: 대부분의 기업은 빅 데이터 기술을 필요로 하지 않음. 실제 데이터 크기와 필요에 맞는 도구를 선택하는 것이 중요함.
- 비용 절감: 클라우드 환경에서 저장과 컴퓨팅을 분리하여 비용을 절감할 수 있음. 불필요한 데이터 처리를 줄이는 것이 경제적임.
- 법적 책임: 데이터 보관은 법적 책임을 수반함. 규제 준수와 데이터 보안에 주의해야 함.
- 기술 발전: 하드웨어와 소프트웨어의 발전으로 인해 과거에는 불가능했던 데이터 처리가 가능해짐. 최신 기술을 활용하여 효율성을 높일 수 있음.
Hacker News 의견
-
데이터 과학자 채용 경험: 6TiB의 데이터를 다루는 아키텍처를 묻는 질문에서, 스마트폰이나 저렴한 HDD로 해결할 수 있다는 점을 이해한 지원자가 가장 인상적이었음.
-
MongoDB와 PostgreSQL 비교: MongoDB는 PostgreSQL보다 나은 점이 없으며, 빅데이터 솔루션은 주로 컬럼형 데이터베이스나 Map/Reduce, Cassandra 등을 사용함.
-
성공을 위한 계획: 대부분의 사업은 유니콘 기업이 되지 않지만, 이를 목표로 해야 하며, 초기부터 확장성을 고려한 아키텍처가 필요함.
-
데이터 크기와 쿼리 빈도: 대부분의 데이터는 크지 않으며, 대부분의 쿼리는 작은 규모임. 초기에는 데이터를 줄이는 작업이 필요함.
-
빅데이터와 규제 비용: 데이터 비용은 규제로 인해 증가하고 있음.
-
빅데이터 분석 경험: 대형 하드론 충돌기에서의 경험으로, 빠른 로컬 스토리지가 글로벌 슈퍼컴퓨터 네트워크보다 나았음.
-
빅데이터의 역설: 하드웨어 요구사항을 과시하기 위해 기본적인 소프트웨어 최적화를 피하는 경향이 있었음.
-
데이터의 정보 내용: 데이터는 기하급수적으로 증가하지만, 정보 내용은 그렇지 않음. 금융에서는 대부분의 데이터가 중복되며, 차원 축소가 필요함.
-
빅데이터의 정의: 빅데이터는 단순히 저장 용량이나 처리 속도의 문제가 아니라, 데이터를 통합하고 이해하는 인지 능력의 문제임.
-
빅데이터 도구의 과잉 설계: 많은 경우 데이터 웨어하우스와 데이터 레이크는 기가바이트나 테라바이트 단위로 충분하며, 간단한 아키텍처가 더 나은 성능을 제공함.
-
빅데이터의 유행: 빅데이터의 유행은 끝났으며, 이는 패션에 민감한 산업에서 흔한 결과임.
-
빅데이터와 창업자의 자아: 빅데이터의 주요 동인은 창업자의 자아였으며, 초기에는 SQLite DB 하나로 충분함.
-
빅데이터의 처리 문제: 빅데이터는 저장보다는 처리의 문제이며, 대부분의 쿼리는 최근 데이터만을 다룸. 전체 데이터를 처리하는 것이 더 쉽다면, 대부분의 기업은 여전히 작은 데이터만 쿼리할지 의문임.