빅 데이터 종말 (2023)

(motherduck.com)

1P by GN⁺ 2024-05-28 | ★ favorite | 댓글 1개

빅 데이터는 죽었다

나는 누구이며 왜 이 글을 쓰는가?

10년 이상 빅 데이터의 중요성을 강조해왔음
Google BigQuery의 창립 엔지니어로서 빅 데이터를 다루는 기술을 홍보했음
고객과의 대화와 제품 분석을 통해 대부분의 사람들이 실제로 빅 데이터를 다루지 않음을 깨달았음

의무적인 소개 슬라이드

많은 빅 데이터 제품의 프레젠테이션은 "빅 데이터가 다가온다"는 메시지를 전달함
그러나 실제로는 대부분의 애플리케이션이 대규모 데이터를 처리할 필요가 없음
전통적인 데이터베이스 시스템들이 다시 인기를 얻고 있음

대부분의 사람들은 그렇게 많은 데이터를 가지고 있지 않음

대부분의 고객들은 1TB 이하의 데이터를 보유하고 있음
대규모 데이터를 보유한 고객들도 실제로는 작은 부분만을 사용함
데이터 크기는 파레토 법칙을 따르며, 대부분의 데이터는 소수의 고객에게 집중됨

저장과 컴퓨팅의 분리에서의 저장 편향

현대 클라우드 데이터 플랫폼은 저장과 컴퓨팅을 분리함
저장 공간은 빠르게 증가하지만 컴퓨팅 필요성은 크게 변하지 않음
대규모 데이터 세트를 처리하기 위해 분산 처리가 필요하지 않을 수 있음

작업 크기는 전체 데이터 크기보다 작음

대부분의 분석 작업은 작은 데이터 세트를 처리함
대규모 데이터를 처리하는 쿼리는 드물며, 주로 보고서 생성에 사용됨
데이터 처리 비용을 줄이기 위해 작은 쿼리를 선호함

대부분의 데이터는 거의 쿼리되지 않음

대부분의 데이터는 생성된 지 24시간 이내에만 자주 쿼리됨
오래된 데이터는 거의 쿼리되지 않으며, 저장 공간만 차지함

빅 데이터의 경계는 계속 후퇴함

"빅 데이터"의 정의는 시간이 지남에 따라 변화함
현대의 하드웨어는 과거보다 훨씬 더 큰 데이터를 처리할 수 있음

데이터는 책임임

데이터를 보관하는 비용은 단순한 저장 비용을 초과함
규제 준수와 법적 책임을 고려해야 함
오래된 데이터는 유지 관리가 어려움

당신은 빅 데이터 1%에 속하는가?

대부분의 사람들은 빅 데이터를 다룰 필요가 없음
데이터가 정말로 큰지, 요약이 가능한지 등을 고려해야 함

GN⁺의 의견

데이터 관리의 중요성: 데이터 크기보다는 데이터의 품질과 관리가 중요함. 불필요한 데이터를 제거하고 중요한 데이터에 집중하는 것이 효율적임.
현실적인 접근: 대부분의 기업은 빅 데이터 기술을 필요로 하지 않음. 실제 데이터 크기와 필요에 맞는 도구를 선택하는 것이 중요함.
비용 절감: 클라우드 환경에서 저장과 컴퓨팅을 분리하여 비용을 절감할 수 있음. 불필요한 데이터 처리를 줄이는 것이 경제적임.
법적 책임: 데이터 보관은 법적 책임을 수반함. 규제 준수와 데이터 보안에 주의해야 함.
기술 발전: 하드웨어와 소프트웨어의 발전으로 인해 과거에는 불가능했던 데이터 처리가 가능해짐. 최신 기술을 활용하여 효율성을 높일 수 있음.

▲

GN⁺ 2024-05-28 [-]

Hacker News 의견

데이터 과학자 채용 경험: 6TiB의 데이터를 다루는 아키텍처를 묻는 질문에서, 스마트폰이나 저렴한 HDD로 해결할 수 있다는 점을 이해한 지원자가 가장 인상적이었음.
MongoDB와 PostgreSQL 비교: MongoDB는 PostgreSQL보다 나은 점이 없으며, 빅데이터 솔루션은 주로 컬럼형 데이터베이스나 Map/Reduce, Cassandra 등을 사용함.
성공을 위한 계획: 대부분의 사업은 유니콘 기업이 되지 않지만, 이를 목표로 해야 하며, 초기부터 확장성을 고려한 아키텍처가 필요함.
데이터 크기와 쿼리 빈도: 대부분의 데이터는 크지 않으며, 대부분의 쿼리는 작은 규모임. 초기에는 데이터를 줄이는 작업이 필요함.
빅데이터와 규제 비용: 데이터 비용은 규제로 인해 증가하고 있음.
빅데이터 분석 경험: 대형 하드론 충돌기에서의 경험으로, 빠른 로컬 스토리지가 글로벌 슈퍼컴퓨터 네트워크보다 나았음.
빅데이터의 역설: 하드웨어 요구사항을 과시하기 위해 기본적인 소프트웨어 최적화를 피하는 경향이 있었음.
데이터의 정보 내용: 데이터는 기하급수적으로 증가하지만, 정보 내용은 그렇지 않음. 금융에서는 대부분의 데이터가 중복되며, 차원 축소가 필요함.
빅데이터의 정의: 빅데이터는 단순히 저장 용량이나 처리 속도의 문제가 아니라, 데이터를 통합하고 이해하는 인지 능력의 문제임.
빅데이터 도구의 과잉 설계: 많은 경우 데이터 웨어하우스와 데이터 레이크는 기가바이트나 테라바이트 단위로 충분하며, 간단한 아키텍처가 더 나은 성능을 제공함.
빅데이터의 유행: 빅데이터의 유행은 끝났으며, 이는 패션에 민감한 산업에서 흔한 결과임.
빅데이터와 창업자의 자아: 빅데이터의 주요 동인은 창업자의 자아였으며, 초기에는 SQLite DB 하나로 충분함.
빅데이터의 처리 문제: 빅데이터는 저장보다는 처리의 문제이며, 대부분의 쿼리는 최근 데이터만을 다룸. 전체 데이터를 처리하는 것이 더 쉽다면, 대부분의 기업은 여전히 작은 데이터만 쿼리할지 의문임.

답변달기