# 빅 데이터 종말 (2023)

> Clean Markdown view of GeekNews topic #15048. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=15048](https://news.hada.io/topic?id=15048)
- GeekNews Markdown: [https://news.hada.io/topic/15048.md](https://news.hada.io/topic/15048.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-05-28T09:40:35+09:00
- Updated: 2024-05-28T09:40:35+09:00
- Original source: [motherduck.com](https://motherduck.com/blog/big-data-is-dead/)
- Points: 1
- Comments: 1

## Topic Body

### 빅 데이터는 죽었다

#### 나는 누구이며 왜 이 글을 쓰는가?
- 10년 이상 빅 데이터의 중요성을 강조해왔음
- Google BigQuery의 창립 엔지니어로서 빅 데이터를 다루는 기술을 홍보했음
- 고객과의 대화와 제품 분석을 통해 대부분의 사람들이 실제로 빅 데이터를 다루지 않음을 깨달았음

#### 의무적인 소개 슬라이드
- 많은 빅 데이터 제품의 프레젠테이션은 "빅 데이터가 다가온다"는 메시지를 전달함
- 그러나 실제로는 대부분의 애플리케이션이 대규모 데이터를 처리할 필요가 없음
- 전통적인 데이터베이스 시스템들이 다시 인기를 얻고 있음

#### 대부분의 사람들은 그렇게 많은 데이터를 가지고 있지 않음
- 대부분의 고객들은 1TB 이하의 데이터를 보유하고 있음
- 대규모 데이터를 보유한 고객들도 실제로는 작은 부분만을 사용함
- 데이터 크기는 파레토 법칙을 따르며, 대부분의 데이터는 소수의 고객에게 집중됨

#### 저장과 컴퓨팅의 분리에서의 저장 편향
- 현대 클라우드 데이터 플랫폼은 저장과 컴퓨팅을 분리함
- 저장 공간은 빠르게 증가하지만 컴퓨팅 필요성은 크게 변하지 않음
- 대규모 데이터 세트를 처리하기 위해 분산 처리가 필요하지 않을 수 있음

#### 작업 크기는 전체 데이터 크기보다 작음
- 대부분의 분석 작업은 작은 데이터 세트를 처리함
- 대규모 데이터를 처리하는 쿼리는 드물며, 주로 보고서 생성에 사용됨
- 데이터 처리 비용을 줄이기 위해 작은 쿼리를 선호함

#### 대부분의 데이터는 거의 쿼리되지 않음
- 대부분의 데이터는 생성된 지 24시간 이내에만 자주 쿼리됨
- 오래된 데이터는 거의 쿼리되지 않으며, 저장 공간만 차지함

#### 빅 데이터의 경계는 계속 후퇴함
- "빅 데이터"의 정의는 시간이 지남에 따라 변화함
- 현대의 하드웨어는 과거보다 훨씬 더 큰 데이터를 처리할 수 있음

#### 데이터는 책임임
- 데이터를 보관하는 비용은 단순한 저장 비용을 초과함
- 규제 준수와 법적 책임을 고려해야 함
- 오래된 데이터는 유지 관리가 어려움

#### 당신은 빅 데이터 1%에 속하는가?
- 대부분의 사람들은 빅 데이터를 다룰 필요가 없음
- 데이터가 정말로 큰지, 요약이 가능한지 등을 고려해야 함

### GN⁺의 의견
- **데이터 관리의 중요성**: 데이터 크기보다는 데이터의 품질과 관리가 중요함. 불필요한 데이터를 제거하고 중요한 데이터에 집중하는 것이 효율적임.
- **현실적인 접근**: 대부분의 기업은 빅 데이터 기술을 필요로 하지 않음. 실제 데이터 크기와 필요에 맞는 도구를 선택하는 것이 중요함.
- **비용 절감**: 클라우드 환경에서 저장과 컴퓨팅을 분리하여 비용을 절감할 수 있음. 불필요한 데이터 처리를 줄이는 것이 경제적임.
- **법적 책임**: 데이터 보관은 법적 책임을 수반함. 규제 준수와 데이터 보안에 주의해야 함.
- **기술 발전**: 하드웨어와 소프트웨어의 발전으로 인해 과거에는 불가능했던 데이터 처리가 가능해짐. 최신 기술을 활용하여 효율성을 높일 수 있음.

## Comments



### Comment 25646

- Author: neo
- Created: 2024-05-28T09:40:35+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=40488844) 
- **데이터 과학자 채용 경험**: 6TiB의 데이터를 다루는 아키텍처를 묻는 질문에서, 스마트폰이나 저렴한 HDD로 해결할 수 있다는 점을 이해한 지원자가 가장 인상적이었음.

- **MongoDB와 PostgreSQL 비교**: MongoDB는 PostgreSQL보다 나은 점이 없으며, 빅데이터 솔루션은 주로 컬럼형 데이터베이스나 Map/Reduce, Cassandra 등을 사용함.

- **성공을 위한 계획**: 대부분의 사업은 유니콘 기업이 되지 않지만, 이를 목표로 해야 하며, 초기부터 확장성을 고려한 아키텍처가 필요함.

- **데이터 크기와 쿼리 빈도**: 대부분의 데이터는 크지 않으며, 대부분의 쿼리는 작은 규모임. 초기에는 데이터를 줄이는 작업이 필요함.

- **빅데이터와 규제 비용**: 데이터 비용은 규제로 인해 증가하고 있음.

- **빅데이터 분석 경험**: 대형 하드론 충돌기에서의 경험으로, 빠른 로컬 스토리지가 글로벌 슈퍼컴퓨터 네트워크보다 나았음.

- **빅데이터의 역설**: 하드웨어 요구사항을 과시하기 위해 기본적인 소프트웨어 최적화를 피하는 경향이 있었음.

- **데이터의 정보 내용**: 데이터는 기하급수적으로 증가하지만, 정보 내용은 그렇지 않음. 금융에서는 대부분의 데이터가 중복되며, 차원 축소가 필요함.

- **빅데이터의 정의**: 빅데이터는 단순히 저장 용량이나 처리 속도의 문제가 아니라, 데이터를 통합하고 이해하는 인지 능력의 문제임.

- **빅데이터 도구의 과잉 설계**: 많은 경우 데이터 웨어하우스와 데이터 레이크는 기가바이트나 테라바이트 단위로 충분하며, 간단한 아키텍처가 더 나은 성능을 제공함.

- **빅데이터의 유행**: 빅데이터의 유행은 끝났으며, 이는 패션에 민감한 산업에서 흔한 결과임.

- **빅데이터와 창업자의 자아**: 빅데이터의 주요 동인은 창업자의 자아였으며, 초기에는 SQLite DB 하나로 충분함.

- **빅데이터의 처리 문제**: 빅데이터는 저장보다는 처리의 문제이며, 대부분의 쿼리는 최근 데이터만을 다룸. 전체 데이터를 처리하는 것이 더 쉽다면, 대부분의 기업은 여전히 작은 데이터만 쿼리할지 의문임.
