# 파이썬 데이터 사이언스 핸드북

> Clean Markdown view of GeekNews topic #24812. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=24812](https://news.hada.io/topic?id=24812)
- GeekNews Markdown: [https://news.hada.io/topic/24812.md](https://news.hada.io/topic/24812.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-12-04T07:34:20+09:00
- Updated: 2025-12-04T07:34:20+09:00
- Original source: [jakevdp.github.io](https://jakevdp.github.io/PythonDataScienceHandbook/)
- Points: 43
- Comments: 2

## Summary

Jake VanderPlas의 『Python Data Science Handbook』이 웹과 GitHub에서 **Jupyter 노트북 형태로 완전 공개**되었습니다. **NumPy, Pandas, Matplotlib, Scikit-Learn** 등 데이터 분석의 핵심 스택을 실습 중심으로 익힐 수 있어, 파이썬 기반 데이터 과학의 표준 워크플로우를 체계적으로 배우기에 최적입니다.

## Topic Body

- **파이썬 기반 데이터 과학**의 핵심 도구와 기법을 다루는 온라인 핸드북으로, 전체 내용이 웹사이트와 GitHub에서 공개됨  
- **Jupyter 노트북 형식**으로 제공되어 실습 중심의 학습이 가능하며, 코드와 텍스트가 함께 포함됨  
- 텍스트는 **CC-BY-NC-ND 라이선스**, 코드 예제는 **MIT 라이선스**로 배포되어 자유로운 비상업적 활용이 가능함  
- IPython, NumPy, Pandas, Matplotlib, Scikit-Learn 등 **데이터 분석과 머신러닝 핵심 라이브러리**를 체계적으로 다룸  
- 데이터 과학 입문자부터 실무자까지 **파이썬 생태계의 표준 워크플로우**를 익히는 데 유용한 자료임  

---
### 개요
- 이 사이트는 Jake VanderPlas의 **『Python Data Science Handbook』** 전체 내용을 담고 있음  
  - 원본 도서는 O’Reilly에서 출간되었으며, 웹 버전은 무료로 공개됨  
  - 모든 내용은 GitHub 저장소에서 Jupyter 노트북 형태로 제공됨  
- 텍스트는 **CC-BY-NC-ND 라이선스**, 코드 예제는 **MIT 라이선스**로 배포됨  
  - 비상업적 이용과 코드 재사용이 가능함  
- 독자가 유용하다고 느낄 경우, 원서 구매를 통해 저자를 후원할 수 있음  

### 목차 구성
- 책은 총 5개 주요 장과 부록으로 구성되어 있음  

#### 1장: IPython – 일반 파이썬을 넘어서
- **IPython** 환경의 기능과 사용법을 설명  
  - 도움말 시스템, 키보드 단축키, 매직 명령어, 셸 명령 연동 등 포함  
  - 코드 실행 이력, 디버깅, 성능 측정 기능을 다룸  

#### 2장: NumPy 소개
- **NumPy 배열**을 이용한 수치 계산의 기초를 다룸  
  - 데이터 타입, 브로드캐스팅, 불리언 마스크, 정렬, 구조화 배열 등 포함  
  - 배열 기반 연산과 집계 함수의 활용법을 설명  

#### 3장: Pandas를 이용한 데이터 조작
- **Pandas**의 핵심 객체와 데이터 처리 기능을 다룸  
  - 인덱싱, 결측치 처리, 그룹화, 피벗 테이블, 시계열 처리 등 포함  
  - `eval()`과 `query()`를 통한 고성능 연산 기능도 소개  

#### 4장: Matplotlib을 이용한 시각화
- **Matplotlib**과 **Seaborn**을 활용한 데이터 시각화 방법을 설명  
  - 선 그래프, 산점도, 히스토그램, 밀도 플롯 등 다양한 그래프 유형 포함  
  - 범례, 색상 막대, 스타일시트, 3D 그래프, 지리 데이터 시각화 등 고급 기능 다룸  

#### 5장: 머신러닝
- **Scikit-Learn**을 중심으로 머신러닝의 기본 개념과 알고리듬을 다룸  
  - 하이퍼파라미터, 모델 검증, 특성 엔지니어링 등 핵심 절차 포함  
  - 나이브 베이즈, 선형 회귀, SVM, 랜덤 포레스트, PCA, k-평균, GMM 등 주요 모델 설명  
  - 얼굴 인식 파이프라인 예시를 통해 실제 응용 사례 제시  

#### 부록: 그림 코드
- 본문에 사용된 **시각화 코드**를 모아 제공  
  - 각 그림의 재현 및 수정이 가능함  

### 활용 의의
- 데이터 과학 학습자에게 **파이썬 생태계의 통합적 이해**를 제공  
- 실습 가능한 노트북 형식으로 **교육·연구·프로토타이핑**에 활용 가능  
- 오픈소스 라이선스로 공개되어 **지속적 확장과 커뮤니티 기여**가 용이함

## Comments


### Comment 47297

- Author: aer0700
- Created: 2025-12-06T11:06:03+09:00
- Points: 1

https://product.kyobobook.co.kr/detail/S000201558138  
파이썬 라이브러리를 활용한 데이터 분석   
판다스 만든 웨스 맥키니가 쓴 책인데, 데이터 사이언스 입문서로 이 책도 좋습니다. 저는 이 책 2판 처음 나왔을 때 봤었는데... 지금 검색해보니 3판이 나왔었군요

### Comment 47167

- Author: neo
- Created: 2025-12-04T07:34:21+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=46120611) 
- Jake VanderPlas의 **Statistics for Hackers** 강연을 정말 좋아했음  
  [발표 자료 보기](https://speakerdeck.com/pycon2016/jake-vanderplas-statistics-for-hackers)
  - 공유해줘서 고마움. **확률 대신 빈도**로 사고하는 게 얼마나 오류를 줄이는지 떠올리게 됨  
    예를 들어, 질병 유병률이 1/10,000인데 테스트 정확도가 99%라 해도 양성 결과가 99% 확률로 질병을 의미하지는 않음  

- 이런 종류의 책은 항상 흥미로움  
  데이터 조작, 시각화, 머신러닝 등 다양한 주제를 **넓고 얕게** 다루며, 각 주제만으로도 한 권의 책이 될 수 있음  
  프로그래밍 교육과 개념·이론 소개의 균형을 잡기 어렵지만, 이 책은 입문서로서 좋은 균형을 이룬 듯함  

- 이 책은 2017~2018년에 데이터 사이언스를 시작할 때 정말 **불🔥처럼 유용**했음  
  Jake는 훌륭한 교사였음  

- 요즘 시점에 Pandas를 선택한 게 흥미로움  
  아마도 최신 도구보다 **일반적인 개념 전달**에 초점을 둔 것 같음  
  - 원래 2016년에 출판된 책이라 아직 1판일 가능성이 높음  
  - Pandas는 여전히 업계 표준이라 생각함. Polars나 Spark는 데이터 엔지니어링 성능에 초점이 맞춰져 있고, 데이터 사이언스 전체를 다루기엔 적합하지 않음  
  - 책이 꽤 오래된 편이라 “요즘”이라는 표현이 맞지 않을 수도 있음  
  - Pandas가 뭐가 문제인지 잘 모르겠음  

- 첫 직장에서 **Kernel Density Estimation(KDE)** 관련 블로그를 참고했는데, 엄청 유용했음  
  그때부터 Jake의 작업을 좋아하게 됨  

- 책의 온라인 버전이 [learningds.org](https://learningds.org/intro.html)에 공개되어 있음  
  라이선스는 **CC-BY-NC-ND**임  

- Pandas를 싫어하는 이유를 잘 모르겠음  
  완벽한 도구는 아니지만, 우리 코드베이스에는 수천 줄의 Pandas 코드가 있고 **프로덕션 버그**를 일으킨 적이 거의 없음  
  Pandas에 **정적 스키마 래퍼와 타입 체커**를 함께 써서 안정적으로 운영 중임  
  - 직접 만든 스키마 래퍼인지, 아니면 PyPI에 추천할 만한 패키지가 있는지 궁금함  

- 그는 훌륭한 작가였고, 블로그가 그리움  
  특히 **피벗 테이블**에 대한 글이 인상 깊었는데, 그 내용이 지금은 책에 포함된 듯함  
  - 그는 Python용 시각화 라이브러리 **Altair**(Vega-Lite 기반)의 제작자이기도 함  
    [Altair 공식 사이트](https://altair-viz.github.io/)에서 확인 가능함  

- 이 책은 8년 전에 쓰였지만, 같은 저자의 **2판**이 존재함  
  - [GitHub 저장소](https://github.com/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/00.00-Preface.ipynb)에 2판 노트북 버전이 있음  
    “Python Data Science Handbook, 2nd edition, by Jake VanderPlas (O’Reilly). Copyright 2023…”으로 표기되어 있음  
    원본 링크의 2016년판과 비교 가능함  

- 2020~2021년에 데이터 사이언스를 배우며 **처음부터 끝까지 완독한 몇 안 되는 책** 중 하나였음  
  지금도 추천할 만함