파이썬 데이터 사이언스 핸드북

(jakevdp.github.io)

43P by GN⁺ 8달전 | ★ favorite | 댓글 2개

파이썬 기반 데이터 과학의 핵심 도구와 기법을 다루는 온라인 핸드북으로, 전체 내용이 웹사이트와 GitHub에서 공개됨
Jupyter 노트북 형식으로 제공되어 실습 중심의 학습이 가능하며, 코드와 텍스트가 함께 포함됨
텍스트는 CC-BY-NC-ND 라이선스, 코드 예제는 MIT 라이선스로 배포되어 자유로운 비상업적 활용이 가능함
IPython, NumPy, Pandas, Matplotlib, Scikit-Learn 등 데이터 분석과 머신러닝 핵심 라이브러리를 체계적으로 다룸
데이터 과학 입문자부터 실무자까지 파이썬 생태계의 표준 워크플로우를 익히는 데 유용한 자료임

개요

이 사이트는 Jake VanderPlas의 『Python Data Science Handbook』 전체 내용을 담고 있음
- 원본 도서는 O’Reilly에서 출간되었으며, 웹 버전은 무료로 공개됨
- 모든 내용은 GitHub 저장소에서 Jupyter 노트북 형태로 제공됨
텍스트는 CC-BY-NC-ND 라이선스, 코드 예제는 MIT 라이선스로 배포됨
- 비상업적 이용과 코드 재사용이 가능함
독자가 유용하다고 느낄 경우, 원서 구매를 통해 저자를 후원할 수 있음

목차 구성

책은 총 5개 주요 장과 부록으로 구성되어 있음

1장: IPython – 일반 파이썬을 넘어서

IPython 환경의 기능과 사용법을 설명
- 도움말 시스템, 키보드 단축키, 매직 명령어, 셸 명령 연동 등 포함
- 코드 실행 이력, 디버깅, 성능 측정 기능을 다룸

2장: NumPy 소개

NumPy 배열을 이용한 수치 계산의 기초를 다룸
- 데이터 타입, 브로드캐스팅, 불리언 마스크, 정렬, 구조화 배열 등 포함
- 배열 기반 연산과 집계 함수의 활용법을 설명

3장: Pandas를 이용한 데이터 조작

Pandas의 핵심 객체와 데이터 처리 기능을 다룸
- 인덱싱, 결측치 처리, 그룹화, 피벗 테이블, 시계열 처리 등 포함
- eval()과 query()를 통한 고성능 연산 기능도 소개

4장: Matplotlib을 이용한 시각화

Matplotlib과 Seaborn을 활용한 데이터 시각화 방법을 설명
- 선 그래프, 산점도, 히스토그램, 밀도 플롯 등 다양한 그래프 유형 포함
- 범례, 색상 막대, 스타일시트, 3D 그래프, 지리 데이터 시각화 등 고급 기능 다룸

5장: 머신러닝

Scikit-Learn을 중심으로 머신러닝의 기본 개념과 알고리듬을 다룸
- 하이퍼파라미터, 모델 검증, 특성 엔지니어링 등 핵심 절차 포함
- 나이브 베이즈, 선형 회귀, SVM, 랜덤 포레스트, PCA, k-평균, GMM 등 주요 모델 설명
- 얼굴 인식 파이프라인 예시를 통해 실제 응용 사례 제시

부록: 그림 코드

본문에 사용된 시각화 코드를 모아 제공
- 각 그림의 재현 및 수정이 가능함

활용 의의

데이터 과학 학습자에게 파이썬 생태계의 통합적 이해를 제공
실습 가능한 노트북 형식으로 교육·연구·프로토타이핑에 활용 가능
오픈소스 라이선스로 공개되어 지속적 확장과 커뮤니티 기여가 용이함

GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기

aer0700 8달전 [-]

https://product.kyobobook.co.kr/detail/S000201558138
파이썬 라이브러리를 활용한 데이터 분석
판다스 만든 웨스 맥키니가 쓴 책인데, 데이터 사이언스 입문서로 이 책도 좋습니다. 저는 이 책 2판 처음 나왔을 때 봤었는데... 지금 검색해보니 3판이 나왔었군요

GN⁺ 8달전 [-]

Hacker News 의견

Jake VanderPlas의 Statistics for Hackers 강연을 정말 좋아했음
발표 자료 보기
- 공유해줘서 고마움. 확률 대신 빈도로 사고하는 게 얼마나 오류를 줄이는지 떠올리게 됨
  예를 들어, 질병 유병률이 1/10,000인데 테스트 정확도가 99%라 해도 양성 결과가 99% 확률로 질병을 의미하지는 않음
이런 종류의 책은 항상 흥미로움
데이터 조작, 시각화, 머신러닝 등 다양한 주제를 넓고 얕게 다루며, 각 주제만으로도 한 권의 책이 될 수 있음
프로그래밍 교육과 개념·이론 소개의 균형을 잡기 어렵지만, 이 책은 입문서로서 좋은 균형을 이룬 듯함
이 책은 2017~2018년에 데이터 사이언스를 시작할 때 정말 불🔥처럼 유용했음
Jake는 훌륭한 교사였음
요즘 시점에 Pandas를 선택한 게 흥미로움
아마도 최신 도구보다 일반적인 개념 전달에 초점을 둔 것 같음
- 원래 2016년에 출판된 책이라 아직 1판일 가능성이 높음
- Pandas는 여전히 업계 표준이라 생각함. Polars나 Spark는 데이터 엔지니어링 성능에 초점이 맞춰져 있고, 데이터 사이언스 전체를 다루기엔 적합하지 않음
- 책이 꽤 오래된 편이라 “요즘”이라는 표현이 맞지 않을 수도 있음
- Pandas가 뭐가 문제인지 잘 모르겠음
첫 직장에서 Kernel Density Estimation(KDE) 관련 블로그를 참고했는데, 엄청 유용했음
그때부터 Jake의 작업을 좋아하게 됨
책의 온라인 버전이 learningds.org에 공개되어 있음
라이선스는 CC-BY-NC-ND임
Pandas를 싫어하는 이유를 잘 모르겠음
완벽한 도구는 아니지만, 우리 코드베이스에는 수천 줄의 Pandas 코드가 있고 프로덕션 버그를 일으킨 적이 거의 없음
Pandas에 정적 스키마 래퍼와 타입 체커를 함께 써서 안정적으로 운영 중임
- 직접 만든 스키마 래퍼인지, 아니면 PyPI에 추천할 만한 패키지가 있는지 궁금함
그는 훌륭한 작가였고, 블로그가 그리움
특히 피벗 테이블에 대한 글이 인상 깊었는데, 그 내용이 지금은 책에 포함된 듯함
- 그는 Python용 시각화 라이브러리 Altair(Vega-Lite 기반)의 제작자이기도 함
  Altair 공식 사이트에서 확인 가능함
이 책은 8년 전에 쓰였지만, 같은 저자의 2판이 존재함
- GitHub 저장소에 2판 노트북 버전이 있음
  “Python Data Science Handbook, 2nd edition, by Jake VanderPlas (O’Reilly). Copyright 2023…”으로 표기되어 있음
  원본 링크의 2016년판과 비교 가능함
2020~2021년에 데이터 사이언스를 배우며 처음부터 끝까지 완독한 몇 안 되는 책 중 하나였음
지금도 추천할 만함