파이썬 데이터 사이언스 핸드북

▲

GN⁺ 5달전 | parent | ★ favorite | on: 파이썬 데이터 사이언스 핸드북(jakevdp.github.io)

Hacker News 의견

Jake VanderPlas의 Statistics for Hackers 강연을 정말 좋아했음
발표 자료 보기
- 공유해줘서 고마움. 확률 대신 빈도로 사고하는 게 얼마나 오류를 줄이는지 떠올리게 됨
  예를 들어, 질병 유병률이 1/10,000인데 테스트 정확도가 99%라 해도 양성 결과가 99% 확률로 질병을 의미하지는 않음
이런 종류의 책은 항상 흥미로움
데이터 조작, 시각화, 머신러닝 등 다양한 주제를 넓고 얕게 다루며, 각 주제만으로도 한 권의 책이 될 수 있음
프로그래밍 교육과 개념·이론 소개의 균형을 잡기 어렵지만, 이 책은 입문서로서 좋은 균형을 이룬 듯함
이 책은 2017~2018년에 데이터 사이언스를 시작할 때 정말 불🔥처럼 유용했음
Jake는 훌륭한 교사였음
요즘 시점에 Pandas를 선택한 게 흥미로움
아마도 최신 도구보다 일반적인 개념 전달에 초점을 둔 것 같음
- 원래 2016년에 출판된 책이라 아직 1판일 가능성이 높음
- Pandas는 여전히 업계 표준이라 생각함. Polars나 Spark는 데이터 엔지니어링 성능에 초점이 맞춰져 있고, 데이터 사이언스 전체를 다루기엔 적합하지 않음
- 책이 꽤 오래된 편이라 “요즘”이라는 표현이 맞지 않을 수도 있음
- Pandas가 뭐가 문제인지 잘 모르겠음
첫 직장에서 Kernel Density Estimation(KDE) 관련 블로그를 참고했는데, 엄청 유용했음
그때부터 Jake의 작업을 좋아하게 됨
책의 온라인 버전이 learningds.org에 공개되어 있음
라이선스는 CC-BY-NC-ND임
Pandas를 싫어하는 이유를 잘 모르겠음
완벽한 도구는 아니지만, 우리 코드베이스에는 수천 줄의 Pandas 코드가 있고 프로덕션 버그를 일으킨 적이 거의 없음
Pandas에 정적 스키마 래퍼와 타입 체커를 함께 써서 안정적으로 운영 중임
- 직접 만든 스키마 래퍼인지, 아니면 PyPI에 추천할 만한 패키지가 있는지 궁금함
그는 훌륭한 작가였고, 블로그가 그리움
특히 피벗 테이블에 대한 글이 인상 깊었는데, 그 내용이 지금은 책에 포함된 듯함
- 그는 Python용 시각화 라이브러리 Altair(Vega-Lite 기반)의 제작자이기도 함
  Altair 공식 사이트에서 확인 가능함
이 책은 8년 전에 쓰였지만, 같은 저자의 2판이 존재함
- GitHub 저장소에 2판 노트북 버전이 있음
  “Python Data Science Handbook, 2nd edition, by Jake VanderPlas (O’Reilly). Copyright 2023…”으로 표기되어 있음
  원본 링크의 2016년판과 비교 가능함
2020~2021년에 데이터 사이언스를 배우며 처음부터 끝까지 완독한 몇 안 되는 책 중 하나였음
지금도 추천할 만함