베이지안 데이터 분석, 제3판 (2013) [pdf]

▲

GN⁺ 7달전 | parent | ★ favorite | on: 베이지안 데이터 분석, 제3판 (2013) [pdf](sites.stat.columbia.edu)

Hacker News 의견

내가 가장 좋아하는 통계책임. Andrew Gelman 저자가 계층적 베이지안 모델의 이론적 연구를 통해 새로운 베이지안 통계의 한 분야를 만들었고, 실제 적용을 위해 Stan도 발표함. 이 책을 부록까지 포함해 1년 정도 틈틈이 공부한 경험이 있음. 그 후 계층적 베이지안 모델 연구에 기초가 되어 매우 유익했음. 입문서라기보다는 통계 역량을 한 단계 높이고 싶은 사람에게 강력 추천함. 먼저 1~5장 읽으면 Gelman의 모델링 철학을 잘 이해할 수 있고, 흥미로운 주제는 목차를 보며 선별적으로 읽는 방법 추천함
- Gelman을 정말 좋아하지만, "새로운 베이지안 통계의 한 분야를 창시했다"는 표현은 다소 과장된 사실임
- 이 책을 이해하기 전에 읽을 만한 통계책이나 강의가 있다면 추천해 달라는 질문임
- 의료 연구, 최적화, 제조 등 실제 테스트에 적용되는 통계에 초점을 둔 좋은 책이 있는지 궁금함
Gelman을 처음 알게 된 계기는 Linear Regression에 대한 훌륭한 시각적 설명 덕분임. 여기서 Regression and Other Stories도 인용됐는데, 베이지안 관련 챕터는 다루지 않아 추가로 읽어보고 싶어짐
베이지안 분석이 얼마나 유용한지 직접 경험함. 우리 팀이 수백만 개를 넘는 항목 중 얼마나 샘플링 해야 품질 검증이 가능한지 고민한 적이 있었고, 이 때 베이지안 분석으로 아주 우아한 해법을 찾았음. 수학 자체는 어렵지 않았는데도 엔지니어들이 이런 기본 기술을 배우는 데 매우 보수적인 태도를 보여 놀람. 다들 대학 1학년 수학은 잘 배웠음에도 말임
- 엔지니어들이 뭘 거부했고 왜 배워야 하는지 궁금함. 많은 엔지니어가 통계 입문 수업까진 듣지만, 베이지안 통계를 배워야 하는 이유가 불분명함. 오히려 p-value나 회귀계수 해석, 상호작용 효과 등은 제대로 해석하는 것도 어렵고, 실제 쓸모도 적을 것임. 반대로 데이터 과학자가 배포 자동화 파이프라인, Kubernetes pod, pytorch 모델 분산 학습 등 엔지니어링을 전부 할 필요도 없으니, 분업의 원칙이 있는 것임
BDA는 베이지안 모델링을 엄격하고 심도 있게 배우기에 최고의 책임. 그 외에도 Richard McElreath의 Statistical Rethinking, 그리고 Gelman과 Aki가 쓴 Regression and other stories 등 다양한 접근 방법이 있음. 본인은 코드와 예제 중심으로 설명하는 책을 집필했고, 오픈액세스 무료 공개 중임
관련 강의 자료 링크는 여기에서 확인 가능함
Columbia에서 Gelman이 주축이 되어 운영하는 통계 블로그를 좋아함. statmodeling.stat.columbia.edu에서 다양한 통계 논의가 이루어짐
- 공유해줘서 고맙고, 특히 인상 깊었던 글이 있다면 추천해 달라는 요청임
입문자라면 John Kruschke의 Doing Bayesian Data Analysis가 이해하기 쉽고 읽기 편해 훨씬 좋았음
- BDA는 대학원생용 책이고, 수학이 특별히 어렵진 않지만 최소한 수리통계 첫 강좌 정도는 이수한 독자를 가정함
관심은 많지만 이 교재는 벅차게 느껴짐. 시스템 성능 엔지니어를 위해 베이지안 기법만 빠르게 익힐 수 있는 속성 코스가 있으면 좋겠음. 혹시 두 분야 모두 아는 분이 있다면, 어떤 내용을 담아야 하는지 그리고 혼자 공부할 자료도 추천해줄 수 있을지 궁금함
- 내가 통계를 가르칠 때 꼭 쓰는 책은 Statistical Rethinking임. 실제로 모델링을 어떻게 생각하는가, 즉 가설을 분석하고 모델이 암시하는 가설을 파악하는 과정에 집중함. 어려운 점도 있지만 재미있는 부분이기도 하고 이 책이 그걸 잘 알려줌. 단점은 무료가 아니라는 점임 (하지만 저자의 강의가 YouTube에 무료로 올라와있으니 책이 없더라도 강의는 꼭 추천함). 추가로 Gelman이 저자 중 한 명인 Regression and Other Stories는 본 주제에 대해 더 쉽게 설명한 책임. Think Bayes와 Bayesian Methods for Hackers도 코딩 배경이 있는 입문자에게 추천함. 머신러닝 분야에서 확률적(베이지안) 기법의 장점에 중점 둔 책은 Kevin Murphy의 Probabilistic Machine Learning 추천함. 구판만 읽어봤는데 신판 평도 매우 좋다고 들음
- Bayesian Methods for Hackers (GitHub), 그리고 O'Reilly Bayesian Methods for Hackers의 온라인 자료도 참고할 만함
기본적 정량적 사고와 통계적 센스는 여전히 중요함. Bayes에서 배우지 않더라도 어디선가 꼭 배워야 함. "n의 제곱근 규칙"에 따라 신호-노이즈 비율이 측정 횟수의 제곱근에 비례해 향상됨. 하지만 아버지가 말하길, "나쁜 데이터를 많이 평균낼수록, 점점 틀린 답에 가까워질 가능성"도 있으니 조심해야 함
foundation model은 일종의 사후확률 근사 추정(interference)기로 볼 수 있는데, 여기서 불확실성은 대체로 생략됨. 베이지안적인 접근을 더 잘 활용했다면 성능이 더 좋아질 수도 있을 것임
데이터셋이 거대하지 않은 문제도 많기 때문에 모든 상황에 foundation model이 적합한 것이 아니며, 과업에 따라 베이지안 방법이 여전히 매우 유효함
베이즈 규칙은 확률적 추론에 근본적이기 때문에, 베이지안 방법을 써야 불확실성을 정량적으로 다룰 수 있음. 아직 딥러닝 모델에는 적용 효율이 부족하지만 원칙적으로 더 좋은 결과를 줄 수 있음
큰 데이터와 신경망을 활용해 베이지안 모델(변분 추론 등)도 충분히 맞출 수 있으니 관련성 여전히 있음
Bayesian workflow 책을 기다리고 있음