1P by neo 2달전 | favorite | 댓글 1개

선형 회귀의 진실

  • 소개

    • 이 문서는 2015년 가을에 36-401, 현대 회귀 강의를 할 때 작성한 강의 노트를 기반으로 함
    • 선형 회귀를 배우거나 가르치는 사람들에게 도움이 될 수 있음
    • 기존의 이론에서 Gaussian 노이즈와 정확히 지정된 선형 모델에 의존하는 부분을 줄이고, 더 계산 집약적이지만 견고한 기술을 강조함
  • PDF 전체 텍스트

    • 데이터 파일
    • 각 장의 R 코드
    • 현재 개요
  • 최적 예측

    • 통계 모델링 소개
    • 단순 선형 회귀 모델과 추정에 대한 힌트
  • 단순 선형 회귀를 위한 최소 제곱법

    • 단순 선형 회귀를 위한 최대 우도법
    • 단순 회귀 진단 및 수정
    • 매개변수에 대한 추론
    • 단순 선형 모델에 대한 예측 추론
    • 변환 후 매개변수 해석
    • F-검정, R^2 및 기타 주의사항
    • 행렬 형식의 단순 선형 회귀
  • 다중 선형 회귀

    • 다중 선형 회귀 진단 및 추론
    • 다항 및 범주형 회귀
    • 다중공선성
    • 검정 및 신뢰 구간
    • 상호작용
    • 이상치 및 영향력 있는 점
    • 모델 선택
    • 검토
    • 가중 및 일반화된 최소 제곱법
    • 변수 선택
    • 트리
    • 부트스트랩 I
    • 부트스트랩 II

GN⁺의 정리

  • 이 문서는 선형 회귀에 대한 현대적인 접근 방식을 제공하며, 기존의 이론적 한계를 극복하기 위해 더 견고한 계산 방법을 강조함
  • 통계 모델링과 회귀 분석에 대한 기초부터 고급 주제까지 포괄적으로 다루고 있음
  • 특히, 다중공선성, 변수 선택, 부트스트랩 등 실무에서 중요한 주제들을 포함하고 있음
  • 이 문서는 통계학과 데이터 과학을 공부하는 학생이나 실무자에게 유용할 수 있음
  • 유사한 기능을 가진 다른 프로젝트로는 "Advanced Data Analysis from an Elementary Point of View"가 있음
Hacker News 의견
  • 대부분의 사람들이 선형 회귀를 잘 이해하지 못함

    • 모든 일반적인 통계 테스트는 선형 모델임
    • 선형 모델은 매개변수에 대해 선형적이지, 응답에 대해 선형적이지 않음
    • 적절한 스플라인 기저를 선택하면, 예측 변수와 응답 간의 많은 비선형 관계를 선형 모델로 모델링할 수 있음
    • 테일러 정리에 따라 선형 관계는 비선형 관계의 좋은 근사치가 될 수 있음
  • CMU에서 10년 전 통계 수업을 들었는데, R을 배우게 되어 좋았음

    • 선형 회귀의 큰 약점은 작은 교육 데이터셋에는 유효하지만, 실제 데이터에는 적용하기 어려움
  • Ridge Regression이 다중공선성 문제를 해결하는 데 유용함

    • 요즘은 과적합 방지 정규화 기법으로 배우지만, 원래는 고도로 상관된 예측 변수들 간의 가중치를 균형 있게 조정하는 데 사용됨
  • Citadel의 정량 연구자가 선형 회귀를 어떻게 사용하는지 배우고 싶음

    • 그들이 어떤 이론적 결과를 중요하게 생각하는지 궁금함
  • 학부 과정에서 여러 번 선형 회귀를 배웠음

    • 통계와 확률 이론을 통해 최적성이 증명될 수 있음
  • 박사 과정에서는 주로 딥러닝 모델을 사용한 회귀 문제를 다룸

    • 고전적인 선형 모델의 엄격한 증명과 정리를 딥러닝 회귀 모델에 적용할 수 있는 방법이 있으면 좋겠음
  • Shalizi의 "Data Analysis from an Elementary Point of View"는 좋은 입문서임

    • 선형 및 가산 모델과 시뮬레이션에 중점을 둠
    • 책의 90%는 컴퓨터 없이는 쓸모없지만, 이는 현대의 진리임
  • 회귀에서 가장 중요한 기술은 절편을 인식하는 것임

    • 상호작용 항을 포함하면 절편의 의미를 이해하는 것이 중요함
    • 예를 들어, 나이와 자폐증 진단 변수를 포함한 단순 선형 모델에서 절편이 의미하는 바를 이해해야 함
  • XGBoost를 사용한 회귀를 가르치는 사람으로서, 이 글이 매우 유익하고 접근하기 쉬움

    • 특히 6장, 시각적 진단이 매우 잘 작성되었음
  • 이 글에서는 언급되지 않았지만, 선형 회귀도 딥러닝에서 흔히 볼 수 있는 Double Descent 현상을 보임

    • 이를 위해서는 정규화를 도입해야 함
  • 이 PDF를 모바일 최적화된 형태로 변환하는 방법을 알고 있는지 궁금함