# 2015년 Linear Regression의 진실

> Clean Markdown view of GeekNews topic #16120. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=16120](https://news.hada.io/topic?id=16120)
- GeekNews Markdown: [https://news.hada.io/topic/16120.md](https://news.hada.io/topic/16120.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-08-01T15:34:11+09:00
- Updated: 2024-08-01T15:34:11+09:00
- Original source: [stat.cmu.edu](https://www.stat.cmu.edu/~cshalizi/TALR/)
- Points: 1
- Comments: 1

## Topic Body

### 선형 회귀의 진실

- **소개**
  - 이 문서는 2015년 가을에 36-401, 현대 회귀 강의를 할 때 작성한 강의 노트를 기반으로 함
  - 선형 회귀를 배우거나 가르치는 사람들에게 도움이 될 수 있음
  - 기존의 이론에서 Gaussian 노이즈와 정확히 지정된 선형 모델에 의존하는 부분을 줄이고, 더 계산 집약적이지만 견고한 기술을 강조함

- **PDF 전체 텍스트**
  - 데이터 파일
  - 각 장의 R 코드
  - 현재 개요

- **최적 예측**
  - 통계 모델링 소개
  - 단순 선형 회귀 모델과 추정에 대한 힌트

- **단순 선형 회귀를 위한 최소 제곱법**
  - 단순 선형 회귀를 위한 최대 우도법
  - 단순 회귀 진단 및 수정
  - 매개변수에 대한 추론
  - 단순 선형 모델에 대한 예측 추론
  - 변환 후 매개변수 해석
  - F-검정, R^2 및 기타 주의사항
  - 행렬 형식의 단순 선형 회귀

- **다중 선형 회귀**
  - 다중 선형 회귀 진단 및 추론
  - 다항 및 범주형 회귀
  - 다중공선성
  - 검정 및 신뢰 구간
  - 상호작용
  - 이상치 및 영향력 있는 점
  - 모델 선택
  - 검토
  - 가중 및 일반화된 최소 제곱법
  - 변수 선택
  - 트리
  - 부트스트랩 I
  - 부트스트랩 II

### GN⁺의 정리
- 이 문서는 선형 회귀에 대한 현대적인 접근 방식을 제공하며, 기존의 이론적 한계를 극복하기 위해 더 견고한 계산 방법을 강조함
- 통계 모델링과 회귀 분석에 대한 기초부터 고급 주제까지 포괄적으로 다루고 있음
- 특히, 다중공선성, 변수 선택, 부트스트랩 등 실무에서 중요한 주제들을 포함하고 있음
- 이 문서는 통계학과 데이터 과학을 공부하는 학생이나 실무자에게 유용할 수 있음
- 유사한 기능을 가진 다른 프로젝트로는 "Advanced Data Analysis from an Elementary Point of View"가 있음

## Comments



### Comment 27735

- Author: neo
- Created: 2024-08-01T15:34:12+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=41111115) 
- 대부분의 사람들이 선형 회귀를 잘 이해하지 못함
  - 모든 일반적인 통계 테스트는 선형 모델임
  - 선형 모델은 매개변수에 대해 선형적이지, 응답에 대해 선형적이지 않음
  - 적절한 스플라인 기저를 선택하면, 예측 변수와 응답 간의 많은 비선형 관계를 선형 모델로 모델링할 수 있음
  - 테일러 정리에 따라 선형 관계는 비선형 관계의 좋은 근사치가 될 수 있음

- CMU에서 10년 전 통계 수업을 들었는데, R을 배우게 되어 좋았음
  - 선형 회귀의 큰 약점은 작은 교육 데이터셋에는 유효하지만, 실제 데이터에는 적용하기 어려움

- Ridge Regression이 다중공선성 문제를 해결하는 데 유용함
  - 요즘은 과적합 방지 정규화 기법으로 배우지만, 원래는 고도로 상관된 예측 변수들 간의 가중치를 균형 있게 조정하는 데 사용됨

- Citadel의 정량 연구자가 선형 회귀를 어떻게 사용하는지 배우고 싶음
  - 그들이 어떤 이론적 결과를 중요하게 생각하는지 궁금함

- 학부 과정에서 여러 번 선형 회귀를 배웠음
  - 통계와 확률 이론을 통해 최적성이 증명될 수 있음

- 박사 과정에서는 주로 딥러닝 모델을 사용한 회귀 문제를 다룸
  - 고전적인 선형 모델의 엄격한 증명과 정리를 딥러닝 회귀 모델에 적용할 수 있는 방법이 있으면 좋겠음

- Shalizi의 "Data Analysis from an Elementary Point of View"는 좋은 입문서임
  - 선형 및 가산 모델과 시뮬레이션에 중점을 둠
  - 책의 90%는 컴퓨터 없이는 쓸모없지만, 이는 현대의 진리임

- 회귀에서 가장 중요한 기술은 절편을 인식하는 것임
  - 상호작용 항을 포함하면 절편의 의미를 이해하는 것이 중요함
  - 예를 들어, 나이와 자폐증 진단 변수를 포함한 단순 선형 모델에서 절편이 의미하는 바를 이해해야 함

- XGBoost를 사용한 회귀를 가르치는 사람으로서, 이 글이 매우 유익하고 접근하기 쉬움
  - 특히 6장, 시각적 진단이 매우 잘 작성되었음

- 이 글에서는 언급되지 않았지만, 선형 회귀도 딥러닝에서 흔히 볼 수 있는 Double Descent 현상을 보임
  - 이를 위해서는 정규화를 도입해야 함

- 이 PDF를 모바일 최적화된 형태로 변환하는 방법을 알고 있는지 궁금함
