단순한 데이터에 최소제곱 적합을 적용할 때 왜 편향이 있는 것처럼 보이는가
(stats.stackexchange.com)- 선형 최소제곱 회귀선이 단순한 테스트 데이터에서 실제보다 기울어져 보이는 이유는 데이터 생성 과정의 특성 때문임
- 회귀모형은 오차항이 X와 독립이라는 가정하에 ( Y = \beta_0 + \beta_1 X + \varepsilon ) 형태를 따름
- 오차 분산이 커질수록 데이터의 분산이 수직 방향으로 커지며, PCA의 주성분 방향이 점점 수직에 가까워짐
- 반대로 X의 분산이 오차보다 훨씬 클 때, PCA와 OLS 회귀선이 거의 일치함
- 이러한 차이는 PCA와 OLS가 서로 다른 목적(분산 최대화 vs. 오차 최소화) 을 가지기 때문이며, 데이터의 분포 형태에 따라 시각적으로 다른 결과를 보임
회귀모형과 데이터 생성 과정
- 단순 OLS(최소제곱법)는 ( Y = \beta_0 + \beta_1 X + \varepsilon ) 형태로, X와 오차항 (\varepsilon) 이 독립이라는 가정을 전제로 함
- 오차항이 0일 때 모든 점이 회귀선 위에 위치하며, PCA의 주성분 방향은 회귀선과 동일함
- 오차를 추가하면 분산이 수직 방향으로 증가하고, PCA는 이 분산을 반영해 기울기가 더 가파른 방향을 주성분으로 선택함
오차 분산이 지배적인 경우
- ( \operatorname{Var}(Y) = \beta_1^2 \operatorname{Var}(X) + \operatorname{Var}(\varepsilon) ) 관계에서
( \operatorname{Var}(\varepsilon) \gg \beta_1^2 \operatorname{Var}(X) )이면 대부분의 변동이 수직 방향에 집중됨 - 이때 PCA의 주성분 방향이 거의 수직에 가까워짐, 즉 회귀선보다 더 가파르게 보임
- 반대로 ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) )이면 PCA와 OLS가 거의 일치함
공분산 타원과 분포 형태
- 공분산 타원(covariance ellipse) 은 ( (X, Y) )가 공동정규분포일 때만 데이터의 형태를 잘 나타냄
- X의 분포가 이항, 균등, 이봉(bimodal), 삼각형 등으로 달라질 경우에도
X의 분산이 크면 PCA와 회귀선이 일치하고, 오차가 크면 PCA가 수직 방향으로 이동함 - 타원은 데이터의 방향성을 나타내지만, 밀도나 실제 분포 형태를 정확히 표현하지 않음
X의 성격과 모델링 고려사항
- 코드에서
make_y_from_x함수는 OLS 가정에 맞게 Y를 X의 선형함수와 IID 가우시안 잡음으로 생성함 - X는 반드시 확률변수일 필요가 없으며, 실험 설계에 따라 고정된 값일 수도 있음
- 공분산 타원은 X와 Y를 대칭적으로 다루지만, 실제 데이터 생성 과정은 비대칭적임
핵심 요약
- ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ): PCA와 OLS가 일치
- ( \operatorname{Var}(\varepsilon) \gg \operatorname{Var}(X) ): PCA가 수직 방향으로 이동
- X는 반드시 확률변수일 필요가 없으며, 정규분포를 따를 필요도 없음
- PCA는 분산의 방향, OLS는 예측 오차 최소화에 초점을 두므로 결과가 다르게 나타남
Hacker News 의견들
- 선형회귀(Linear Regression), 즉 Ordinary Least Squares(OLS) 는 오직 Y에만 노이즈가 존재하고 X는 정확하다고 가정함
반면, 시각적으로 X와 Y 모두에 노이즈가 있다고 보는 접근은 Total Least Squares(TLS) 라 불림- Wikipedia의 Total Least Squares 그림을 보면 직관적으로 이해할 수 있음
- x와 y를 바꿔서 기울기를 다시 계산해보면 TLS가 하는 일이 무엇인지 감이 옴
- 예전에 QuantSci 교수님이 “x 데이터에 오류가 전혀 없는 수집 시나리오를 말해보라”고 물으셨음
그래서 일반적으로 Deming 회귀를 더 선호한다고 가르치셨음 (Deming regression)- 대부분의 센서 데이터에서는 Y축의 노이즈가 X축보다 훨씬 큼
예를 들어 1kHz로 샘플링하는 센서라면, MCU의 클럭 지터보다 센서 자체의 노이즈가 훨씬 큼 - Deming 회귀에서 델타(δ)는 y분산과 x분산의 비율임
x분산이 매우 작으면 델타가 커져서 조건수가 나쁜 모델이 될 수 있음 - 내 분야에서는 X 데이터의 측정 지터가 10ns 이하라서 사실상 오류가 없는 수준임
- OLS는 BLUE(Best Linear Unbiased Estimator) 로, 최소 분산을 가지는 선형 추정량이라는 점이 특별함
- 대부분의 시계열에서는 시간 측정 노이즈는 무시할 수준이지만, GPS 좌표 같은 다른 변수에서는 복잡한 결합 현상이 생길 수 있음
- 대부분의 센서 데이터에서는 Y축의 노이즈가 X축보다 훨씬 큼
- 선형회귀는 Y의 노이즈만 모델링하지만, PCA의 타원/고유벡터는 X와 Y의 노이즈를 모두 고려함
- 많은 시스템에서 Y의 노이즈가 X보다 크다는 점이 흥미로움
예를 들어 아날로그-디지털 변환기에서 시간은 수정 발진기로 안정적이지만, 측정값은 그렇지 않음 - 데이터 분석에서 추세선을 구할 때 PCA의 고유벡터 방향을 쓰는 게 더 낫지 않을까 하는 의문이 생김
- 입력과 출력 모두에 노이즈가 있다고 가정하고 신경망을 학습시키면 흥미로울 것 같음
- 만약 Y가 X보다 n배 더 시끄럽다는 걸 안다면, 그 정보를 이용해 더 나은 피팅을 할 수 있을지 궁금함
- 많은 시스템에서 Y의 노이즈가 X보다 크다는 점이 흥미로움
- 오랫동안 통계를 안 다뤘는데, 왜 꼭 제곱(squares) 을 쓰는지 이해가 안 됨
1제곱, 3제곱, 4제곱 등 다른 지수도 있을 텐데, 왜 항상 제곱이 등장하는지 의문임- 제곱합 최소화는 오차가 정규분포(iid normal) 라고 가정할 때 최대우도추정(MLE)을 제공함
오차 분포가 다르면 다른 손실함수가 더 적절할 수 있음
예를 들어 Huber loss는 작은 오차에는 제곱, 큰 오차에는 선형으로 작동해 이상치에 강건함
자세한 수식은 Boyd & Vandenberghe의 Convex Optimization 352–353쪽 참고
또한 ANOVA는 피타고라스 정리에 기반하므로 제곱항이 필수적임 - 평균은 L2 노름을 최소화하므로, OLS를 확률변수 관점에서 보면 조건부기대값 E[Y|X] 를 추정하는 자연스러운 형태로 L2가 등장함
Gauss–Markov 정리가 이 추정량이 편향되지 않고 최소분산임을 보장함 - 1제곱은 해가 유일하지 않음. 예를 들어 (0,0), (1,0), (1,1) 세 점에서는 a가 0~1 사이면 모두 동일한 오차합을 가짐
1보다 작은 지수는 큰 오차 하나를 여러 작은 오차보다 선호하는 이상한 성질이 있음
반면 제곱은 수학적으로 다루기 쉽고, 단순선형회귀의 수치적 성질도 좋음 -
Wikipedia의 Least Squares 항목에 다양한 접근이 정리되어 있음
4제곱 이상의 고차항은 지역 최적해가 많고, 미분이 복잡해 계산적 단순성이 떨어짐 - 간단히 말해 abs는 0 근처에서 미분 불가능하고, 4제곱은 노이즈에 과민하며, 3제곱은 분산의 선형성이 깨짐
- 제곱합 최소화는 오차가 정규분포(iid normal) 라고 가정할 때 최대우도추정(MLE)을 제공함
- 이 스레드의 대부분 내용은 이미 StackExchange 토론에 잘 정리되어 있음
새로운 관점을 제시하기는 쉽지 않음- StackExchange의 답변이 이미 충분히 완성도 높음
단순히 수학적 관찰로서 흥미로운 정도임 - 그래도 이런 주제를 가져오면 StackExchange보다 자유로운 대화가 가능하다는 점에서 의미가 있음
- 이 포럼에는 너무 성숙한 답변일지도 모름
- StackExchange의 답변이 이미 충분히 완성도 높음
-
Least Squares와 PCA는 서로 다른 손실함수를 최소화함
전자는 Y축 방향 거리 제곱합, 후자는 선에 대한 직교거리 제곱합을 최소화함- 그렇다면 왜 최소제곱선은 아래쪽으로 기울어지는 것처럼 보일까? 방향이 임의적인 것 같음
- 최소제곱을 가우시안 분포에 맞추는 과정으로 보면 이해가 쉬움
- y를 x에 대해 회귀시키고, x를 y에 대해 회귀시키면 서로 다른 직선이 나옴
수업 중에 이걸 발견하고 당황했음. 정규화로 해결할 수 있을까 생각했음- 하지만 편향을 없애는 올바른 방법은 정규화가 아니라 좌표 독립적 회귀기법을 쓰는 것임
- 용어 정리에 대해 덧붙이자면, 최소제곱 모델은 x가 노이즈가 있든 없든 평균 오차가 0인 예측, 즉 통계적으로 편향되지 않은 예측을 제공함
- 회귀 결과를 볼 때 시각적으로 선이 틀린 것처럼 보여도, 실제로는 모델이 맞을 수 있음
올바른 기울기를 확인하려면 특정 x에서 잔차(residual) 가 양쪽으로 균형 잡혀 있는지 보면 됨
예를 들어 y = 1.5x + noise로 데이터를 만들면, 회귀선이 1.5 기울기를 잘 복원하지만 시각적으로는 어색해 보일 수 있음- 잔차 플롯을 비교해보면 가장 명확하게 확인 가능함
- 이 문제는 흔히 Regression Dilution이라 불림 (Wikipedia 링크)
- 하지만 Regression Dilution은 X 데이터의 오류로 인해 회귀선이 편향되는 경우를 말함
StackExchange의 질문은 X에 오류가 없어도 왜 회귀선이 3σ 타원축과 일치하지 않는가를 묻는 것임
이 답변은 X 오류가 0인 예시를 보여줌
- 하지만 Regression Dilution은 X 데이터의 오류로 인해 회귀선이 편향되는 경우를 말함