단순한 데이터에 최소제곱 적합을 적용할 때 왜 편향이 있는 것처럼 보이는가

(stats.stackexchange.com)

1P by GN⁺ 2달전 | ★ favorite | 댓글 1개

선형 최소제곱 회귀선이 단순한 테스트 데이터에서 실제보다 기울어져 보이는 이유는 데이터 생성 과정의 특성 때문임
회귀모형은 오차항이 X와 독립이라는 가정하에 ( Y = \beta_0 + \beta_1 X + \varepsilon ) 형태를 따름
오차 분산이 커질수록 데이터의 분산이 수직 방향으로 커지며, PCA의 주성분 방향이 점점 수직에 가까워짐
반대로 X의 분산이 오차보다 훨씬 클 때, PCA와 OLS 회귀선이 거의 일치함
이러한 차이는 PCA와 OLS가 서로 다른 목적(분산 최대화 vs. 오차 최소화) 을 가지기 때문이며, 데이터의 분포 형태에 따라 시각적으로 다른 결과를 보임

회귀모형과 데이터 생성 과정

단순 OLS(최소제곱법)는 ( Y = \beta_0 + \beta_1 X + \varepsilon ) 형태로, X와 오차항 (\varepsilon) 이 독립이라는 가정을 전제로 함
오차항이 0일 때 모든 점이 회귀선 위에 위치하며, PCA의 주성분 방향은 회귀선과 동일함
오차를 추가하면 분산이 수직 방향으로 증가하고, PCA는 이 분산을 반영해 기울기가 더 가파른 방향을 주성분으로 선택함

오차 분산이 지배적인 경우

( \operatorname{Var}(Y) = \beta_1^2 \operatorname{Var}(X) + \operatorname{Var}(\varepsilon) ) 관계에서
( \operatorname{Var}(\varepsilon) \gg \beta_1^2 \operatorname{Var}(X) )이면 대부분의 변동이 수직 방향에 집중됨
이때 PCA의 주성분 방향이 거의 수직에 가까워짐, 즉 회귀선보다 더 가파르게 보임
반대로 ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) )이면 PCA와 OLS가 거의 일치함

공분산 타원과 분포 형태

공분산 타원(covariance ellipse) 은 ( (X, Y) )가 공동정규분포일 때만 데이터의 형태를 잘 나타냄
X의 분포가 이항, 균등, 이봉(bimodal), 삼각형 등으로 달라질 경우에도
X의 분산이 크면 PCA와 회귀선이 일치하고, 오차가 크면 PCA가 수직 방향으로 이동함
타원은 데이터의 방향성을 나타내지만, 밀도나 실제 분포 형태를 정확히 표현하지 않음

X의 성격과 모델링 고려사항

코드에서 make_y_from_x 함수는 OLS 가정에 맞게 Y를 X의 선형함수와 IID 가우시안 잡음으로 생성함
X는 반드시 확률변수일 필요가 없으며, 실험 설계에 따라 고정된 값일 수도 있음
공분산 타원은 X와 Y를 대칭적으로 다루지만, 실제 데이터 생성 과정은 비대칭적임

핵심 요약

( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ): PCA와 OLS가 일치
( \operatorname{Var}(\varepsilon) \gg \operatorname{Var}(X) ): PCA가 수직 방향으로 이동
X는 반드시 확률변수일 필요가 없으며, 정규분포를 따를 필요도 없음
PCA는 분산의 방향, OLS는 예측 오차 최소화에 초점을 두므로 결과가 다르게 나타남

▲

GN⁺ 2달전 [-]

Hacker News 의견들

선형회귀(Linear Regression), 즉 Ordinary Least Squares(OLS) 는 오직 Y에만 노이즈가 존재하고 X는 정확하다고 가정함
반면, 시각적으로 X와 Y 모두에 노이즈가 있다고 보는 접근은 Total Least Squares(TLS) 라 불림
- Wikipedia의 Total Least Squares 그림을 보면 직관적으로 이해할 수 있음
- x와 y를 바꿔서 기울기를 다시 계산해보면 TLS가 하는 일이 무엇인지 감이 옴
예전에 QuantSci 교수님이 “x 데이터에 오류가 전혀 없는 수집 시나리오를 말해보라”고 물으셨음
그래서 일반적으로 Deming 회귀를 더 선호한다고 가르치셨음 (Deming regression)
- 대부분의 센서 데이터에서는 Y축의 노이즈가 X축보다 훨씬 큼
  예를 들어 1kHz로 샘플링하는 센서라면, MCU의 클럭 지터보다 센서 자체의 노이즈가 훨씬 큼
- Deming 회귀에서 델타(δ)는 y분산과 x분산의 비율임
  x분산이 매우 작으면 델타가 커져서 조건수가 나쁜 모델이 될 수 있음
- 내 분야에서는 X 데이터의 측정 지터가 10ns 이하라서 사실상 오류가 없는 수준임
- OLS는 BLUE(Best Linear Unbiased Estimator) 로, 최소 분산을 가지는 선형 추정량이라는 점이 특별함
- 대부분의 시계열에서는 시간 측정 노이즈는 무시할 수준이지만, GPS 좌표 같은 다른 변수에서는 복잡한 결합 현상이 생길 수 있음
선형회귀는 Y의 노이즈만 모델링하지만, PCA의 타원/고유벡터는 X와 Y의 노이즈를 모두 고려함
- 많은 시스템에서 Y의 노이즈가 X보다 크다는 점이 흥미로움
  예를 들어 아날로그-디지털 변환기에서 시간은 수정 발진기로 안정적이지만, 측정값은 그렇지 않음
- 데이터 분석에서 추세선을 구할 때 PCA의 고유벡터 방향을 쓰는 게 더 낫지 않을까 하는 의문이 생김
- 입력과 출력 모두에 노이즈가 있다고 가정하고 신경망을 학습시키면 흥미로울 것 같음
- 만약 Y가 X보다 n배 더 시끄럽다는 걸 안다면, 그 정보를 이용해 더 나은 피팅을 할 수 있을지 궁금함
오랫동안 통계를 안 다뤘는데, 왜 꼭 제곱(squares) 을 쓰는지 이해가 안 됨
1제곱, 3제곱, 4제곱 등 다른 지수도 있을 텐데, 왜 항상 제곱이 등장하는지 의문임
- 제곱합 최소화는 오차가 정규분포(iid normal) 라고 가정할 때 최대우도추정(MLE)을 제공함
  오차 분포가 다르면 다른 손실함수가 더 적절할 수 있음
  예를 들어 Huber loss는 작은 오차에는 제곱, 큰 오차에는 선형으로 작동해 이상치에 강건함
  자세한 수식은 Boyd & Vandenberghe의 Convex Optimization 352–353쪽 참고
  또한 ANOVA는 피타고라스 정리에 기반하므로 제곱항이 필수적임
- 평균은 L2 노름을 최소화하므로, OLS를 확률변수 관점에서 보면 조건부기대값 E[Y|X] 를 추정하는 자연스러운 형태로 L2가 등장함
  Gauss–Markov 정리가 이 추정량이 편향되지 않고 최소분산임을 보장함
- 1제곱은 해가 유일하지 않음. 예를 들어 (0,0), (1,0), (1,1) 세 점에서는 a가 0~1 사이면 모두 동일한 오차합을 가짐
  1보다 작은 지수는 큰 오차 하나를 여러 작은 오차보다 선호하는 이상한 성질이 있음
  반면 제곱은 수학적으로 다루기 쉽고, 단순선형회귀의 수치적 성질도 좋음
- Wikipedia의 Least Squares 항목에 다양한 접근이 정리되어 있음
  4제곱 이상의 고차항은 지역 최적해가 많고, 미분이 복잡해 계산적 단순성이 떨어짐
- 간단히 말해 abs는 0 근처에서 미분 불가능하고, 4제곱은 노이즈에 과민하며, 3제곱은 분산의 선형성이 깨짐
이 스레드의 대부분 내용은 이미 StackExchange 토론에 잘 정리되어 있음
새로운 관점을 제시하기는 쉽지 않음
- StackExchange의 답변이 이미 충분히 완성도 높음
  단순히 수학적 관찰로서 흥미로운 정도임
- 그래도 이런 주제를 가져오면 StackExchange보다 자유로운 대화가 가능하다는 점에서 의미가 있음
- 이 포럼에는 너무 성숙한 답변일지도 모름
Least Squares와 PCA는 서로 다른 손실함수를 최소화함
전자는 Y축 방향 거리 제곱합, 후자는 선에 대한 직교거리 제곱합을 최소화함
- 그렇다면 왜 최소제곱선은 아래쪽으로 기울어지는 것처럼 보일까? 방향이 임의적인 것 같음
- 최소제곱을 가우시안 분포에 맞추는 과정으로 보면 이해가 쉬움
y를 x에 대해 회귀시키고, x를 y에 대해 회귀시키면 서로 다른 직선이 나옴
수업 중에 이걸 발견하고 당황했음. 정규화로 해결할 수 있을까 생각했음
- 하지만 편향을 없애는 올바른 방법은 정규화가 아니라 좌표 독립적 회귀기법을 쓰는 것임
용어 정리에 대해 덧붙이자면, 최소제곱 모델은 x가 노이즈가 있든 없든 평균 오차가 0인 예측, 즉 통계적으로 편향되지 않은 예측을 제공함
회귀 결과를 볼 때 시각적으로 선이 틀린 것처럼 보여도, 실제로는 모델이 맞을 수 있음
올바른 기울기를 확인하려면 특정 x에서 잔차(residual) 가 양쪽으로 균형 잡혀 있는지 보면 됨
예를 들어 y = 1.5x + noise로 데이터를 만들면, 회귀선이 1.5 기울기를 잘 복원하지만 시각적으로는 어색해 보일 수 있음
- 잔차 플롯을 비교해보면 가장 명확하게 확인 가능함
이 문제는 흔히 Regression Dilution이라 불림 (Wikipedia 링크)
- 하지만 Regression Dilution은 X 데이터의 오류로 인해 회귀선이 편향되는 경우를 말함
  StackExchange의 질문은 X에 오류가 없어도 왜 회귀선이 3σ 타원축과 일치하지 않는가를 묻는 것임
  이 답변은 X 오류가 0인 예시를 보여줌

답변달기