단순한 데이터에 최소제곱 적합을 적용할 때 왜 편향이

▲

GN⁺ 4달전 | parent | ★ favorite | on: 단순한 데이터에 최소제곱 적합을 적용할 때 왜 편향이 있는 것처럼 보이는가(stats.stackexchange.com)

Hacker News 의견들

선형회귀(Linear Regression), 즉 Ordinary Least Squares(OLS) 는 오직 Y에만 노이즈가 존재하고 X는 정확하다고 가정함
반면, 시각적으로 X와 Y 모두에 노이즈가 있다고 보는 접근은 Total Least Squares(TLS) 라 불림
- Wikipedia의 Total Least Squares 그림을 보면 직관적으로 이해할 수 있음
- x와 y를 바꿔서 기울기를 다시 계산해보면 TLS가 하는 일이 무엇인지 감이 옴
예전에 QuantSci 교수님이 “x 데이터에 오류가 전혀 없는 수집 시나리오를 말해보라”고 물으셨음
그래서 일반적으로 Deming 회귀를 더 선호한다고 가르치셨음 (Deming regression)
- 대부분의 센서 데이터에서는 Y축의 노이즈가 X축보다 훨씬 큼
  예를 들어 1kHz로 샘플링하는 센서라면, MCU의 클럭 지터보다 센서 자체의 노이즈가 훨씬 큼
- Deming 회귀에서 델타(δ)는 y분산과 x분산의 비율임
  x분산이 매우 작으면 델타가 커져서 조건수가 나쁜 모델이 될 수 있음
- 내 분야에서는 X 데이터의 측정 지터가 10ns 이하라서 사실상 오류가 없는 수준임
- OLS는 BLUE(Best Linear Unbiased Estimator) 로, 최소 분산을 가지는 선형 추정량이라는 점이 특별함
- 대부분의 시계열에서는 시간 측정 노이즈는 무시할 수준이지만, GPS 좌표 같은 다른 변수에서는 복잡한 결합 현상이 생길 수 있음
선형회귀는 Y의 노이즈만 모델링하지만, PCA의 타원/고유벡터는 X와 Y의 노이즈를 모두 고려함
- 많은 시스템에서 Y의 노이즈가 X보다 크다는 점이 흥미로움
  예를 들어 아날로그-디지털 변환기에서 시간은 수정 발진기로 안정적이지만, 측정값은 그렇지 않음
- 데이터 분석에서 추세선을 구할 때 PCA의 고유벡터 방향을 쓰는 게 더 낫지 않을까 하는 의문이 생김
- 입력과 출력 모두에 노이즈가 있다고 가정하고 신경망을 학습시키면 흥미로울 것 같음
- 만약 Y가 X보다 n배 더 시끄럽다는 걸 안다면, 그 정보를 이용해 더 나은 피팅을 할 수 있을지 궁금함
오랫동안 통계를 안 다뤘는데, 왜 꼭 제곱(squares) 을 쓰는지 이해가 안 됨
1제곱, 3제곱, 4제곱 등 다른 지수도 있을 텐데, 왜 항상 제곱이 등장하는지 의문임
- 제곱합 최소화는 오차가 정규분포(iid normal) 라고 가정할 때 최대우도추정(MLE)을 제공함
  오차 분포가 다르면 다른 손실함수가 더 적절할 수 있음
  예를 들어 Huber loss는 작은 오차에는 제곱, 큰 오차에는 선형으로 작동해 이상치에 강건함
  자세한 수식은 Boyd & Vandenberghe의 Convex Optimization 352–353쪽 참고
  또한 ANOVA는 피타고라스 정리에 기반하므로 제곱항이 필수적임
- 평균은 L2 노름을 최소화하므로, OLS를 확률변수 관점에서 보면 조건부기대값 E[Y|X] 를 추정하는 자연스러운 형태로 L2가 등장함
  Gauss–Markov 정리가 이 추정량이 편향되지 않고 최소분산임을 보장함
- 1제곱은 해가 유일하지 않음. 예를 들어 (0,0), (1,0), (1,1) 세 점에서는 a가 0~1 사이면 모두 동일한 오차합을 가짐
  1보다 작은 지수는 큰 오차 하나를 여러 작은 오차보다 선호하는 이상한 성질이 있음
  반면 제곱은 수학적으로 다루기 쉽고, 단순선형회귀의 수치적 성질도 좋음
- Wikipedia의 Least Squares 항목에 다양한 접근이 정리되어 있음
  4제곱 이상의 고차항은 지역 최적해가 많고, 미분이 복잡해 계산적 단순성이 떨어짐
- 간단히 말해 abs는 0 근처에서 미분 불가능하고, 4제곱은 노이즈에 과민하며, 3제곱은 분산의 선형성이 깨짐
이 스레드의 대부분 내용은 이미 StackExchange 토론에 잘 정리되어 있음
새로운 관점을 제시하기는 쉽지 않음
- StackExchange의 답변이 이미 충분히 완성도 높음
  단순히 수학적 관찰로서 흥미로운 정도임
- 그래도 이런 주제를 가져오면 StackExchange보다 자유로운 대화가 가능하다는 점에서 의미가 있음
- 이 포럼에는 너무 성숙한 답변일지도 모름
Least Squares와 PCA는 서로 다른 손실함수를 최소화함
전자는 Y축 방향 거리 제곱합, 후자는 선에 대한 직교거리 제곱합을 최소화함
- 그렇다면 왜 최소제곱선은 아래쪽으로 기울어지는 것처럼 보일까? 방향이 임의적인 것 같음
- 최소제곱을 가우시안 분포에 맞추는 과정으로 보면 이해가 쉬움
y를 x에 대해 회귀시키고, x를 y에 대해 회귀시키면 서로 다른 직선이 나옴
수업 중에 이걸 발견하고 당황했음. 정규화로 해결할 수 있을까 생각했음
- 하지만 편향을 없애는 올바른 방법은 정규화가 아니라 좌표 독립적 회귀기법을 쓰는 것임
용어 정리에 대해 덧붙이자면, 최소제곱 모델은 x가 노이즈가 있든 없든 평균 오차가 0인 예측, 즉 통계적으로 편향되지 않은 예측을 제공함
회귀 결과를 볼 때 시각적으로 선이 틀린 것처럼 보여도, 실제로는 모델이 맞을 수 있음
올바른 기울기를 확인하려면 특정 x에서 잔차(residual) 가 양쪽으로 균형 잡혀 있는지 보면 됨
예를 들어 y = 1.5x + noise로 데이터를 만들면, 회귀선이 1.5 기울기를 잘 복원하지만 시각적으로는 어색해 보일 수 있음
- 잔차 플롯을 비교해보면 가장 명확하게 확인 가능함
이 문제는 흔히 Regression Dilution이라 불림 (Wikipedia 링크)
- 하지만 Regression Dilution은 X 데이터의 오류로 인해 회귀선이 편향되는 경우를 말함
  StackExchange의 질문은 X에 오류가 없어도 왜 회귀선이 3σ 타원축과 일치하지 않는가를 묻는 것임
  이 답변은 X 오류가 0인 예시를 보여줌