# 단순한 데이터에 최소제곱 적합을 적용할 때 왜 편향이 있는 것처럼 보이는가

> Clean Markdown view of GeekNews topic #25585. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=25585](https://news.hada.io/topic?id=25585)
- GeekNews Markdown: [https://news.hada.io/topic/25585.md](https://news.hada.io/topic/25585.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-01-06T02:33:20+09:00
- Updated: 2026-01-06T02:33:20+09:00
- Original source: [stats.stackexchange.com](https://stats.stackexchange.com/questions/674129/why-does-a-linear-least-squares-fit-appear-to-have-a-bias-when-applied-to-simple)
- Points: 1
- Comments: 1

## Topic Body

- **선형 최소제곱 회귀선**이 단순한 테스트 데이터에서 실제보다 기울어져 보이는 이유는 **데이터 생성 과정의 특성** 때문임  
- 회귀모형은 **오차항이 X와 독립**이라는 가정하에 \( Y = \beta_0 + \beta_1 X + \varepsilon \) 형태를 따름  
- **오차 분산이 커질수록** 데이터의 분산이 수직 방향으로 커지며, **PCA의 주성분 방향**이 점점 수직에 가까워짐  
- 반대로 **X의 분산이 오차보다 훨씬 클 때**, PCA와 OLS 회귀선이 거의 일치함  
- 이러한 차이는 **PCA와 OLS가 서로 다른 목적(분산 최대화 vs. 오차 최소화)** 을 가지기 때문이며, 데이터의 분포 형태에 따라 시각적으로 다른 결과를 보임  

---

### 회귀모형과 데이터 생성 과정
- 단순 OLS(최소제곱법)는 \( Y = \beta_0 + \beta_1 X + \varepsilon \) 형태로, **X와 오차항 \(\varepsilon\)** 이 독립이라는 가정을 전제로 함  
- 오차항이 0일 때 모든 점이 회귀선 위에 위치하며, **PCA의 주성분 방향**은 회귀선과 동일함  
- 오차를 추가하면 분산이 수직 방향으로 증가하고, PCA는 이 분산을 반영해 **기울기가 더 가파른 방향**을 주성분으로 선택함  

### 오차 분산이 지배적인 경우
- \( \operatorname{Var}(Y) = \beta_1^2 \operatorname{Var}(X) + \operatorname{Var}(\varepsilon) \) 관계에서  
  \( \operatorname{Var}(\varepsilon) \gg \beta_1^2 \operatorname{Var}(X) \)이면 대부분의 변동이 수직 방향에 집중됨  
- 이때 **PCA의 주성분 방향이 거의 수직에 가까워짐**, 즉 회귀선보다 더 가파르게 보임  
- 반대로 \( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) \)이면 PCA와 OLS가 거의 일치함  

### 공분산 타원과 분포 형태
- **공분산 타원(covariance ellipse)** 은 \( (X, Y) \)가 **공동정규분포**일 때만 데이터의 형태를 잘 나타냄  
- X의 분포가 이항, 균등, 이봉(bimodal), 삼각형 등으로 달라질 경우에도  
  X의 분산이 크면 PCA와 회귀선이 일치하고, 오차가 크면 PCA가 수직 방향으로 이동함  
- 타원은 데이터의 **방향성**을 나타내지만, **밀도나 실제 분포 형태**를 정확히 표현하지 않음  

### X의 성격과 모델링 고려사항
- 코드에서 `make_y_from_x` 함수는 **OLS 가정에 맞게** Y를 X의 선형함수와 IID 가우시안 잡음으로 생성함  
- X는 반드시 확률변수일 필요가 없으며, **실험 설계에 따라 고정된 값**일 수도 있음  
- 공분산 타원은 X와 Y를 대칭적으로 다루지만, 실제 데이터 생성 과정은 **비대칭적**임  

### 핵심 요약
- \( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) \): PCA와 OLS가 일치  
- \( \operatorname{Var}(\varepsilon) \gg \operatorname{Var}(X) \): PCA가 수직 방향으로 이동  
- X는 반드시 확률변수일 필요가 없으며, 정규분포를 따를 필요도 없음  
- **PCA는 분산의 방향**, **OLS는 예측 오차 최소화**에 초점을 두므로 결과가 다르게 나타남

## Comments


### Comment 48718

- Author: neo
- Created: 2026-01-06T02:33:20+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=46491821) 
- 선형회귀(Linear Regression), 즉 **Ordinary Least Squares(OLS)** 는 오직 **Y에만 노이즈가 존재**하고 X는 정확하다고 가정함  
  반면, 시각적으로 X와 Y 모두에 노이즈가 있다고 보는 접근은 **Total Least Squares(TLS)** 라 불림
  - [Wikipedia의 Total Least Squares 그림](https://en.wikipedia.org/wiki/Total_least_squares)을 보면 직관적으로 이해할 수 있음
  - x와 y를 바꿔서 기울기를 다시 계산해보면 TLS가 하는 일이 무엇인지 감이 옴
- 예전에 QuantSci 교수님이 “x 데이터에 오류가 전혀 없는 수집 시나리오를 말해보라”고 물으셨음  
  그래서 일반적으로 **Deming 회귀**를 더 선호한다고 가르치셨음 ([Deming regression](https://en.wikipedia.org/wiki/Deming_regression))
  - 대부분의 센서 데이터에서는 Y축의 노이즈가 X축보다 훨씬 큼  
    예를 들어 1kHz로 샘플링하는 센서라면, MCU의 클럭 지터보다 센서 자체의 노이즈가 훨씬 큼
  - Deming 회귀에서 델타(δ)는 y분산과 x분산의 비율임  
    x분산이 매우 작으면 델타가 커져서 **조건수가 나쁜 모델**이 될 수 있음
  - 내 분야에서는 X 데이터의 측정 지터가 10ns 이하라서 사실상 오류가 없는 수준임
  - OLS는 **BLUE(Best Linear Unbiased Estimator)** 로, 최소 분산을 가지는 선형 추정량이라는 점이 특별함
  - 대부분의 시계열에서는 시간 측정 노이즈는 무시할 수준이지만, GPS 좌표 같은 다른 변수에서는 복잡한 결합 현상이 생길 수 있음
- 선형회귀는 Y의 노이즈만 모델링하지만, **PCA의 타원/고유벡터**는 X와 Y의 노이즈를 모두 고려함
  - 많은 시스템에서 Y의 노이즈가 X보다 크다는 점이 흥미로움  
    예를 들어 아날로그-디지털 변환기에서 시간은 수정 발진기로 안정적이지만, 측정값은 그렇지 않음
  - 데이터 분석에서 추세선을 구할 때 PCA의 **고유벡터 방향**을 쓰는 게 더 낫지 않을까 하는 의문이 생김
  - 입력과 출력 모두에 노이즈가 있다고 가정하고 **신경망을 학습**시키면 흥미로울 것 같음
  - 만약 Y가 X보다 n배 더 시끄럽다는 걸 안다면, 그 정보를 이용해 더 나은 피팅을 할 수 있을지 궁금함
- 오랫동안 통계를 안 다뤘는데, 왜 꼭 **제곱(squares)** 을 쓰는지 이해가 안 됨  
  1제곱, 3제곱, 4제곱 등 다른 지수도 있을 텐데, 왜 항상 제곱이 등장하는지 의문임
  - 제곱합 최소화는 **오차가 정규분포(iid normal)** 라고 가정할 때 최대우도추정(MLE)을 제공함  
    오차 분포가 다르면 다른 손실함수가 더 적절할 수 있음  
    예를 들어 **Huber loss**는 작은 오차에는 제곱, 큰 오차에는 선형으로 작동해 이상치에 강건함  
    자세한 수식은 Boyd & Vandenberghe의 *Convex Optimization* 352–353쪽 참고  
    또한 ANOVA는 피타고라스 정리에 기반하므로 제곱항이 필수적임
  - 평균은 L2 노름을 최소화하므로, OLS를 확률변수 관점에서 보면 **조건부기대값 E[Y|X]** 를 추정하는 자연스러운 형태로 L2가 등장함  
    Gauss–Markov 정리가 이 추정량이 편향되지 않고 최소분산임을 보장함
  - 1제곱은 해가 유일하지 않음. 예를 들어 (0,0), (1,0), (1,1) 세 점에서는 a가 0~1 사이면 모두 동일한 오차합을 가짐  
    1보다 작은 지수는 큰 오차 하나를 여러 작은 오차보다 선호하는 이상한 성질이 있음  
    반면 제곱은 수학적으로 다루기 쉽고, [단순선형회귀의 수치적 성질](https://en.wikipedia.org/wiki/Simple_linear_regression#Numerical_properties)도 좋음
  - [Wikipedia의 Least Squares 항목](https://en.wikipedia.org/wiki/Least_squares#Statistical_testing)에 다양한 접근이 정리되어 있음  
    4제곱 이상의 고차항은 지역 최적해가 많고, 미분이 복잡해 **계산적 단순성**이 떨어짐
  - 간단히 말해 abs는 0 근처에서 미분 불가능하고, 4제곱은 노이즈에 과민하며, 3제곱은 분산의 선형성이 깨짐
- 이 스레드의 대부분 내용은 이미 StackExchange 토론에 잘 정리되어 있음  
  새로운 관점을 제시하기는 쉽지 않음
  - StackExchange의 답변이 이미 충분히 완성도 높음  
    단순히 수학적 관찰로서 흥미로운 정도임
  - 그래도 이런 주제를 가져오면 StackExchange보다 **자유로운 대화**가 가능하다는 점에서 의미가 있음
  - 이 포럼에는 너무 성숙한 답변일지도 모름
- **Least Squares**와 **PCA**는 서로 다른 손실함수를 최소화함  
  전자는 Y축 방향 거리 제곱합, 후자는 선에 대한 **직교거리** 제곱합을 최소화함
  - 그렇다면 왜 최소제곱선은 아래쪽으로 기울어지는 것처럼 보일까? 방향이 임의적인 것 같음
  - 최소제곱을 **가우시안 분포에 맞추는 과정**으로 보면 이해가 쉬움
- y를 x에 대해 회귀시키고, x를 y에 대해 회귀시키면 서로 다른 직선이 나옴  
  수업 중에 이걸 발견하고 당황했음. 정규화로 해결할 수 있을까 생각했음
  - 하지만 편향을 없애는 올바른 방법은 정규화가 아니라 **좌표 독립적 회귀기법**을 쓰는 것임
- 용어 정리에 대해 덧붙이자면, 최소제곱 모델은 x가 노이즈가 있든 없든 **평균 오차가 0인 예측**, 즉 통계적으로 편향되지 않은 예측을 제공함
- 회귀 결과를 볼 때 시각적으로 선이 틀린 것처럼 보여도, 실제로는 모델이 맞을 수 있음  
  올바른 기울기를 확인하려면 특정 x에서 **잔차(residual)** 가 양쪽으로 균형 잡혀 있는지 보면 됨  
  예를 들어 y = 1.5x + noise로 데이터를 만들면, 회귀선이 1.5 기울기를 잘 복원하지만 시각적으로는 어색해 보일 수 있음
  - 잔차 플롯을 비교해보면 가장 명확하게 확인 가능함
- 이 문제는 흔히 **Regression Dilution**이라 불림 ([Wikipedia 링크](https://en.wikipedia.org/wiki/Regression_dilution))
  - 하지만 Regression Dilution은 X 데이터의 오류로 인해 회귀선이 편향되는 경우를 말함  
    StackExchange의 질문은 X에 오류가 없어도 왜 회귀선이 **3σ 타원축과 일치하지 않는가**를 묻는 것임  
    [이 답변](https://stats.stackexchange.com/a/674135)은 X 오류가 0인 예시를 보여줌