1P by GN⁺ 4일전 | ★ favorite | 댓글 1개
  • 선형 최소제곱 회귀선이 단순한 테스트 데이터에서 실제보다 기울어져 보이는 이유는 데이터 생성 과정의 특성 때문임
  • 회귀모형은 오차항이 X와 독립이라는 가정하에 ( Y = \beta_0 + \beta_1 X + \varepsilon ) 형태를 따름
  • 오차 분산이 커질수록 데이터의 분산이 수직 방향으로 커지며, PCA의 주성분 방향이 점점 수직에 가까워짐
  • 반대로 X의 분산이 오차보다 훨씬 클 때, PCA와 OLS 회귀선이 거의 일치함
  • 이러한 차이는 PCA와 OLS가 서로 다른 목적(분산 최대화 vs. 오차 최소화) 을 가지기 때문이며, 데이터의 분포 형태에 따라 시각적으로 다른 결과를 보임

회귀모형과 데이터 생성 과정

  • 단순 OLS(최소제곱법)는 ( Y = \beta_0 + \beta_1 X + \varepsilon ) 형태로, X와 오차항 (\varepsilon) 이 독립이라는 가정을 전제로 함
  • 오차항이 0일 때 모든 점이 회귀선 위에 위치하며, PCA의 주성분 방향은 회귀선과 동일함
  • 오차를 추가하면 분산이 수직 방향으로 증가하고, PCA는 이 분산을 반영해 기울기가 더 가파른 방향을 주성분으로 선택함

오차 분산이 지배적인 경우

  • ( \operatorname{Var}(Y) = \beta_1^2 \operatorname{Var}(X) + \operatorname{Var}(\varepsilon) ) 관계에서
    ( \operatorname{Var}(\varepsilon) \gg \beta_1^2 \operatorname{Var}(X) )이면 대부분의 변동이 수직 방향에 집중됨
  • 이때 PCA의 주성분 방향이 거의 수직에 가까워짐, 즉 회귀선보다 더 가파르게 보임
  • 반대로 ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) )이면 PCA와 OLS가 거의 일치함

공분산 타원과 분포 형태

  • 공분산 타원(covariance ellipse) 은 ( (X, Y) )가 공동정규분포일 때만 데이터의 형태를 잘 나타냄
  • X의 분포가 이항, 균등, 이봉(bimodal), 삼각형 등으로 달라질 경우에도
    X의 분산이 크면 PCA와 회귀선이 일치하고, 오차가 크면 PCA가 수직 방향으로 이동함
  • 타원은 데이터의 방향성을 나타내지만, 밀도나 실제 분포 형태를 정확히 표현하지 않음

X의 성격과 모델링 고려사항

  • 코드에서 make_y_from_x 함수는 OLS 가정에 맞게 Y를 X의 선형함수와 IID 가우시안 잡음으로 생성함
  • X는 반드시 확률변수일 필요가 없으며, 실험 설계에 따라 고정된 값일 수도 있음
  • 공분산 타원은 X와 Y를 대칭적으로 다루지만, 실제 데이터 생성 과정은 비대칭적

핵심 요약

  • ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ): PCA와 OLS가 일치
  • ( \operatorname{Var}(\varepsilon) \gg \operatorname{Var}(X) ): PCA가 수직 방향으로 이동
  • X는 반드시 확률변수일 필요가 없으며, 정규분포를 따를 필요도 없음
  • PCA는 분산의 방향, OLS는 예측 오차 최소화에 초점을 두므로 결과가 다르게 나타남
Hacker News 의견들
  • 선형회귀(Linear Regression), 즉 Ordinary Least Squares(OLS) 는 오직 Y에만 노이즈가 존재하고 X는 정확하다고 가정함
    반면, 시각적으로 X와 Y 모두에 노이즈가 있다고 보는 접근은 Total Least Squares(TLS) 라 불림
  • 예전에 QuantSci 교수님이 “x 데이터에 오류가 전혀 없는 수집 시나리오를 말해보라”고 물으셨음
    그래서 일반적으로 Deming 회귀를 더 선호한다고 가르치셨음 (Deming regression)
    • 대부분의 센서 데이터에서는 Y축의 노이즈가 X축보다 훨씬 큼
      예를 들어 1kHz로 샘플링하는 센서라면, MCU의 클럭 지터보다 센서 자체의 노이즈가 훨씬 큼
    • Deming 회귀에서 델타(δ)는 y분산과 x분산의 비율임
      x분산이 매우 작으면 델타가 커져서 조건수가 나쁜 모델이 될 수 있음
    • 내 분야에서는 X 데이터의 측정 지터가 10ns 이하라서 사실상 오류가 없는 수준임
    • OLS는 BLUE(Best Linear Unbiased Estimator) 로, 최소 분산을 가지는 선형 추정량이라는 점이 특별함
    • 대부분의 시계열에서는 시간 측정 노이즈는 무시할 수준이지만, GPS 좌표 같은 다른 변수에서는 복잡한 결합 현상이 생길 수 있음
  • 선형회귀는 Y의 노이즈만 모델링하지만, PCA의 타원/고유벡터는 X와 Y의 노이즈를 모두 고려함
    • 많은 시스템에서 Y의 노이즈가 X보다 크다는 점이 흥미로움
      예를 들어 아날로그-디지털 변환기에서 시간은 수정 발진기로 안정적이지만, 측정값은 그렇지 않음
    • 데이터 분석에서 추세선을 구할 때 PCA의 고유벡터 방향을 쓰는 게 더 낫지 않을까 하는 의문이 생김
    • 입력과 출력 모두에 노이즈가 있다고 가정하고 신경망을 학습시키면 흥미로울 것 같음
    • 만약 Y가 X보다 n배 더 시끄럽다는 걸 안다면, 그 정보를 이용해 더 나은 피팅을 할 수 있을지 궁금함
  • 오랫동안 통계를 안 다뤘는데, 왜 꼭 제곱(squares) 을 쓰는지 이해가 안 됨
    1제곱, 3제곱, 4제곱 등 다른 지수도 있을 텐데, 왜 항상 제곱이 등장하는지 의문임
    • 제곱합 최소화는 오차가 정규분포(iid normal) 라고 가정할 때 최대우도추정(MLE)을 제공함
      오차 분포가 다르면 다른 손실함수가 더 적절할 수 있음
      예를 들어 Huber loss는 작은 오차에는 제곱, 큰 오차에는 선형으로 작동해 이상치에 강건함
      자세한 수식은 Boyd & Vandenberghe의 Convex Optimization 352–353쪽 참고
      또한 ANOVA는 피타고라스 정리에 기반하므로 제곱항이 필수적임
    • 평균은 L2 노름을 최소화하므로, OLS를 확률변수 관점에서 보면 조건부기대값 E[Y|X] 를 추정하는 자연스러운 형태로 L2가 등장함
      Gauss–Markov 정리가 이 추정량이 편향되지 않고 최소분산임을 보장함
    • 1제곱은 해가 유일하지 않음. 예를 들어 (0,0), (1,0), (1,1) 세 점에서는 a가 0~1 사이면 모두 동일한 오차합을 가짐
      1보다 작은 지수는 큰 오차 하나를 여러 작은 오차보다 선호하는 이상한 성질이 있음
      반면 제곱은 수학적으로 다루기 쉽고, 단순선형회귀의 수치적 성질도 좋음
    • Wikipedia의 Least Squares 항목에 다양한 접근이 정리되어 있음
      4제곱 이상의 고차항은 지역 최적해가 많고, 미분이 복잡해 계산적 단순성이 떨어짐
    • 간단히 말해 abs는 0 근처에서 미분 불가능하고, 4제곱은 노이즈에 과민하며, 3제곱은 분산의 선형성이 깨짐
  • 이 스레드의 대부분 내용은 이미 StackExchange 토론에 잘 정리되어 있음
    새로운 관점을 제시하기는 쉽지 않음
    • StackExchange의 답변이 이미 충분히 완성도 높음
      단순히 수학적 관찰로서 흥미로운 정도임
    • 그래도 이런 주제를 가져오면 StackExchange보다 자유로운 대화가 가능하다는 점에서 의미가 있음
    • 이 포럼에는 너무 성숙한 답변일지도 모름
  • Least SquaresPCA는 서로 다른 손실함수를 최소화함
    전자는 Y축 방향 거리 제곱합, 후자는 선에 대한 직교거리 제곱합을 최소화함
    • 그렇다면 왜 최소제곱선은 아래쪽으로 기울어지는 것처럼 보일까? 방향이 임의적인 것 같음
    • 최소제곱을 가우시안 분포에 맞추는 과정으로 보면 이해가 쉬움
  • y를 x에 대해 회귀시키고, x를 y에 대해 회귀시키면 서로 다른 직선이 나옴
    수업 중에 이걸 발견하고 당황했음. 정규화로 해결할 수 있을까 생각했음
    • 하지만 편향을 없애는 올바른 방법은 정규화가 아니라 좌표 독립적 회귀기법을 쓰는 것임
  • 용어 정리에 대해 덧붙이자면, 최소제곱 모델은 x가 노이즈가 있든 없든 평균 오차가 0인 예측, 즉 통계적으로 편향되지 않은 예측을 제공함
  • 회귀 결과를 볼 때 시각적으로 선이 틀린 것처럼 보여도, 실제로는 모델이 맞을 수 있음
    올바른 기울기를 확인하려면 특정 x에서 잔차(residual) 가 양쪽으로 균형 잡혀 있는지 보면 됨
    예를 들어 y = 1.5x + noise로 데이터를 만들면, 회귀선이 1.5 기울기를 잘 복원하지만 시각적으로는 어색해 보일 수 있음
    • 잔차 플롯을 비교해보면 가장 명확하게 확인 가능함
  • 이 문제는 흔히 Regression Dilution이라 불림 (Wikipedia 링크)
    • 하지만 Regression Dilution은 X 데이터의 오류로 인해 회귀선이 편향되는 경우를 말함
      StackExchange의 질문은 X에 오류가 없어도 왜 회귀선이 3σ 타원축과 일치하지 않는가를 묻는 것임
      이 답변은 X 오류가 0인 예시를 보여줌