선형회귀(Linear Regression), 즉 Ordinary Least Squares(OLS) 는 오직 Y에만 노이즈가 존재하고 X는 정확하다고 가정함
반면, 시각적으로 X와 Y 모두에 노이즈가 있다고 보는 접근은 Total Least Squares(TLS) 라 불림
많은 시스템에서 Y의 노이즈가 X보다 크다는 점이 흥미로움
예를 들어 아날로그-디지털 변환기에서 시간은 수정 발진기로 안정적이지만, 측정값은 그렇지 않음
데이터 분석에서 추세선을 구할 때 PCA의 고유벡터 방향을 쓰는 게 더 낫지 않을까 하는 의문이 생김
입력과 출력 모두에 노이즈가 있다고 가정하고 신경망을 학습시키면 흥미로울 것 같음
만약 Y가 X보다 n배 더 시끄럽다는 걸 안다면, 그 정보를 이용해 더 나은 피팅을 할 수 있을지 궁금함
오랫동안 통계를 안 다뤘는데, 왜 꼭 제곱(squares) 을 쓰는지 이해가 안 됨
1제곱, 3제곱, 4제곱 등 다른 지수도 있을 텐데, 왜 항상 제곱이 등장하는지 의문임
제곱합 최소화는 오차가 정규분포(iid normal) 라고 가정할 때 최대우도추정(MLE)을 제공함
오차 분포가 다르면 다른 손실함수가 더 적절할 수 있음
예를 들어 Huber loss는 작은 오차에는 제곱, 큰 오차에는 선형으로 작동해 이상치에 강건함
자세한 수식은 Boyd & Vandenberghe의 Convex Optimization 352–353쪽 참고
또한 ANOVA는 피타고라스 정리에 기반하므로 제곱항이 필수적임
평균은 L2 노름을 최소화하므로, OLS를 확률변수 관점에서 보면 조건부기대값 E[Y|X] 를 추정하는 자연스러운 형태로 L2가 등장함
Gauss–Markov 정리가 이 추정량이 편향되지 않고 최소분산임을 보장함
1제곱은 해가 유일하지 않음. 예를 들어 (0,0), (1,0), (1,1) 세 점에서는 a가 0~1 사이면 모두 동일한 오차합을 가짐
1보다 작은 지수는 큰 오차 하나를 여러 작은 오차보다 선호하는 이상한 성질이 있음
반면 제곱은 수학적으로 다루기 쉽고, 단순선형회귀의 수치적 성질도 좋음
간단히 말해 abs는 0 근처에서 미분 불가능하고, 4제곱은 노이즈에 과민하며, 3제곱은 분산의 선형성이 깨짐
이 스레드의 대부분 내용은 이미 StackExchange 토론에 잘 정리되어 있음
새로운 관점을 제시하기는 쉽지 않음
StackExchange의 답변이 이미 충분히 완성도 높음
단순히 수학적 관찰로서 흥미로운 정도임
그래도 이런 주제를 가져오면 StackExchange보다 자유로운 대화가 가능하다는 점에서 의미가 있음
이 포럼에는 너무 성숙한 답변일지도 모름
Least Squares와 PCA는 서로 다른 손실함수를 최소화함
전자는 Y축 방향 거리 제곱합, 후자는 선에 대한 직교거리 제곱합을 최소화함
그렇다면 왜 최소제곱선은 아래쪽으로 기울어지는 것처럼 보일까? 방향이 임의적인 것 같음
최소제곱을 가우시안 분포에 맞추는 과정으로 보면 이해가 쉬움
y를 x에 대해 회귀시키고, x를 y에 대해 회귀시키면 서로 다른 직선이 나옴
수업 중에 이걸 발견하고 당황했음. 정규화로 해결할 수 있을까 생각했음
하지만 편향을 없애는 올바른 방법은 정규화가 아니라 좌표 독립적 회귀기법을 쓰는 것임
용어 정리에 대해 덧붙이자면, 최소제곱 모델은 x가 노이즈가 있든 없든 평균 오차가 0인 예측, 즉 통계적으로 편향되지 않은 예측을 제공함
회귀 결과를 볼 때 시각적으로 선이 틀린 것처럼 보여도, 실제로는 모델이 맞을 수 있음
올바른 기울기를 확인하려면 특정 x에서 잔차(residual) 가 양쪽으로 균형 잡혀 있는지 보면 됨
예를 들어 y = 1.5x + noise로 데이터를 만들면, 회귀선이 1.5 기울기를 잘 복원하지만 시각적으로는 어색해 보일 수 있음
Hacker News 의견들
반면, 시각적으로 X와 Y 모두에 노이즈가 있다고 보는 접근은 Total Least Squares(TLS) 라 불림
그래서 일반적으로 Deming 회귀를 더 선호한다고 가르치셨음 (Deming regression)
예를 들어 1kHz로 샘플링하는 센서라면, MCU의 클럭 지터보다 센서 자체의 노이즈가 훨씬 큼
x분산이 매우 작으면 델타가 커져서 조건수가 나쁜 모델이 될 수 있음
예를 들어 아날로그-디지털 변환기에서 시간은 수정 발진기로 안정적이지만, 측정값은 그렇지 않음
1제곱, 3제곱, 4제곱 등 다른 지수도 있을 텐데, 왜 항상 제곱이 등장하는지 의문임
오차 분포가 다르면 다른 손실함수가 더 적절할 수 있음
예를 들어 Huber loss는 작은 오차에는 제곱, 큰 오차에는 선형으로 작동해 이상치에 강건함
자세한 수식은 Boyd & Vandenberghe의 Convex Optimization 352–353쪽 참고
또한 ANOVA는 피타고라스 정리에 기반하므로 제곱항이 필수적임
Gauss–Markov 정리가 이 추정량이 편향되지 않고 최소분산임을 보장함
1보다 작은 지수는 큰 오차 하나를 여러 작은 오차보다 선호하는 이상한 성질이 있음
반면 제곱은 수학적으로 다루기 쉽고, 단순선형회귀의 수치적 성질도 좋음
4제곱 이상의 고차항은 지역 최적해가 많고, 미분이 복잡해 계산적 단순성이 떨어짐
새로운 관점을 제시하기는 쉽지 않음
단순히 수학적 관찰로서 흥미로운 정도임
전자는 Y축 방향 거리 제곱합, 후자는 선에 대한 직교거리 제곱합을 최소화함
수업 중에 이걸 발견하고 당황했음. 정규화로 해결할 수 있을까 생각했음
올바른 기울기를 확인하려면 특정 x에서 잔차(residual) 가 양쪽으로 균형 잡혀 있는지 보면 됨
예를 들어 y = 1.5x + noise로 데이터를 만들면, 회귀선이 1.5 기울기를 잘 복원하지만 시각적으로는 어색해 보일 수 있음
StackExchange의 질문은 X에 오류가 없어도 왜 회귀선이 3σ 타원축과 일치하지 않는가를 묻는 것임
이 답변은 X 오류가 0인 예시를 보여줌