딥러닝은 그리 신비롭거나 다르지 않다

(arxiv.org)

30P by GN⁺ 5달전 | ★ favorite | 댓글 1개

딥러닝 모델의 일반화(generalization) 현상이 기존 모델과 다르고 신비하다는 인식이 있음
과적합(overfitting), 더블 디센트(double descent), 과매개화(overparametrization) 등이 딥러닝의 특징으로 자주 언급됨
그러나 이러한 현상은 신경망에만 국한되지 않으며, PAC-Bayes와 가산 가능한 가설 경계 등 오래된 일반화 프레임워크로 설명 가능함
"소프트 유도 편향(soft inductive biases)" 이라는 개념이 이러한 일반화 현상을 설명하는 핵심 원리임

소프트 유도 편향(Soft Inductive Biases)

기존의 유도 편향은 일반화 성능 향상을 위해 가설 공간을 제한하는 방식임
소프트 유도 편향은 가설 공간의 유연성을 유지하면서 특정 해에 대해 선호도를 부여함
CNN에서 파라미터 공유를 통해 지역성 및 평행 이동 불변성을 유지하는 것처럼, 특정 속성에 대해 부드러운 규제를 추가함
과매개화 모델에서도 일반화 성능이 좋은 이유는 소프트 유도 편향이 작용하기 때문임

일반화 프레임워크(Generalization Frameworks)

PAC-Bayes 및 가산 가능한 가설 경계

PAC-Bayes는 일반화 리스크를 경험적 리스크와 모델의 압축성(compressibility)으로 설명함
큰 모델이라도 모델이 단순하고 압축 가능하면 좋은 일반화 성능이 보장됨
수식:
- 기대 리스크 ≤ 경험적 리스크 + 압축성 관련 항목

효과적 차원수(Effective Dimensionality)

효과적 차원수 = 모델의 손실 함수 헤시안(Hessian)의 고유값 중 큰 값의 수
효과적 차원수가 낮을수록 모델은 단순하고 일반화 성능이 좋음

기타 일반화 프레임워크

라데마허 복잡도(Rademacher complexity), VC 차원 등은 딥러닝 현상을 잘 설명하지 못함
PAC-Bayes와 가산 가능한 가설 경계는 이러한 문제를 해결 가능

주요 현상

벤다인 오버피팅(Benign Overfitting)

모델이 노이즈까지 완벽하게 학습하면서도 일반화 성능이 좋은 현상
간단한 선형 모델로도 벤다인 오버피팅을 재현 가능
PAC-Bayes 및 가산 가능한 가설 경계로 설명 가능

과매개화(Overparametrization)

파라미터 수가 데이터 수보다 많아도 모델의 일반화 성능이 우수함
큰 모델이 학습 후에 더 단순한 구조로 압축되기 때문에 일반화 성능이 좋음

더블 디센트(Double Descent)

모델의 복잡도가 증가할 때, 손실이 감소했다가 증가한 후 다시 감소하는 현상
선형 모델에서도 재현 가능
효과적 차원수와 모델의 압축성으로 설명 가능

대안적 관점(Alternative Views)

딥러닝의 일반화가 신비하다는 기존 관점은 제한된 일반화 프레임워크에 의존하기 때문임
PAC-Bayes 및 가산 가능한 가설 경계를 통해 일반화 현상은 설명 가능함
딥러닝의 일반화가 신비하다는 인식은 잘못된 선입견일 수 있음

딥러닝의 독특한 요소(Distinctive Features of Deep Learning)

표현 학습(Representation Learning)

신경망은 데이터의 유사도를 학습하는 능력이 있음
고차원 데이터에서 유클리드 거리보다 더 나은 유사도 측정 가능
고차원에서의 내삽(interpolation) 및 외삽(extrapolation)에 유리함

보편 학습(Universal Learning)

딥러닝 모델은 다양한 도메인에서 일관되게 좋은 성능을 보임
전이 학습, 인컨텍스트 학습(in-context learning)에서 뛰어난 성능 발휘

모드 연결성(Mode Connectivity)

서로 다른 초기화에서 학습한 모델이 단순한 곡선을 따라 연결될 수 있음
SWA(Stochastic Weight Averaging)와 같은 학습 기법에서 활용됨

결론 및 전망

벤다인 오버피팅, 과매개화, 더블 디센트는 신경망에만 국한된 현상이 아님
PAC-Bayes 및 가산 가능한 가설 경계로 설명 가능함
딥러닝은 표현 학습, 보편 학습, 모드 연결성과 같은 특성에서 차별성이 있음
일반화 성능은 모델의 복잡성이 아니라 모델의 압축성과 단순성에서 기인함

▲

GN⁺ 5달전 [-]

Hacker News 의견

머신러닝에 관심이 있다면, Stanford의 "Probability for computer scientists" 강의가 훌륭한 자원임
- 이 강의는 확률 이론과 머신러닝의 이론적 기초를 깊이 있게 다룸
- Andrew Ng의 강의도 유명하지만, 선형대수학에 대한 수학적 이해가 필요함
- 딥러닝에 대해서는 3b1b의 시각적 소개가 유용함
PAC-Bayes나 VC 이론의 후손보다는 알고리즘 안정성이 더 설득력 있는 설명을 제공함
- 관련 자료는 arxiv의 논문에서 확인 가능함
머신러닝을 이해하고 싶다면 Josh Starmer의 "The StatQuest Illustrated Guide to Machine Learning"을 추천함
- 복잡한 아이디어를 명확하고 간결하게 표현하는 뛰어난 교사임
- 어린이 책 같은 형식으로 쉽게 읽고 이해할 수 있음
- 최근에 출판된 신경망 관련 책도 추천함
DNN은 특별한 일반화 능력이 없음
- 오히려 SVM 같은 수학적으로 원칙적인 기법보다 일반화가 약할 수 있음
- UCI 머신러닝 저장소의 "Wine Quality" 데이터셋으로 DNN을 훈련하면 좋지 않은 결과와 과적합이 발생함
- LLM의 "마법"은 훈련 패러다임에서 옴
- 방대한 데이터셋을 사용하여 과적합 없이 거대한 모델을 사용할 수 있음
- 10년 전에는 "재사용성"의 원칙이 명확하지 않았음
과적합을 피하기 위해 가설 공간을 제한하기보다는 유연한 가설 공간을 수용하고, 데이터와 일치하는 간단한 솔루션을 선호하는 것이 중요함
- 딥러닝이 이를 어떻게 수행하는지에 대한 질문이 있음
- 과거에는 페널티를 부여하는 가능도 접근법을 사용했음
- 딥러닝에서 복잡성을 페널티하는 방식이 더 복잡하고 덜 직관적이라는 인상이 있었음
딥러닝에 처음 입문했을 때, 보편적 근사 정리의 증명을 배우는 것이 큰 도움이 되었음
- 신경망이 함수를 근사할 수 있는 이유를 이해하면 그 위에 구축된 모든 것을 이해하기 쉬워짐
"딥" 네트워크가 필요한 흥미로운 예는 최근 RNN에 관한 논문에서 논의됨
- minGRU와 minLSTM 모델은 명시적으로 상태 의존성을 모델링하지 않지만, 충분히 깊으면 이를 학습할 수 있음
텍스트 데이터를 수집하고, 단어 간 거리를 저장하여 예측 알고리즘을 만드는 아이디어가 있음
- 이 방법이 GPT 2와 얼마나 가까운지 궁금함
무엇이 'AI'로 규정되고 규제되는지에 대한 경계가 어디인지 궁금함
인공 뉴런은 선형 회귀에 활성화 함수를 추가하여 비선형으로 만드는 것임
- 이를 네트워크로 구성하면 흥미로운 결과가 발생함

답변달기