30P by GN⁺ 14일전 | ★ favorite | 댓글 1개
  • 딥러닝 모델의 일반화(generalization) 현상이 기존 모델과 다르고 신비하다는 인식이 있음
  • 과적합(overfitting), 더블 디센트(double descent), 과매개화(overparametrization) 등이 딥러닝의 특징으로 자주 언급됨
  • 그러나 이러한 현상은 신경망에만 국한되지 않으며, PAC-Bayes와 가산 가능한 가설 경계 등 오래된 일반화 프레임워크로 설명 가능함
  • "소프트 유도 편향(soft inductive biases)" 이라는 개념이 이러한 일반화 현상을 설명하는 핵심 원리임

소프트 유도 편향(Soft Inductive Biases)

  • 기존의 유도 편향은 일반화 성능 향상을 위해 가설 공간을 제한하는 방식임
  • 소프트 유도 편향은 가설 공간의 유연성을 유지하면서 특정 해에 대해 선호도를 부여함
  • CNN에서 파라미터 공유를 통해 지역성 및 평행 이동 불변성을 유지하는 것처럼, 특정 속성에 대해 부드러운 규제를 추가함
  • 과매개화 모델에서도 일반화 성능이 좋은 이유는 소프트 유도 편향이 작용하기 때문임

일반화 프레임워크(Generalization Frameworks)

PAC-Bayes 및 가산 가능한 가설 경계

  • PAC-Bayes는 일반화 리스크를 경험적 리스크와 모델의 압축성(compressibility)으로 설명함
  • 큰 모델이라도 모델이 단순하고 압축 가능하면 좋은 일반화 성능이 보장됨
  • 수식:
    • 기대 리스크 ≤ 경험적 리스크 + 압축성 관련 항목

효과적 차원수(Effective Dimensionality)

  • 효과적 차원수 = 모델의 손실 함수 헤시안(Hessian)의 고유값 중 큰 값의 수
  • 효과적 차원수가 낮을수록 모델은 단순하고 일반화 성능이 좋음

기타 일반화 프레임워크

  • 라데마허 복잡도(Rademacher complexity), VC 차원 등은 딥러닝 현상을 잘 설명하지 못함
  • PAC-Bayes와 가산 가능한 가설 경계는 이러한 문제를 해결 가능

주요 현상

벤다인 오버피팅(Benign Overfitting)

  • 모델이 노이즈까지 완벽하게 학습하면서도 일반화 성능이 좋은 현상
  • 간단한 선형 모델로도 벤다인 오버피팅을 재현 가능
  • PAC-Bayes 및 가산 가능한 가설 경계로 설명 가능

과매개화(Overparametrization)

  • 파라미터 수가 데이터 수보다 많아도 모델의 일반화 성능이 우수함
  • 큰 모델이 학습 후에 더 단순한 구조로 압축되기 때문에 일반화 성능이 좋음

더블 디센트(Double Descent)

  • 모델의 복잡도가 증가할 때, 손실이 감소했다가 증가한 후 다시 감소하는 현상
  • 선형 모델에서도 재현 가능
  • 효과적 차원수와 모델의 압축성으로 설명 가능

대안적 관점(Alternative Views)

  • 딥러닝의 일반화가 신비하다는 기존 관점은 제한된 일반화 프레임워크에 의존하기 때문임
  • PAC-Bayes 및 가산 가능한 가설 경계를 통해 일반화 현상은 설명 가능함
  • 딥러닝의 일반화가 신비하다는 인식은 잘못된 선입견일 수 있음

딥러닝의 독특한 요소(Distinctive Features of Deep Learning)

표현 학습(Representation Learning)

  • 신경망은 데이터의 유사도를 학습하는 능력이 있음
  • 고차원 데이터에서 유클리드 거리보다 더 나은 유사도 측정 가능
  • 고차원에서의 내삽(interpolation) 및 외삽(extrapolation)에 유리함

보편 학습(Universal Learning)

  • 딥러닝 모델은 다양한 도메인에서 일관되게 좋은 성능을 보임
  • 전이 학습, 인컨텍스트 학습(in-context learning)에서 뛰어난 성능 발휘

모드 연결성(Mode Connectivity)

  • 서로 다른 초기화에서 학습한 모델이 단순한 곡선을 따라 연결될 수 있음
  • SWA(Stochastic Weight Averaging)와 같은 학습 기법에서 활용됨

결론 및 전망

  • 벤다인 오버피팅, 과매개화, 더블 디센트는 신경망에만 국한된 현상이 아님
  • PAC-Bayes 및 가산 가능한 가설 경계로 설명 가능함
  • 딥러닝은 표현 학습, 보편 학습, 모드 연결성과 같은 특성에서 차별성이 있음
  • 일반화 성능은 모델의 복잡성이 아니라 모델의 압축성과 단순성에서 기인함
Hacker News 의견
  • 머신러닝에 관심이 있다면, Stanford의 "Probability for computer scientists" 강의가 훌륭한 자원임

    • 이 강의는 확률 이론과 머신러닝의 이론적 기초를 깊이 있게 다룸
    • Andrew Ng의 강의도 유명하지만, 선형대수학에 대한 수학적 이해가 필요함
    • 딥러닝에 대해서는 3b1b의 시각적 소개가 유용함
  • PAC-Bayes나 VC 이론의 후손보다는 알고리즘 안정성이 더 설득력 있는 설명을 제공함

    • 관련 자료는 arxiv의 논문에서 확인 가능함
  • 머신러닝을 이해하고 싶다면 Josh Starmer의 "The StatQuest Illustrated Guide to Machine Learning"을 추천함

    • 복잡한 아이디어를 명확하고 간결하게 표현하는 뛰어난 교사임
    • 어린이 책 같은 형식으로 쉽게 읽고 이해할 수 있음
    • 최근에 출판된 신경망 관련 책도 추천함
  • DNN은 특별한 일반화 능력이 없음

    • 오히려 SVM 같은 수학적으로 원칙적인 기법보다 일반화가 약할 수 있음
    • UCI 머신러닝 저장소의 "Wine Quality" 데이터셋으로 DNN을 훈련하면 좋지 않은 결과와 과적합이 발생함
    • LLM의 "마법"은 훈련 패러다임에서 옴
    • 방대한 데이터셋을 사용하여 과적합 없이 거대한 모델을 사용할 수 있음
    • 10년 전에는 "재사용성"의 원칙이 명확하지 않았음
  • 과적합을 피하기 위해 가설 공간을 제한하기보다는 유연한 가설 공간을 수용하고, 데이터와 일치하는 간단한 솔루션을 선호하는 것이 중요함

    • 딥러닝이 이를 어떻게 수행하는지에 대한 질문이 있음
    • 과거에는 페널티를 부여하는 가능도 접근법을 사용했음
    • 딥러닝에서 복잡성을 페널티하는 방식이 더 복잡하고 덜 직관적이라는 인상이 있었음
  • 딥러닝에 처음 입문했을 때, 보편적 근사 정리의 증명을 배우는 것이 큰 도움이 되었음

    • 신경망이 함수를 근사할 수 있는 이유를 이해하면 그 위에 구축된 모든 것을 이해하기 쉬워짐
  • "딥" 네트워크가 필요한 흥미로운 예는 최근 RNN에 관한 논문에서 논의됨

    • minGRU와 minLSTM 모델은 명시적으로 상태 의존성을 모델링하지 않지만, 충분히 깊으면 이를 학습할 수 있음
  • 텍스트 데이터를 수집하고, 단어 간 거리를 저장하여 예측 알고리즘을 만드는 아이디어가 있음

    • 이 방법이 GPT 2와 얼마나 가까운지 궁금함
  • 무엇이 'AI'로 규정되고 규제되는지에 대한 경계가 어디인지 궁금함

  • 인공 뉴런은 선형 회귀에 활성화 함수를 추가하여 비선형으로 만드는 것임

    • 이를 네트워크로 구성하면 흥미로운 결과가 발생함