# 딥러닝의 과학 이론은 등장할 것이다

> Clean Markdown view of GeekNews topic #28883. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=28883](https://news.hada.io/topic?id=28883)
- GeekNews Markdown: [https://news.hada.io/topic/28883.md](https://news.hada.io/topic/28883.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-04-26T02:38:22+09:00
- Updated: 2026-04-26T02:38:22+09:00
- Original source: [arxiv.org](https://arxiv.org/abs/2604.21691)
- Points: 1
- Comments: 1

## Topic Body

- **딥러닝 학습 과정의 mechanics**는 신경망 훈련을 파라미터, 데이터, 과제, 학습 규칙의 상호작용이 만드는 동역학으로 다루며, 통합된 **과학적 이론**의 형태로 자리 잡기 시작함
- 핵심 난제는 불투명성보다 **복잡성**에 있으며, 신경망은 비볼록·과매개변수화 구조와 구조화된 내부 표현 학습 때문에 기존의 고전 이론만으로는 충분히 설명되지 않음
- 해석 가능한 설정, **무한 너비·깊이 극한**, 단순한 경험 법칙, 하이퍼파라미터 이론, 보편 현상 같은 축에서 반복적으로 규칙성이 드러나며 학습 mechanics의 기반이 쌓이고 있음
- **deep linear network**, **NTK**, mean-field와 lazy-rich 구분 같은 결과들은 학습 동역학, 일반화, feature learning, scaling law를 정량적으로 다룰 수 있게 만듦
- 이런 이론은 모델 설계와 최적화, 하이퍼파라미터 선택, **AI safety**와 mechanistic interpretability까지 더 예측 가능하고 통제 가능한 기반을 주는 데 중요함

---

### 서론
- **딥러닝**은 매우 강력하지만, 내부 작동 원리를 통합적으로 설명하는 과학적 틀은 아직 부족함
  - 신경망은 다양한 작업에서 초인간적 성능을 보이지만, 왜 그렇게 동작하는지와 어떻게 그런 성능이 나오는지에 대한 **통합 이론**은 부재함
  - 실제 훈련 방식도 여전히 **first principles**보다 시행착오에 크게 의존하며, 이론은 일상적인 딥러닝 실무에서 역할이 제한적임
- 대규모 언어 모델과 diffusion model 시대로 오면서 미스터리는 더 깊어졌지만, **과학적 딥러닝 이론**은 실제로 형성되기 시작했고 그 형태는 **학습 과정의 mechanics**에 가까움
- 딥러닝 이론의 초점은 시간에 따라 바뀌어 옴
  - 초창기에는 모델이 어떤 함수를 표현할 수 있는지와 데이터를 통해 어떻게 학습하는지가 중심이었음
  - 이후에는 유한 표본에서 언제 일반화되는지로 이동하며 **classical learning theory**, 계산학습이론, PAC 이론, 고전 최적화 이론이 발전함
  - 동시에 단순 모델의 평균적 거동을 다루는 **statistical physics of machine learning** 전통도 함께 형성됨
- 다층 네트워크, backpropagation, 데이터와 계산 자원의 대규모화는 기존 이론의 한계를 드러내게 만듦
  - 신경망은 **비볼록**, **과매개변수화**된 구조를 가지며, 고전 이론이 잘 다루던 단순하고 볼록한 모델과 다름
  - 낮은 학습 오차를 넘어서 **구조화된 내부 표현**을 학습하고, 과제와 스케일 전반에서 규칙성을 드러냄
- 이 변화로 딥러닝 이론은 무엇이 가능한지를 수학적으로 묻는 단계에서, 복잡한 경험적 시스템의 거동을 **기술**하고 **예측**하는 과학적 단계로 옮겨감
  - 따라서 경험적 관찰을 포용하고, 통합 원리를 찾고, 반복적으로 나타나는 패턴을 식별하는 **과학적 접근**이 필요함
  - 앞으로의 경로도 순수 수학 분야의 전개보다는 하나의 과학 분야가 성숙해 가는 과정에 더 가까울 것으로 봄

### learning mechanics란 무엇인가
- 신경망 학습은 물체가 공간과 시간 속을 움직이는 **mechanics**와 유사하게 볼 수 있음
  - 물체가 힘을 받아 물리 공간을 연속적으로 이동하듯, 모델은 이산적 업데이트를 통해 **parameter space**를 이동함
  - 물리학에서 힘이 시스템 구성 요소 사이 상호작용에서 나오듯, 딥러닝에서도 파라미터, 데이터셋, 과제, 학습 규칙의 상호작용이 학습을 형성함
- 물리학의 장과 딥러닝의 gradient 사이에도 대응 관계가 있음
  - 물리계가 내부 상호작용과 외부 제약으로 결정되는 potential의 국소 최소점에 정착하듯, 신경망도 아키텍처와 학습 데이터가 만드는 **loss landscape**의 국소 최소점으로 수렴함
- 이런 비유는 단순한 수사에 그치지 않고, 현재 진행 중인 연구 흐름과도 맞물림
  - mechanics의 여러 분야가 **해석 가능한 설정**, **단순화된 극한**, **요약 통계**, **시스템 파라미터 분석**, **보편 현상**을 활용하듯 학습 mechanics도 같은 도구를 사용함
  - 특히 많은 상호작용 요소를 다루는 **continuum mechanics**와 **statistical mechanics**처럼, 딥러닝도 개별 요소 하나하나보다 확대된 수준의 통계량을 설명하는 방식이 유용함
- 이 연구 프로그램은 **learning mechanics**라는 이름으로 묶을 수 있음

### learning mechanics에 필요한 7가지 조건
- ## 근본성
  - 신경망 훈련을 **first principles**에서 출발해 논리적으로 전개해야 함
  - 중간 단계에서 가중치, 동역학, 성능에 관한 가정이 도구로 쓰일 수는 있지만, 최종적으로는 이 역시 first principles로 설명되어야 함
- ## 수학성
  - 중요한 신경망 특성에 대해 모호하지 않은 **정량적 진술**을 만들어야 함
  - 질적 서술만으로는 mechanics가 성립하지 않음
- ## 예측 가능성
  - 간단하고 반복 가능한 경험적 측정으로 검증되는 주장을 해야 함
  - 시스템에 대한 실험 통제가 매우 뛰어나므로, 주요 진전은 실험으로 명확하게 검증될 수 있어야 함
- ## 포괄성
  - 훈련 과정, 내부 표현, 최종 가중치를 하나의 그림으로 연결해야 함
  - 모든 세부를 담으려 하기보다, 세부를 일부 희생하더라도 통찰을 주는 **적절한 해상도**를 택해야 함
- ## 직관성
  - 기술적 복잡성보다 단순하고 illuminating한 통찰을 우선해야 함
  - 딥러닝의 신비를 걷어내는 데서 만족감을 주는 이론이어야 함
- ## 유용성
  - 물리학이 다른 공학의 기초가 되듯, 응용 딥러닝의 과학적 기반이 되어야 함
  - **하이퍼파라미터 튜닝 감소**, **dataset design 예측 도구**, **AI safety의 엄밀한 기반** 같은 구체적 목표가 포함됨
- ## 겸손함
  - 무엇을 잘 설명하는지와 무엇을 설명하지 못하는지를 분명히 해야 함
  - 현실적인 딥러닝에 적용 가능한 mechanics도 작고 수작업으로 설계된 특수한 경우들에서는 깨질 수 있으며, 이는 관심 있는 영역에서 단순한 그림을 얻기 위한 대가로 봄

### 왜 learning mechanics가 중요한가
- ## 과학적 이유
  - 대형 신경망의 공학적 성공은 아직 이해되지 않은 **학습과 표현의 깊은 원리**를 활용하고 있음을 시사함
  - 기술이 이론보다 먼저 나온 선례로 steam engine과 thermodynamics, 비행기와 aerodynamic theory가 제시됨
  - 인공 신경망의 학습 원리는 **biological intelligence**를 이해하는 데도 빛을 줄 수 있고, 이는 neuroscience와 cognitive science에 함의를 가질 수 있음
- ## 실용적 이유
  - 성숙한 딥러닝 이론은 모델 설계, 최적화, 스케일링, 배치를 더 신뢰할 수 있는 원리로 이끌 수 있음
  - 이미 일부 영역에서는 이론이 역할을 시작했음
    - **empirical scaling laws**
    - 하이퍼파라미터 스케일링의 수학적 처방
    - 이론적 동기로 설계된 optimizer와 data attribution 방법
  - 더 깊고 완전한 이론은 이런 지침을 더 많이 제공하고, 더 날카롭고 예측적으로 만들 수 있음
- ## 안전 관련 이유
  - 점점 강력해지는 AI 시스템을 기술하고, 특성화하고, 통제하려면 관련 변수와 메커니즘, 조직 원리를 분명히 할 수 있어야 함
  - 명확하게 기술할 수 없는 기술을 규제하기는 어려우며, fundamental theory는 reliability, oversight, control에 필요한 명료함을 줄 수 있음
  - 특히 **mechanistic interpretability**를 지원하는 방식으로 AI safety에 기여할 가능성이 제기됨

### 학습 mechanics가 나타나고 있다는 증거
- 딥러닝의 핵심 구성 요소는 **명시적**이고 **측정 가능**함
  - 아키텍처는 단순한 선형·비선형 변환의 합성으로 정의된 신경망 **f(x; θ)** 로 주어짐
  - 데이터는 미지의 데이터 생성 분포에서 나온 표본 집합 **D = {(xi, yi)}** 로 주어짐
  - 과제는 데이터셋 위 성능을 재는 목적함수 **L(θ)** 로 정의됨
  - 학습 규칙은 예를 들어 `θ(t+1) = θ(t) −η∇L(θ(t))` 같은 gradient 기반 업데이트와 초기화, 최적화 하이퍼파라미터로 기술됨
- 학습 과정에서 숨겨진 것은 거의 없음
  - 많은 복잡계와 달리, 딥러닝은 동역학을 지배하는 **equations of motion**을 직접 노출함
  - 모든 weight, activation, gradient, loss를 기록할 수 있고, 그로부터 임의의 통계량도 만들 수 있음
  - 실험 설계, 재현, 검증이 쉬워 경험적 규칙성을 발견하고 이론 예측을 엄밀히 시험하기에 유리함
- 중심 난제는 불투명성이 아니라 **복잡성**에 있음
  - architecture, data, task, learning rule의 상호작용이 **비선형**, **결합적**, **고차원적** 학습 동역학을 만듦
  - 하이퍼파라미터 선택에 민감하며, 데이터 분포 자체도 단순하게 특징지어지기 어려움
- 그럼에도 이 복잡성 아래에는 규칙성이 숨어 있으며, 이를 뒷받침하는 다섯 가지 관찰이 제시됨
  - ### 해석적으로 풀리는 설정
  - ### 통찰을 주는 극한
  - ### 단순한 경험 법칙
  - ### 하이퍼파라미터 이론
    - **보편적 현상**

### 해석적으로 풀리는 설정
- 복잡한 시스템에서는 단순화됐지만 대표성을 가진 설정에서 정량 계산이 가능할 때 과학적 이해가 빠르게 자람
  - 물리학의 harmonic oscillator나 hydrogen atom처럼, 딥러닝에서도 최소 모델이 더 현실적인 시스템을 볼 때의 직관을 제공함
  - 딥러닝은 특히 이 접근에 잘 맞으며, 학습 동역학이 단순화되고 핵심 양을 계산 가능한 설정이 다수 발견됨
- ## 데이터에 대한 선형화
  - **deep linear network**는 비선형성을 제거해 입력 x에 대해서는 선형이지만 파라미터 θ에 대해서는 여전히 고도로 비선형인 모델이 됨
  - 이런 모델은 단순해 보여도 딥러닝의 특징적 행동을 유지함
    - **saddle-point-dominated loss landscape**
    - 뚜렷한 phase transition과 분리된 시간척도를 가진 동역학
    - gradient descent에서의 **edge-of-stability oscillation**
    - 초기화에 크게 의존하는 inductive bias
  - 분석은 보통 gradient descent의 연속시간 극한인 **gradient flow** 아래에서 수행되며, 데이터 분포와 초기화에 단순화 가정을 두면 정확한 해 또는 저차원 동역학계로 환원됨
  - 반복적으로 드러나는 핵심은 **greedy low-rank bias**임
    - 학습은 과제의 일부 성분을 다른 성분보다 먼저 획득함
    - [Saxe et al. 2014]의 결과에서는 입력-출력 상관의 singular vector를 순차적으로 학습하고, singular value가 큰 모드가 먼저 학습됨
    - 이 편향은 signal과 noise를 분리해 일반화에 도움을 줄 수 있다고 연결됨
    - 비선형 네트워크에서도 단순한 함수가 복잡한 함수보다 먼저 학습되는 현상과 닮아 있음
  - 작은 초기화, 더 깊은 깊이, 더 강한 mini-batch noise, 명시적 **ℓ2 regularization**은 이 greedy bias를 더 강화하는 것으로 정리됨
- ## 파라미터에 대한 선형화
  - **linearized network**는 초기 파라미터 근처 Taylor 전개에서 비선형 항을 잘라내어 얻으며, 데이터 x에는 비선형이지만 파라미터 θ에는 선형이 됨
  - 특정 설정에서는 전체 훈련 동안 원래 모델이 이 선형화로 잘 근사되며, 이 경우 학습 동역학은 사실상 선형 회귀와 동일해짐
  - 차이는 Gram kernel 대신 **neural tangent kernel, NTK**가 동역학을 지배한다는 점임
  - least squares와 작은 step size의 gradient descent에서는 최종 예측기가 **NTK를 이용한 kernel ridge regression**으로 주어져 해석 가능성이 높아짐
  - 이 설정은 아키텍처가 NTK 구조를 통해 **inductive bias**를 어떻게 결정하는지 드러냄
  - 입력 데이터 구조까지 고려하면 임의의 타깃 함수에 대한 예상 일반화 오차도 예측할 수 있으며, Figure 1의 결과도 이런 예측과 실험이 잘 맞음을 보여줌
  - 또한 **double descent**와 **scaling laws**도 포착할 수 있음
  - 다만 현실성과 한계도 분명함
    - generic neural network의 강한 **feature learning**을 포착하지 못함
    - 표본 복잡도에 대해 지나치게 비관적인 예측을 만들 수 있음
    - 학습을 선형 문제로 바꾸면서 딥러닝 특유의 비볼록 최적화 현상을 우회해 버림
- ## 선형화를 넘어서
  - 이론의 중요한 전선은 데이터와 파라미터 모두에 대해 진짜로 **비선형**인 toy model을 해석 가능하게 만드는 데 있음
  - 여기서는 데이터 분포의 영향이 훨씬 복잡해지므로 하나의 통합 틀을 세우기 어렵지만, 여러 방향에서 진전이 나타남
  - Gaussian 입력과 구조화된 타깃을 가지는 single-index, multi-index model 계열에서는 fully nonlinear neural network가 kernel method보다 적은 샘플로 더 잘 동작함
    - 타깃 함수의 구조를 활용해 **relevant feature**를 학습하기 때문임
  - statistical physics 방법은 이런 모델에서 Bayes-optimal inference와 학습 동역학의 정확한 점근 거동도 계산하게 함
  - quadratic activation을 가진 2층 신경망에서는 정확한 점근, 훈련 동역학, scaling laws까지 특성화됨
  - 그 밖에도 여러 비선형 현상이 분리되어 분석됨
    - logistic loss로 학습한 homogeneous network가 **max-margin solution**으로 수렴하는 현상
    - teacher-student model에서 훈련 동역학이 저차원 요약 통계로 환원되는 현상
    - associative memory model의 memorization
    - modular arithmetic task에서 학습되는 알고리듬적 구조
    - attention의 비선형 해석 가능 모델
    - 비선형 feature learning이 더 나은 scaling law를 만드는 경우
  - 현재 비선형 toy model들은 각각 완전 비선형 학습의 일부 단면을 포착하지만, 아직 **통합 프레임워크**는 나타나지 않음

### 통찰을 주는 극한
- 현대 딥러닝 시스템은 수백억 개 이상의 파라미터와 방대한 데이터로 구성되어, 개별 파라미터를 추적하는 미시 이론은 거의 불가능해 보임
- 하지만 복잡계는 종종 크기를 사실상 무한대로 보내는 극한에서 단순화되고, 이 단순 구조가 실제 유한 시스템에도 유익한 통찰을 줌
  - 이상기체 법칙이 무한 입자 수 극한에서 유도되지만 실제 유한 기체에도 잘 맞는 것과 같은 논리임
  - 딥러닝에서도 극한은 복잡성을 다루는 핵심 수학 도구이며, 그 반복적 성공 자체가 emerging theory의 강한 증거로 제시됨
- ## 무한 너비 극한과 lazy-rich 이분법
  - hidden layer의 뉴런 수를 무한대로 보내면, 개별 뉴런보다 전체 뉴런 집단의 분포 진화만 보면 되는 **mean-field behavior**가 나타남
  - 다만 깊은 층의 activation 발산을 막기 위해 너비가 커질수록 초기화 스케일을 줄여야 하며, 이 감소율에 따라 서로 다른 두 종류의 한계 동역학이 나타남
  - ### lazy 또는 kernel 또는 linearized regime
    - 초기화에서 각 파라미터 크기를 **[width]−1/2**로 줄이면 hidden neuron 입력이 사라지거나 폭주하지 않음
    - 이런 네트워크를 훈련하면 weight와 hidden representation은 거의 바뀌지 않지만, 그 작은 변화가 누적되어 출력 함수는 크게 변함
    - 결과적으로 학습 동역학은 파라미터에 대해 선형이며, 출력 함수 진화는 전적으로 **NTK**로 표현됨
    - 해석 가능성은 높지만 hidden representation이 거의 변하지 않아 **feature learning**을 보이지 않음
    - 이 한계는 이후 **lazy**라는 이름으로 정리됨
  - ### rich 또는 active 또는 feature-learning regime
    - 마지막 층 가중치를 **[width]−1**로 더 강하게 축소하면, 모델이 학습 중 더 많이 변해야 하므로 feature learning이 가능한 다른 극한이 생김
    - 이 경우 초기 출력은 무한 너비에서 0이 되지만, 훈련 중에는 각 gradient step마다 order-one 수준으로 의미 있게 성장할 수 있음
    - shallow mean-field network에서 시작된 이 아이디어는 arbitrary depth의 네트워크로 확장됐고, 관련 스케일링은 **Maximal Update Parameterization, µP**와 연결됨
    - 이제는 infinite-width network도 **feature**를 학습할 수 있다는 점이 널리 받아들여짐
  - ### rich regime에서 나타나는 행동
    - hidden feature가 시간에 따라 변하고 입력 데이터 구조에 적응함
    - 내부 표현의 geometry가 훈련 중 바뀜
    - 뉴런의 부분집단이 서로 다른 잠재 feature에 특화됨
    - 최적 예측이 고차원 데이터의 저차원 부분공간에 있을 때, 첫 층 가중치 분포가 그 관심 부분공간을 증폭하는 방향으로 진화함
    - 초기화 스케일을 더 작게 만들면 앞서 언급한 **greedy low-rank bias**가 자주 다시 나타남
  - ### 유한 너비에서도 나타나는 lazy-rich 전이
    - 출력 스케일을 낮추면 feature learning이 촉진되어 rich regime 쪽으로 이동함
    - 출력 스케일을 높이면 훈련 동역학이 더 선형화되어 lazy behavior가 나타남
    - 같은 유한 네트워크도 출력 스케일에 따라 lazy 또는 rich 학습을 보일 수 있으며, Figure 2가 이 차이를 시각화함
- ## 무한 깊이 극한과 다른 하이퍼파라미터 극한
  - deep residual network에서는 각 층 기여를 적절히 줄이면 안정적인 **infinite depth limit**에 도달할 수 있음
  - 각 층을 **[depth]−1**로 억제하면 residual stream이 깊이에 따라 매끄럽게 변하는 극한이 나오며, 이는 **Neural ODE**를 떠올리게 함
  - 각 층을 **[depth]−1/2**로 억제하면 residual stream이 마치 확률미분방정식에 의해 구동되는 것처럼 확산하는 극한이 나옴
  - 이 두 극한은 transformer 같은 현실적 아키텍처에서 질적으로 다른 해로 수렴하며, 어느 쪽이 더 중요한지는 아직 분명하지 않음
- ## 다른 크기 극한
  - recurrent architecture는 feedforward layer 수 대신 recurrent 구조의 무한 극한을 분석할 수 있음
  - 최신 transformer에는 multi-head self-attention과 mixture-of-expert MLP 같은 더 표현력 있는 블록이 들어감
    - attention은 **head count**, **head size**, **context length**라는 여러 스케일 방향을 가짐
    - mixture-of-expert는 **expert count**, **expert size**, **sparsity**라는 여러 스케일 방향을 가짐
  - 이런 서로 다른 무한 극한의 상호작용을 분명히 하는 일은 현대 실무와 접점을 만들고, 초기화 및 최적화 관련 하이퍼파라미터를 분리해 이해하는 데 중요함

### 표와 그림에서 드러나는 요약
- Table 1은 딥러닝의 핵심 연구 도구가 물리학의 도구와 밀접하게 닮았음을 정리함
  - **solvable settings**는 deep linear network, kernel regression, multi-index model과 대응되고, 물리학에서는 harmonic oscillator, hydrogen atom, Ising model과 대응됨
  - **simplifying limits**는 lazy vs rich learning, width와 depth의 무한 극한, small initialization과 연결되며, 물리학에서는 thermodynamic limit, classical limit, hydrodynamic limit와 나란히 놓임
  - **simple empirical laws**는 neural scaling laws, edge of stability, neural feature ansatz로 나타나고, 물리학의 Kepler, Snell, Boyle, Hooke, Newton, Faraday, Ohm, Poiseuille, Planck, Hubble 같은 법칙들과 병치됨
  - **system parameters 연구**는 step size를 sharpness regularization으로 보는 관점, µP와 width scaling과 연결되고, 물리학의 scaling analysis, nondimensionalization, chaotic vs ordered regime과 유사하게 정리됨
  - **universal phenomena**는 모델 전반에 공통으로 나타나는 inductive bias와 representation으로 나타나며, 물리학의 critical phenomena, renormalization group flow와 대응됨
- Figure 1은 선형화가 **정확한 해**를 제공하고 실험과 잘 맞는다는 점을 강조함
  - deep linear network에서는 task-aligned initialization과 whitened input 아래에서 singular mode가 순차적으로 학습됨
  - nonlinear network를 초기화점에서 Taylor 전개로 선형화하면 NTK를 통한 kernel ridge regression으로 환원되고, 테스트 성능 예측이 CIFAR-5m의 여러 이진 분류 과제에서 실험과 가깝게 맞음
- Figure 2는 큰 출력 배율과 작은 출력 배율만으로도 **lazy**와 **rich** 훈련 동역학을 유도할 수 있음을 보여줌
  - 같은 shallow student network에서도 `α = 0.1`일 때는 student weight가 크게 움직이며 teacher feature 방향 주변으로 모여 rich dynamics를 보임
  - `α = 30`일 때는 loss는 떨어지지만 student weight는 거의 움직이지 않아 lazy dynamics를 보임

## Comments


### Comment 56302

- Author: neo
- Created: 2026-04-26T02:38:23+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47893779) 
- 이 분야에서 일하는 입장에서 보면, 이 글은 지금 가장 많이 다뤄지는 **연구 주제**들을 꽤 잘 요약했음  
  특히 마지막의 **open problems**가 사실상 핵심 연구 방향을 거의 다 짚고 있어서 가장 유용했음  
  댓글에 회의론이 많은 걸 보니 이런 연구가 대중에게 거의 전달되지 않고 있다는 게 드러나서 아쉬움  
  아직은 최적의 네트워크 설계를 수학적으로 직접 도출하는 메커니즘이 많지 않지만, 그건 대개 이론보다 실험이 더 빨라서 사후적으로 설명하는 일이 많기 때문임  
  그래도 왜 신경망이 다른 모델보다 더 잘 작동하느냐는 질문에는 이제 꽤 단단한 답이 가까워지고 있음  
  문제는 정작 사람들이 정말 궁금해했던 질문은 그게 아니었다는 데 있고, 그래서 이제는 다음에 무엇을 물어야 할지 정해야 하는 단계로 보임
  - 지금은 **딥러닝의 정보이론적 기반**이 빠르게 굳어지는 묘한 시기라고 봄  
    왜 작동하느냐는 질문은 대체로 풀렸고, 핵심은 **noise floor**에 비해 비가역적인 정보 손실을 효율적으로 최소화하는 데 있음  
    수학은 더 효율적인 길을 가리키는데도 업계는 몇 년째 그냥 더 큰 모델만 밀어붙이느라 낭비가 큼  
    잘 만든 70B 모델도 능력 손실 없이 약 16GB 수준으로 돌리고 계속 학습까지 가능하게 만들 수 있는데, 자금은 계속 bigger에만 몰렸음  
    이제 업계는 목표를 **Agency**와 **Long-horizon Persistence**로 옮겼고, 예측하는 계산기에서 오래 지속되는 시스템으로 가는 전환은 비평형 열역학 문제에 더 가까움  
    여기에는 AI에도 그대로 적용되는 수학과 법칙이 있고, 모델 안에서 신호가 지속되는 원리와 에이전트가 지속되는 원리가 사실상 같은 수학으로 이어짐  
    내 전문 분야도 바로 이런 지속성이고, AI 쪽이 다른 분야에서 이미 익힌 일차 원리를 다시 힘들게 재학습하는 걸 보면 솔직히 답답할 때가 있음  
    그래서 수학이 어떻게 작동하고 각자 도메인에 어떻게 적용하는지 설명하는 문서를 써서 공유하는데, 그걸 보고 나면 감으로 때려맞추는 대신 무엇을 개선해야 지속성이 커지는지 정확히 알게 됨  
    모델을 몇 시간이나 일하게 할 수 있나 같은 질문은 귀엽게 느껴질 정도로, 더 본질적인 질문이 따로 있음
  - 그게 사실이라면 정말 반가운 일임  
    **고전적 관점**에서 보면 과매개변수화나 다른 신경망 구조의 효과는 솔직히 잘 납득되지 않음  
    **double descent**가 경험적으로 작동하는 건 인정하지만, 원래라면 그러면 안 된다고 느껴짐  
    Hastie 등의 Elements를 좋아하는 입장에서는 **bias-variance tradeoff**만 봐도 그런 결과가 나오기 어려워 보임  
    이건 몇 년째 계속 마음에 걸리던 부분이라, 여기에 대한 진전이 있다면 철학적인 차원에서라도 엄청 유용할 것 같음  
    아직 서론만 읽었지만 글도 잘 썼고, 이런 연구 프로그램은 충분히 밀어주고 싶음  
    bagging이나 boosting도 처음엔 이론 없이 경험적으로 먼저 성공했던 것과 비슷해 보임
  - 신경망을 이해하려는 연구에 대해, 처음부터 **black box**라며 이해는 불가능하다고 단정하는 사람이 정말 많아서 늘 놀라움  
    아마 신경망이 고전적으로 해석 가능한 **linear regression**의 반대편에 있는 것처럼 묘사된 영향이 큰 듯함  
    엔지니어링이 너무 빨리 움직이다 보니 연구가 즉각적인 성과를 내지 않으면 기다려 주지 않는 분위기도 강함  
    해석 가능성 연구자들조차 눈에 띄는 결과가 바로 안 나오면 너무 빨리 포기하는 경우가 많아 보임
  - **왜 신경망이 다른 모델보다 잘 작동하는가**라는 질문이 흥미로움  
    비전공자도 볼 만한 참고자료가 있으면 알고 싶음
  - 신경망이 정말 **다른 모델보다 더 낫다**고 단정할 수는 모르겠음  
    이미지처럼 전통적 ML이 어려운 문제군을 훨씬 넓게 다룰 수 있는 건 맞지만, 동등 비교가 가능한 곳에서는 **gradient boosting**이 더 잘 나오는 경우도 많다고 알고 있음

- 내가 이해가 안 되는 지점은 이거임  
  신경망 아이디어는 수십 년 전부터 있었는데 별 관심을 못 받다가, 2017년 **Attention Is All You Need** 이후 딥러닝이 폭발적으로 커졌음  
  GPU가 딥러닝을 가속한다는 건 알겠지만, transformer라는 개념 자체는 훨씬 느린 하드웨어로도 더 일찍 시도할 수 있었던 것 아닌가 싶음
  - 진짜 **변곡점**은 2012년의 **AlexNet**이었음  
    AlexNet은 [https://en.wikipedia.org/wiki/AlexNet](https://en.wikipedia.org/wiki/AlexNet)처럼 ImageNet 분류 대회에서 이전과 차원이 다른 성능 향상을 보여줬고, 그 뒤로 주요 ML 이미지 연구실들이 전부 deep CNN으로 갈아탔음  
    몇 년 사이에 다른 접근은 SOTA 이미지 대회에서 거의 사라졌고, 이후 딥 신경망은 다른 ML 영역까지 장악했음  
    통설은 결국 두 가지 조합임  
    첫째는 과거보다 압도적으로 커진 연산량이고, 둘째는 손으로 정제하고 라벨링한 ImageNet 같은 훨씬 큰 고품질 데이터셋임  
    attention은 텍스트처럼 비교적 자유로운 순서 구조를 가진 시퀀스에서 복잡한 관계를 배우는 데 특히 유용했지만, 지금은 많은 사람이 아키텍처를 학습 자체의 본질이라기보다 데이터와 컴퓨트가 부족할 때의 **tradeoff 선택지** 정도로 봄  
    결국 [https://en.wikipedia.org/wiki/Bitter_lesson](https://en.wikipedia.org/wiki/Bitter_lesson)처럼 더 많은 컴퓨트와 더 많은 데이터가, 잘 확장되지 않는 더 똑똑한 모델을 결국 이기는 경우가 많음  
    인간은 대략 10^11개의 뉴런, 개는 10^9, 쥐는 10^7 정도를 가지는데, 여기서 눈에 띄는 건 전부 엄청 큰 수라는 점임  
    쥐 같은 제한된 지능조차 수억 개 뉴런이 필요하고, 지능은 어느 정도 이상의 계산 용량을 넘어야 비로소 나타나는 것처럼 보임  
    아마 복잡한 학습 환경의 본질적 복잡성을 다루려면 많은 파라미터가 필요하기 때문일 것임  
    반면 단순하거나 정형화된 문제에선 적은 파라미터로도 잘 작동하거나 심지어 최적임이 증명된 기법들이 많음  
    우리가 말하는 학습과 지능은 대개 복잡한 환경을 전제하고, 그런 복잡성은 본질적으로 큰 수의 파라미터를 요구함
  - 딥러닝의 더 이른 대형 승리는 사실 **2012년 AlexNet**의 이미지 인식이었음  
    그게 대회를 압도했고 몇 년 안에 이미지 작업은 사실상 그 방식이 표준이 됐음  
    아마 Jeremy Howard였던 걸로 기억하는데, 2017년 무렵 이미지에서 convnet이 해낸 것만큼 NLP에서도 잘 먹히는 **transfer learning**이 언제 나오느냐고 쓴 글이 있었음  
    그해 attention 논문이 바로 세상을 지배한 건 아니었고, 당시엔 하드웨어도 부족했고 스케일이 모든 걸 해결한다는 합의도 없었음  
    GPT-3가 뜨기까지 거의 5년이 더 걸렸고, 그제야 지금의 파도가 시작됐음  
    그리고 이 괴물들을 학습시키는 데 들어가는 **compute 규모**를 너무 작게 보는 경우가 많은데, 1GHz 단일 프로세서 하나로는 이런 급 모델 하나 훈련하는 데 대략 1억 년이 걸림  
    GPT-3급 모델도 2만 5천 개 수준의 GPU를 써서 몇 달이 걸리고, 10년 전 GPU의 빈약한 메모리로는 대형 transformer 학습이 사실상 불가능했음  
    예전 k80은 12GB 수준이었지만 지금 H100/H200은 수백 GB급이고, 큰 transformer는 2020년대 초반 이전에는 실제로 못 만들었다고 봐야 함  
    2010년대 후반 게이머들이 ML 때문에 GPU 가격이 폭등한다고 불평하던 것도 떠오름
  - 다른 사람들이 말했듯 관심 폭발은 **deep convolutional networks**가 이미지 문제에 먹히면서 시작됐음  
    흥미로운 건 그전까지만 해도 신경망은 별로 중요하지 않은 걸로 취급됐다는 점임  
    내가 2000년 무렵 관련 수업을 들을 때도 대체로 그런 분위기였음  
    다시 불이 붙으려면 결국 **ImageNet**처럼 엄청난 학습 데이터와 빠른 프로세서가 함께 필요했던 듯함  
    그 뒤로는 특정 아키텍처에 대한 후속 발전이 계속 이어지며 눈덩이처럼 커졌음  
    넓은 커뮤니티에선 AlexNet이 큰 분기점으로 보이지만, 학계 내부에선 그보다 2~3년 전부터 기류가 바뀌고 있었음  
    워크숍에서 신경망 관련 발표가 더 이상 무시당하지 않는 걸 2008~09년쯤부터 보기 시작했음
  - 비슷한 일은 **행렬**에서도 있었음  
    행렬은 400년 전부터 있었지만, **선형대수학** 특히 수치선형대수학이 폭발한 건 컴퓨터가 등장한 뒤였음  
    예전엔 연립방정식을 minors 이론으로 푸는 게 정석이었지만, 컴퓨터가 생기자 Gaussian elimination이나 Krylov 공간 같은 이론이 크게 발전했음
  - 느린 하드웨어로도 transformer 개념 자체는 더 일찍 쓸 수 있었을 것 같지만, **작은 스케일**에서는 같은 결과가 나오지 않음  
    사람들은 상상은 했어도 하드웨어가 없어 실제로 구현할 수 없었음  
    단순화하면 LLM은 결국 transformer에다가 **엄청난 양의 데이터**를 붙인 것이고, 그 규모의 데이터를 실제로 학습 가능하게 만들려면 충분히 강한 하드웨어가 반드시 필요했음

- 한 학습 도구인 **뇌**로 다른 학습 도구를 이해하려 든다는 점이 흥미로움  
  SGD는 이미 충분히 잘 작동하고, 그걸 몇 배 더 좋게 만든다고 해서 블랙박스가 실제로 무엇을 하는지에 대한 근본 질문이 해결되진 않을 수 있음  
  학습을 어떻게 하느냐와 모델이 실제로 무엇을 하느냐는 다른 문제인데, 우리 뇌 역시 여러 면에서 블랙박스이기 때문임  
  그래서 학습 메커니즘 연구와 **심리학**, 그리고 사고와 언어의 본성에 대한 철학적 아이디어를 연결하는 고리가 더 필요해 보였음

- 이건 고무적이지만, 제목은 좀 과장됐다고 봄  
  **딥러닝이 실제로 무엇을 하는지 이해하기 위한 공격 지점들** 정도가 더 정확했겠지만 덜 눈길을 끌었을 것임  
  딥러닝 시스템이 언제 **환각**을 만들어내는지 측정하는 방법으로 이어질 수 있다면 엄청난 가치가 있음  
  그게 되기 전까지는, 딥러닝 시스템은 헛소리를 내놔도 피해가 작은 작업에만 제한적으로 쓸 수밖에 없음
  - 이 분야를 크게 가로막는 건 LLM에 붙는 **희망 섞인 암기법**과 **의인화**라고 봄  
    예를 들어 hallucination이라는 말 자체가 LLM 출력에 인간적 의미를 억지로 부여함  
    실제 수학적 작동 원리로 보면 환각도 그냥 또 하나의 출력일 뿐이고, 그것과 다른 출력 사이에 명확한 경계가 정의돼 있지 않음
  - 딥러닝 시스템이 **환각을 만드는 시점**을 측정하는 건 정말 풀 가치가 큰 문제임  
    내 주된 연구 방향이기도 해서 편향은 있을 수 있음  
    흔한 접근은 **OOD detection**이지만, 나는 이게 애초에 문제 설정이 불안정하다고 느껴왔음  
    그래서 동료들과 함께 모델 **misspecification** 측정으로 더 근본적인 접근을 해보고 있는데, 계산 비용이 너무 커서 아직은 틈새 주제에 가까움  
    어느 방향에서든 돌파구가 나오기까지는 시간이 더 걸릴 듯함

- 이걸 보니 **vibecoding**과 개념적으로 닮았다는 생각이 듦  
  일단 뭔가는 작동하게 만들고, 그다음에 왜 되는지 어떻게 되는지 이해하는 건 또 별개의 작업임

- 잠깐, 아직 이해도 못 하고 제대로 설명도 못 하는 걸 만들어 놓고 이제 와서 **science**라고 부른다고?  
  수십 년 전부터 생물학, 특히 **신경생물학** 용어를 빌려다 썼고, 결국 원숭이 흉내 내듯 copy paste한 면도 있어 보임

- 솔직히 말하면, 이런 **보편 이론** 시도 두 개가 더 흥미로웠음  
  [https://arxiv.org/abs/2510.12269](https://arxiv.org/abs/2510.12269)  
  [https://www.mdpi.com/1099-4300/28/3/332](https://www.mdpi.com/1099-4300/28/3/332)  
  **fuzzy logic**과의 연결도 궁금함  
  신경망이 모호한 방식으로 추론하는 것처럼 보이는데, 그걸 형식적으로는 무엇이라 해야 하는지 잘 모르겠음  
  수년 동안 fuzzy reasoning을 형식화하려는 시도가 있었는데, 이제는 아무도 신경 쓰지 않는 듯함  
  내 느낌엔 신경망과 transformer는 ML의 **OOP** 같음  
  엄청 인기 있고 실무에선 꽤 잘 먹히지만 근본은 아직 불투명하고, 예전에도 표현 가능하던 걸 새로운 언어로 다시 표현하는 느낌인데 정확히 어디서 이득이 생기는지 집어내기 어려움

- 아직 논문을 다 읽진 않았지만, 글이 정말 **몰입감 있게** 잘 쓰였고 꽤 **사려 깊다**고 느꼈음  
  소화할 게 엄청 많지만, 이런 내용이 한데 묶여 있는 걸 보니 무척 흥미로움

- 딥러닝이 높은 수준에서 잘 작동하는 이유는 결국 **더 많은 데이터에서 계속 학습**하는 능력이 다른 접근보다 낫기 때문이라고 봄  
  하지만 지금 가능한 **엄청난 양의 데이터**가 없었다면 아키텍처는 그리 중요하지 않았을 것임  
  모델-데이터 방정식의 양쪽을 함께 설명하지 않으면, 예를 들어 reasoning 모델이 왜 추론하는가 같은 질문에 대해 단단한 과학 이론을 세우긴 어렵다고 느낌  
  모델은 아키텍처와 학습 데이터가 함께 만든 산물임  
  지금 이 문제는 인간이나 동물이 막대한 입력 데이터 속에서 어떻게 특정한 걸 배우는지 설명하는 것만큼이나 아직은 막막해 보임  
  경험적 이해는 더 좋아지겠지만, 근본은 다시 컴퓨터과학으로 환원되지 않을 수도 있음  
  진짜 복잡성의 핵심은 아키텍처보다 **기가데이터셋** 쪽에 있다고 봄

- 이론은 **실패 모드 예측**이 필요해지는 순간 결정적으로 중요해짐  
  대부분의 시간엔 그럭저럭 맞지만 edge case에서 조용히 망가지는 의사결정 지원 시스템은, 한계가 명확한 더 단순한 시스템보다 오히려 더 위험함  
  편향 메커니즘을 이해하면 모델이 언제 정말 **확신**하는지, 언제 그냥 **pattern matching**을 하는지 구분하는 데 도움이 됨  
  이 차이는 stakes가 큰 환경에서 특히 중요함