딥러닝의 과학 이론은 등장할 것이다

▲

GN⁺ 6시간전 | parent | ★ favorite | on: 딥러닝의 과학 이론은 등장할 것이다(arxiv.org)

Hacker News 의견들

이 분야에서 일하는 입장에서 보면, 이 글은 지금 가장 많이 다뤄지는 연구 주제들을 꽤 잘 요약했음
특히 마지막의 open problems가 사실상 핵심 연구 방향을 거의 다 짚고 있어서 가장 유용했음
댓글에 회의론이 많은 걸 보니 이런 연구가 대중에게 거의 전달되지 않고 있다는 게 드러나서 아쉬움
아직은 최적의 네트워크 설계를 수학적으로 직접 도출하는 메커니즘이 많지 않지만, 그건 대개 이론보다 실험이 더 빨라서 사후적으로 설명하는 일이 많기 때문임
그래도 왜 신경망이 다른 모델보다 더 잘 작동하느냐는 질문에는 이제 꽤 단단한 답이 가까워지고 있음
문제는 정작 사람들이 정말 궁금해했던 질문은 그게 아니었다는 데 있고, 그래서 이제는 다음에 무엇을 물어야 할지 정해야 하는 단계로 보임
- 지금은 딥러닝의 정보이론적 기반이 빠르게 굳어지는 묘한 시기라고 봄
  왜 작동하느냐는 질문은 대체로 풀렸고, 핵심은 noise floor에 비해 비가역적인 정보 손실을 효율적으로 최소화하는 데 있음
  수학은 더 효율적인 길을 가리키는데도 업계는 몇 년째 그냥 더 큰 모델만 밀어붙이느라 낭비가 큼
  잘 만든 70B 모델도 능력 손실 없이 약 16GB 수준으로 돌리고 계속 학습까지 가능하게 만들 수 있는데, 자금은 계속 bigger에만 몰렸음
  이제 업계는 목표를 Agency와 Long-horizon Persistence로 옮겼고, 예측하는 계산기에서 오래 지속되는 시스템으로 가는 전환은 비평형 열역학 문제에 더 가까움
  여기에는 AI에도 그대로 적용되는 수학과 법칙이 있고, 모델 안에서 신호가 지속되는 원리와 에이전트가 지속되는 원리가 사실상 같은 수학으로 이어짐
  내 전문 분야도 바로 이런 지속성이고, AI 쪽이 다른 분야에서 이미 익힌 일차 원리를 다시 힘들게 재학습하는 걸 보면 솔직히 답답할 때가 있음
  그래서 수학이 어떻게 작동하고 각자 도메인에 어떻게 적용하는지 설명하는 문서를 써서 공유하는데, 그걸 보고 나면 감으로 때려맞추는 대신 무엇을 개선해야 지속성이 커지는지 정확히 알게 됨
  모델을 몇 시간이나 일하게 할 수 있나 같은 질문은 귀엽게 느껴질 정도로, 더 본질적인 질문이 따로 있음
- 그게 사실이라면 정말 반가운 일임
  고전적 관점에서 보면 과매개변수화나 다른 신경망 구조의 효과는 솔직히 잘 납득되지 않음
  double descent가 경험적으로 작동하는 건 인정하지만, 원래라면 그러면 안 된다고 느껴짐
  Hastie 등의 Elements를 좋아하는 입장에서는 bias-variance tradeoff만 봐도 그런 결과가 나오기 어려워 보임
  이건 몇 년째 계속 마음에 걸리던 부분이라, 여기에 대한 진전이 있다면 철학적인 차원에서라도 엄청 유용할 것 같음
  아직 서론만 읽었지만 글도 잘 썼고, 이런 연구 프로그램은 충분히 밀어주고 싶음
  bagging이나 boosting도 처음엔 이론 없이 경험적으로 먼저 성공했던 것과 비슷해 보임
- 신경망을 이해하려는 연구에 대해, 처음부터 black box라며 이해는 불가능하다고 단정하는 사람이 정말 많아서 늘 놀라움
  아마 신경망이 고전적으로 해석 가능한 linear regression의 반대편에 있는 것처럼 묘사된 영향이 큰 듯함
  엔지니어링이 너무 빨리 움직이다 보니 연구가 즉각적인 성과를 내지 않으면 기다려 주지 않는 분위기도 강함
  해석 가능성 연구자들조차 눈에 띄는 결과가 바로 안 나오면 너무 빨리 포기하는 경우가 많아 보임
- 왜 신경망이 다른 모델보다 잘 작동하는가라는 질문이 흥미로움
  비전공자도 볼 만한 참고자료가 있으면 알고 싶음
- 신경망이 정말 다른 모델보다 더 낫다고 단정할 수는 모르겠음
  이미지처럼 전통적 ML이 어려운 문제군을 훨씬 넓게 다룰 수 있는 건 맞지만, 동등 비교가 가능한 곳에서는 gradient boosting이 더 잘 나오는 경우도 많다고 알고 있음
내가 이해가 안 되는 지점은 이거임
신경망 아이디어는 수십 년 전부터 있었는데 별 관심을 못 받다가, 2017년 Attention Is All You Need 이후 딥러닝이 폭발적으로 커졌음
GPU가 딥러닝을 가속한다는 건 알겠지만, transformer라는 개념 자체는 훨씬 느린 하드웨어로도 더 일찍 시도할 수 있었던 것 아닌가 싶음
- 진짜 변곡점은 2012년의 AlexNet이었음
  AlexNet은 https://en.wikipedia.org/wiki/AlexNet처럼 ImageNet 분류 대회에서 이전과 차원이 다른 성능 향상을 보여줬고, 그 뒤로 주요 ML 이미지 연구실들이 전부 deep CNN으로 갈아탔음
  몇 년 사이에 다른 접근은 SOTA 이미지 대회에서 거의 사라졌고, 이후 딥 신경망은 다른 ML 영역까지 장악했음
  통설은 결국 두 가지 조합임
  첫째는 과거보다 압도적으로 커진 연산량이고, 둘째는 손으로 정제하고 라벨링한 ImageNet 같은 훨씬 큰 고품질 데이터셋임
  attention은 텍스트처럼 비교적 자유로운 순서 구조를 가진 시퀀스에서 복잡한 관계를 배우는 데 특히 유용했지만, 지금은 많은 사람이 아키텍처를 학습 자체의 본질이라기보다 데이터와 컴퓨트가 부족할 때의 tradeoff 선택지 정도로 봄
  결국 https://en.wikipedia.org/wiki/Bitter_lesson처럼 더 많은 컴퓨트와 더 많은 데이터가, 잘 확장되지 않는 더 똑똑한 모델을 결국 이기는 경우가 많음
  인간은 대략 10^11개의 뉴런, 개는 10^9, 쥐는 10^7 정도를 가지는데, 여기서 눈에 띄는 건 전부 엄청 큰 수라는 점임
  쥐 같은 제한된 지능조차 수억 개 뉴런이 필요하고, 지능은 어느 정도 이상의 계산 용량을 넘어야 비로소 나타나는 것처럼 보임
  아마 복잡한 학습 환경의 본질적 복잡성을 다루려면 많은 파라미터가 필요하기 때문일 것임
  반면 단순하거나 정형화된 문제에선 적은 파라미터로도 잘 작동하거나 심지어 최적임이 증명된 기법들이 많음
  우리가 말하는 학습과 지능은 대개 복잡한 환경을 전제하고, 그런 복잡성은 본질적으로 큰 수의 파라미터를 요구함
- 딥러닝의 더 이른 대형 승리는 사실 2012년 AlexNet의 이미지 인식이었음
  그게 대회를 압도했고 몇 년 안에 이미지 작업은 사실상 그 방식이 표준이 됐음
  아마 Jeremy Howard였던 걸로 기억하는데, 2017년 무렵 이미지에서 convnet이 해낸 것만큼 NLP에서도 잘 먹히는 transfer learning이 언제 나오느냐고 쓴 글이 있었음
  그해 attention 논문이 바로 세상을 지배한 건 아니었고, 당시엔 하드웨어도 부족했고 스케일이 모든 걸 해결한다는 합의도 없었음
  GPT-3가 뜨기까지 거의 5년이 더 걸렸고, 그제야 지금의 파도가 시작됐음
  그리고 이 괴물들을 학습시키는 데 들어가는 compute 규모를 너무 작게 보는 경우가 많은데, 1GHz 단일 프로세서 하나로는 이런 급 모델 하나 훈련하는 데 대략 1억 년이 걸림
  GPT-3급 모델도 2만 5천 개 수준의 GPU를 써서 몇 달이 걸리고, 10년 전 GPU의 빈약한 메모리로는 대형 transformer 학습이 사실상 불가능했음
  예전 k80은 12GB 수준이었지만 지금 H100/H200은 수백 GB급이고, 큰 transformer는 2020년대 초반 이전에는 실제로 못 만들었다고 봐야 함
  2010년대 후반 게이머들이 ML 때문에 GPU 가격이 폭등한다고 불평하던 것도 떠오름
- 다른 사람들이 말했듯 관심 폭발은 deep convolutional networks가 이미지 문제에 먹히면서 시작됐음
  흥미로운 건 그전까지만 해도 신경망은 별로 중요하지 않은 걸로 취급됐다는 점임
  내가 2000년 무렵 관련 수업을 들을 때도 대체로 그런 분위기였음
  다시 불이 붙으려면 결국 ImageNet처럼 엄청난 학습 데이터와 빠른 프로세서가 함께 필요했던 듯함
  그 뒤로는 특정 아키텍처에 대한 후속 발전이 계속 이어지며 눈덩이처럼 커졌음
  넓은 커뮤니티에선 AlexNet이 큰 분기점으로 보이지만, 학계 내부에선 그보다 2~3년 전부터 기류가 바뀌고 있었음
  워크숍에서 신경망 관련 발표가 더 이상 무시당하지 않는 걸 2008~09년쯤부터 보기 시작했음
- 비슷한 일은 행렬에서도 있었음
  행렬은 400년 전부터 있었지만, 선형대수학 특히 수치선형대수학이 폭발한 건 컴퓨터가 등장한 뒤였음
  예전엔 연립방정식을 minors 이론으로 푸는 게 정석이었지만, 컴퓨터가 생기자 Gaussian elimination이나 Krylov 공간 같은 이론이 크게 발전했음
- 느린 하드웨어로도 transformer 개념 자체는 더 일찍 쓸 수 있었을 것 같지만, 작은 스케일에서는 같은 결과가 나오지 않음
  사람들은 상상은 했어도 하드웨어가 없어 실제로 구현할 수 없었음
  단순화하면 LLM은 결국 transformer에다가 엄청난 양의 데이터를 붙인 것이고, 그 규모의 데이터를 실제로 학습 가능하게 만들려면 충분히 강한 하드웨어가 반드시 필요했음
한 학습 도구인 뇌로 다른 학습 도구를 이해하려 든다는 점이 흥미로움
SGD는 이미 충분히 잘 작동하고, 그걸 몇 배 더 좋게 만든다고 해서 블랙박스가 실제로 무엇을 하는지에 대한 근본 질문이 해결되진 않을 수 있음
학습을 어떻게 하느냐와 모델이 실제로 무엇을 하느냐는 다른 문제인데, 우리 뇌 역시 여러 면에서 블랙박스이기 때문임
그래서 학습 메커니즘 연구와 심리학, 그리고 사고와 언어의 본성에 대한 철학적 아이디어를 연결하는 고리가 더 필요해 보였음
이건 고무적이지만, 제목은 좀 과장됐다고 봄
딥러닝이 실제로 무엇을 하는지 이해하기 위한 공격 지점들 정도가 더 정확했겠지만 덜 눈길을 끌었을 것임
딥러닝 시스템이 언제 환각을 만들어내는지 측정하는 방법으로 이어질 수 있다면 엄청난 가치가 있음
그게 되기 전까지는, 딥러닝 시스템은 헛소리를 내놔도 피해가 작은 작업에만 제한적으로 쓸 수밖에 없음
- 이 분야를 크게 가로막는 건 LLM에 붙는 희망 섞인 암기법과 의인화라고 봄
  예를 들어 hallucination이라는 말 자체가 LLM 출력에 인간적 의미를 억지로 부여함
  실제 수학적 작동 원리로 보면 환각도 그냥 또 하나의 출력일 뿐이고, 그것과 다른 출력 사이에 명확한 경계가 정의돼 있지 않음
- 딥러닝 시스템이 환각을 만드는 시점을 측정하는 건 정말 풀 가치가 큰 문제임
  내 주된 연구 방향이기도 해서 편향은 있을 수 있음
  흔한 접근은 OOD detection이지만, 나는 이게 애초에 문제 설정이 불안정하다고 느껴왔음
  그래서 동료들과 함께 모델 misspecification 측정으로 더 근본적인 접근을 해보고 있는데, 계산 비용이 너무 커서 아직은 틈새 주제에 가까움
  어느 방향에서든 돌파구가 나오기까지는 시간이 더 걸릴 듯함
이걸 보니 vibecoding과 개념적으로 닮았다는 생각이 듦
일단 뭔가는 작동하게 만들고, 그다음에 왜 되는지 어떻게 되는지 이해하는 건 또 별개의 작업임
잠깐, 아직 이해도 못 하고 제대로 설명도 못 하는 걸 만들어 놓고 이제 와서 science라고 부른다고?
수십 년 전부터 생물학, 특히 신경생물학 용어를 빌려다 썼고, 결국 원숭이 흉내 내듯 copy paste한 면도 있어 보임
솔직히 말하면, 이런 보편 이론 시도 두 개가 더 흥미로웠음
https://arxiv.org/abs/2510.12269
https://www.mdpi.com/1099-4300/28/3/332
fuzzy logic과의 연결도 궁금함
신경망이 모호한 방식으로 추론하는 것처럼 보이는데, 그걸 형식적으로는 무엇이라 해야 하는지 잘 모르겠음
수년 동안 fuzzy reasoning을 형식화하려는 시도가 있었는데, 이제는 아무도 신경 쓰지 않는 듯함
내 느낌엔 신경망과 transformer는 ML의 OOP 같음
엄청 인기 있고 실무에선 꽤 잘 먹히지만 근본은 아직 불투명하고, 예전에도 표현 가능하던 걸 새로운 언어로 다시 표현하는 느낌인데 정확히 어디서 이득이 생기는지 집어내기 어려움
아직 논문을 다 읽진 않았지만, 글이 정말 몰입감 있게 잘 쓰였고 꽤 사려 깊다고 느꼈음
소화할 게 엄청 많지만, 이런 내용이 한데 묶여 있는 걸 보니 무척 흥미로움
딥러닝이 높은 수준에서 잘 작동하는 이유는 결국 더 많은 데이터에서 계속 학습하는 능력이 다른 접근보다 낫기 때문이라고 봄
하지만 지금 가능한 엄청난 양의 데이터가 없었다면 아키텍처는 그리 중요하지 않았을 것임
모델-데이터 방정식의 양쪽을 함께 설명하지 않으면, 예를 들어 reasoning 모델이 왜 추론하는가 같은 질문에 대해 단단한 과학 이론을 세우긴 어렵다고 느낌
모델은 아키텍처와 학습 데이터가 함께 만든 산물임
지금 이 문제는 인간이나 동물이 막대한 입력 데이터 속에서 어떻게 특정한 걸 배우는지 설명하는 것만큼이나 아직은 막막해 보임
경험적 이해는 더 좋아지겠지만, 근본은 다시 컴퓨터과학으로 환원되지 않을 수도 있음
진짜 복잡성의 핵심은 아키텍처보다 기가데이터셋 쪽에 있다고 봄
이론은 실패 모드 예측이 필요해지는 순간 결정적으로 중요해짐
대부분의 시간엔 그럭저럭 맞지만 edge case에서 조용히 망가지는 의사결정 지원 시스템은, 한계가 명확한 더 단순한 시스템보다 오히려 더 위험함
편향 메커니즘을 이해하면 모델이 언제 정말 확신하는지, 언제 그냥 pattern matching을 하는지 구분하는 데 도움이 됨
이 차이는 stakes가 큰 환경에서 특히 중요함