딥러닝은 응용 위상수학임

(theahura.substack.com)

7P by GN⁺ 6달전 | ★ favorite | 댓글 1개

딥러닝은 데이터를 의미 있는 방식으로 변형하는 위상수학적 변환의 연속으로 이해할 수 있음
신경망은 고차원 공간에서 데이터를 변형해, 원래는 분리할 수 없던 데이터를 구분 가능하게 만드는 토폴로지 생성기로 작동함
데이터는 고차원 다양체(manifold) 위에 존재하며, 의미 있는 분류·번역·추론 태스크를 위해 신경망이 해당 다양체 구조를 학습함
최신 인공지능 연구에서는 추론(manifold) 상에서 더 나은 지점으로 이동하기 위한 다양한 지도학습·강화학습(RLHF 등) 기법이 도입됨
신경망 자체, 이미지, 텍스트, 추론 논리 등 모든 정보는 다양체로 표현 가능하며, 신경망은 보편적 토폴로지 발견기로 작동함

딥러닝과 위상수학의 관계

위상수학은 사물의 변형 과정에서 변하지 않는 성질을 연구하는 수학 분야임
딥러닝 신경망은 입력 데이터를 여러 차원에서 선형 및 비선형 변환(e.g. 행렬 곱, tanh)을 반복적으로 적용하여 점진적으로 데이터의 분포와 구조를 바꿈
신경망 계층의 각각의 연산은 기하학적 변환으로 해석될 수 있고, 이 변환들이 누적될수록 복잡한 데이터 구조를 분리 및 분류할 수 있게 함
이러한 특성은 다양한 데이터셋에서, 원래는 단일 선·면으로 구분할 수 없는 복잡한 클래스를 분별 가능하게 만듦

차원 확장과 데이터 분리

이차원 평면에서 서로 겹쳐 구분이 안 되던 데이터도, 상위 차원(고차원) 으로 옮기면 손쉽게 분리 가능해짐
신경망은 인간과 달리 임의로 높은 차원에서 연산이 가능해, 매우 복잡한 데이터 패턴에도 대응함
예시로, 사진 속 개와 고양이 같은 분류 문제도 고차원에서 수학적으로 구분할 수 있는 구조(다양체)로 재구성함

심층 신경망의 의미와 역할

신경망은 "토폴로지를 생성하는 도구"로, 입력 데이터를 의미 있는 구조로 재배치함
손실 함수(loss function)는 데이터의 어떤 성질을 학습할지 정의하며, 분류, 번역, 예측 등 다양한 작업에 맞는 표면(topology)을 만들게 됨
모든 의미 있는 데이터(텍스트, 이미지, 사운드 등)는 고차원 수치 벡터(embedding vector) 로 저장되어, 이 공간 안에서 유연한 수학적 연산 가능

다양체(manifold)와 의미의 표현

색상, 이미지, 단어, 심지어 가구 분류 등, 모든 정보·개념은 특정 고차원 다양체라는 공간 위에 존재함
예를 들어, RGB 이미지의 모든 픽셀 값은 거대한 벡터로 표현되어, 이미지 다양체 상에서 의미 있는 변환과 유사도를 분석할 수 있음
임베딩 연산을 통해, 의미적으로 관련된 개념(예: "king" - "man" + "woman" = "queen")끼리 가까운 위치로 배치할 수 있음

신경망, 추론, 학습 전략의 다양체적 접근

인간 추론 자체도 고차원 다양체 상의 클러스터로 모델링 가능하며, 신경망은 이를 따라 점진적으로 더 우수한 추론으로 이동함
현재 대형 언어 모델(LLM)들의 한계점은 순수 언어 통계(next-token prediction)만으로는 인간 수준의 추론에 도달할 수 없다는 것임
이를 극복하기 위해 지도학습, RLHF, Chain-of-Thought, 고품질 reasoning trace 수집 등 여러 강화학습 기반 접근법이 활용되고 있음
최근 강인한 추론 모델을 위해 Deepseek R1과 같은 논문에서는 객관적 기준(예: 단위 테스트, 수학문제 정답 여부)으로 '좋은 추론'을 자동 선별하여, 기존 인간 평가의 한계와 비용 문제를 극복하려 시도함

신경망과 모델 자체의 다양체 구조 활용

신경망의 모든 파라미터(가중치)도 하나의 거대한 벡터로 표현되며, 이를 다양한 의미 공간(semantic space) 상의 다양체로 해석 가능
이미지 생성을 위한 diffusion 모델 개념을 신경망 파라미터 공간에도 확장하여, 기존 pretrained 모델들의 다양한 특성을 효율적으로 재활용하거나, 빠른 초기화 및 신규 모델 생성을 도모할 수 있음
모델의 임베딩 공간을 탐색하는 기법 발전은, 향후 더욱 빠르고 효과적인 AI 개발을 가능하게 할 수 있음

결론 및 시사점

딥러닝 분야는 여전히 비공식적이고 직관에 의존하는 경향이 있으나, 위상수학적 사고는 복잡한 모델 작동원리 파악에 큰 도움을 줌
임베딩 공간과 다양체 구조에 대한 인식이 넓어질수록, 더 실질적이고 체계적인 AI 개발 및 분석이 가능해질 전망임

▲

GN⁺ 6달전 [-]

Hacker News 의견

2014년 내 블로그 글을 바탕으로 작성된 이 글에 대해, 나는 신경망을 이해하는 수단으로 위상수학을 굉장히 열심히 사용해보려 노력했음. 그 결과를 아래 두 후속 글에서 공유한 적 있음
- https://colah.github.io/posts/2014-10-Visualizing-MNIST/
- https://colah.github.io/posts/2015-01-Visualizing-Representations/
  신경망 내부를 이해하려는 과정에서 위상적 관점이 유용했던 부분이 있는 반면, 10년 가까이 탐구한 결과로 볼 때 위상적 접근이 아주 큰 도움을 주진 못했다고 느꼈음
  더 효과적으로 익힌 것은 다음과 같음
- ‘선형적 표현 가설’ — 신경망에서 개념(특징)은 특정 방향과 대응한다는 생각
- ‘회로’라는 개념 — 이런 특징들이 연결되어 구성하는 네트워크 구조
  관련 글로는 아래 글들을 추천함
- 신경망을 이해하는 방식과 관련해, 나는 종종 다음과 같은 오해에 대해 생각함
  - LLM이 단순히 기존 n-gram 모델보다 약간 더 나은 것에 불과하다는 주장
  - "그저 다음 토큰을 예측하는 것뿐"이라는 주장에서, 그 자체가 모델이 단순하다는 인상을 주는 현상
    Karpathy의 RNN 포스트에 대한 인기 있는 반응이나 ‘stochastic parrot’ 논문에서 LLM과 n-gram 모델을 동일시하는 뉘앙스를 종종 볼 수 있음. 과거에는 두 접근이 좀 더 비슷하게 여겨졌으나, 최근 모델이 굉장히 발전한 후에는 그 등식이 잘 맞지 않음
- 실제 상황에서 위상수학을 적용하려 했던 내 경험을 회상함. 2011년 위상수학을 처음 배운 뒤로 지금까지 간헐적으로 시도해봤으나, "실제 데이터가 매끄럽고 저차원인 매니폴드에 가까워진다"는 흔한 주장에 대해 회의적임. 실제 데이터에 정말 이 특성이 성립하는지, 혹은 우리가 효율성을 위해 차원축소 방법을 써서 의도적으로 왜곡한 결과인지 좀 더 깊이 탐구해보고 싶지만, 시간적 여유가 없는 것이 아쉬움
- 너가 오랫동안 '회로(circuits)' 관련 글을 이어온 것을 재미있게 봐 왔음. 선형 표현 가설은 특히 설득력 있게 여겨져서 Toy Models of Superposition에 대한 리뷰 초고도 써둠. 다만 ‘회로’ 분석은 Transformer 구조에 너무 치중되어 있다고 느껴서 덜 매력을 느낌.
  GAN, VAE, CLIP 등 모델은 명시적으로 매니폴드를 모델링하고 있는 것처럼 보임. 단순 모델도 최적화 과정에서 비슷한 특징을 같은 방향으로 모아버릴 수 있지만, 때로는 유사한 특징들이 직교 방향에 위치하게 되는 실증적 현상이 존재함. 이는 아마도 최적화되는 손실 함수에 더 관련이 있어 보임
  Toy Models of Superposition에서는 MSE를 쓰고 있어서, 마치 오토인코더 회귀·압축 업무처럼 행동함. 공출현하는 특징들의 상호간섭 패턴이 중요하기 쉬움. 하지만 대조적 손실 함수가 목표라면, 이런 간섭 최소화 행태가 달라질 것이라고 생각함
- 과거 내 글에 대한 Hacker News 토론들이 있었음을 공유하고 싶음
  Neural Networks, Manifolds, and Topology (2014)
  - 2019년 2월 https://news.ycombinator.com/item?id=19132702 (25개 댓글)
  - 2015년 7월 https://news.ycombinator.com/item?id=9814114 (7개 댓글)
  - 2014년 4월 https://news.ycombinator.com/item?id=7557964 (29개 댓글)
- 물리학에서는 서로 다른 전역적 대칭성과(위상적 매니폴드) 같은 계량 구조(국소 기하)가 성립할 수 있다는 점이 흥미로움. 예를 들어 아인슈타인의 장방정식에서 같은 계량 텐서 해가 위상적으로 서로 다른 매니폴드에도 존재할 수 있음.
  반대로 Ising Model 해를 보면, 같은 격자 위상 구조라도 여러 해가 존재하며, 임계점 근처에서는 격자 위상 구조가 사실상 중요하지 않을 수도 있음.
  이는 단순한 비유이지만, 역동성의 중요한 세부사항이 시스템의 위상에 깃들어 있는 게 아님을 시사함. 훨씬 더 복잡한 이야기임
만약 진짜 위상수학이 핵심이었다면, 우리는 매니폴드를 평탄하게 변형해서 유사성 탐색을 쉽게 하려고 하지 않았을 것임. 사실상 핵심은 ‘기하(geometry)’와 그에 맞는 측도임. 실제 삶에서도 우리는 사물을 비교할 수 있는 구조를 원함
신경망 훈련 중에도 매니폴드는 위상적으로 변형됨. 이런 과정에서 "과연 훈련 중 위상이 어떻게 변하는가?"라는 질문이 떠오름. 개인적으로는 처음에는 위상이 격렬하게 요동치다가 점점 안정화되고, 이후에 기하적 세부 조정이 진행된다고 상상하게 됨. 참고할 만한 논문은 다음과 같음
- Topology and geometry of data manifold in deep learning https://arxiv.org/abs/2204.08624
- Topology of Deep Neural Networks https://jmlr.org/papers/v21/20-345.html
- Persistent Topological Features in Large Language Models https://arxiv.org/abs/2410.11042
- Deep learning as Ricci flow https://www.nature.com/articles/s41598-024-74045-9
- GAN이나 VAE를 활용해 본 적 있다면 이 위상 변화 과정을 실제로 관찰할 수 있음. 훈련 도중 다양한 체크포인트에서 UMAP, TSNE 같은 도구로 고차원 공간의 포인트들이 어떻게 이동하는지 볼 수 있음
  네가 상상한 "초기에는 격렬한 변화 이후 안정화, 그리고 기하적 미세 조정"이라는 과정이 실제로 맞음. 이때 초반의 격렬한 변화는 학습률, 옵티마이저 선택 등의 영향도 큼
- 굳이 따지자면 여기에서 다루는 건 응용선형대수라고 할 수 있겠지만, 그렇게 말하면 좀 멋이 없어지는 느낌임
지금 제목은 진부하고 부정확함. 내용은 재미있게 읽었음
위상수학은 거리, 각도, 방향 등 기하의 다양한 제약을 지워버렸을 때 남는 최소한의 구조를 다루는 수학임. 이처럼 격렬한 변형에도 본질적으로 남는 연관성만 바라보는 게 위상수학적 관점임
기계학습에서 위상 개념이 유용할 수는 있지만 실제로는 스케일, 거리, 각도 같은 기하적 정보가 데이터의 본질에 훨씬 더 중요하게 작용함. 예를 들어, 탭이 고양이와 호랑이를 구분하는데 스케일을 무시하면 어리석은 결과가 나옴
신뢰할 수 없는 정보들이 많을 때 비로소 위상적 접근이 유용해지는데, 딥러닝이 위상수학에 기반한다고 보는 건 지나침
- 네가 말한 것처럼 거리, 각도, 길이 등을 신뢰할 수 없어야 위상수학이 유용하다는 의견인데, 실제로 우리는 신뢰할 수 없는 데이터를 다룸. 이미지 픽셀 공간에서 콜라캔과 정지표지판이 적당히 가까워도 의미 없는 일임. 신경망은 네가 말한 ‘격렬한 변형’들을 실제로 진행함
- 실제 구현 단계에 들어가면, '만약 진짜 위상이라면 신경 안 써도 됐을' 세세한 부분, 예를 들면 레이어 수나 양자화, 부동소수점 해상도 등이 중요한 역할을 함
- ‘위상’이라는 용어에는 사전적으로 두 가지 정의가 존재함. 네가 전제로 제시한 속성들만을 위상 개념으로 보는 것은 일부 정의에 국한된 견해임
이 글에서 분리면을 찾는 아이디어를 '위상수학'이라고 부르는 이유를 잘 모르겠음.
예를 들어 "번역을 학습한다면 model이 bread와 pan, 고양이 사진과 cat 단어를 가깝게 위치시키는 topology를 학습한다"는 설명이 있는데, 이처럼 '가깝거나 멀다'라는 이야기야말로 위상과는 거리가 멈
위상 공간에서 두 점이 가깝다고 해서, 그 공간을 늘려버리면 ‘같은 위상 공간’ 안에서 두 점을 충분히 멀리 띄울 수 있음(‘커피잔과 도넛이 같은 위상’이라는 우스갯소리의 요지임)
실제로는 대수기하(algebraic geometry)적 접근 — 점들이 어떤 대수적 다양체(algebraic variety) 근처에 위치하는 구조 — 을 적용하는 게 더 적합해 보임. 결국 중요한 것은 기하학과 거리임
- 만약 위상에 대해 느슨하게 정의를 내려야 한다면, '거리'가 없어도 '가깝고 멂'의 개념(근방, neighborhood)을 다루는 수학적 공간의 연구가 위상수학이라고 보겠음. 개방집합에 대한 다양한 정의가 곧 위상(topology)을 고르는 일이 되고, 그 결과 연속성, 콤팩트성, 연결성과 같은 성질이 정해짐.
  거리공간은 위상공간의 한 사례임.
  물론 그렇다고 위상이 신경망 이해에 항상 최선의 관점이라고 볼 수는 없음. 원 저자도 현재는 입장을 달리하고 있음
  오해만 풀고 싶었음. https://en.wikipedia.org/wiki/General_topology 참고
- topology와 아무 상관 없는 이야기라는 점에 100% 동의함. 한 글이 topology와 딥러닝에 관한 거라면, 혼란은 topology 쪽으로만 한정되길 바람
- 방금 쓴 'topology'라는 단어를 조금 관용적으로 사용한 것임. 정확히는 '분리면(surface)'라고 했어야 함
나는 학습을 매니폴드 관점에서 바라보는 게 힘 있는 표현이라고 생각함
고차원 공간에서는 reasoning(추론) 자체와 사실상 구분이 안 된다는 느낌을 많이 받음
이런 ‘probabilistic reasoning manifolds’에 대해 일기나 뉴스 댓글로 많이 써 봤음.
패턴 공간으로 이루어진 매니폴드는 본질적으로 확률적인 학습을 통해 형성되며, 실제 추론은 명제가 아니라 확률적으로 이뤄진다는 생각임. 고정점이나 어트랙터(끌림점)를 찾음으로써 일부 '공리'를 찾아낼 수는 있지만, 결국 입력 데이터로부터 형성된 확률적 매니폴드를 분석하게 됨
추론과 데이터는 얽혀 있어 완전한 분리가 불가능함
비문맥적 관계를 학습(분해)하는 것 — 바로 이게 'decontextualization'임. 그렇지만 이와 더불어 새로운 상황이나 도메인에서 의미 있게 분석이 이루어지려면 반드시 'recontextualization'이 뒤따라야 함.
더 긴 설명은 https://news.ycombinator.com/item?id=42871894 참조
- ‘추론 씽킹’이란 개념 일반, 즉 (명제의 표현에 대한) 정신적 조작일 때 "진정한 추론은 확률이 아니라 공리로 표현된다"는 말은 이해하기 어렵다고 생각함
  동물들이 명제적 진술을 전혀 비확률적으로 다루지 못한다면, 그건 논리적 추론이 아예 불가능한 상태라서 실재 동물의 추론 가능성을 설명할 수 없음
  예) "거미가 A상자에 들어있으면, 다른 상자에는 없음"과 비슷한 단순 논리 구조의 추론
실제 데이터는 진짜로 매니폴드에 존재하는 게 아님. 그냥 데이터에 대해 생각을 쉽게 하려고 쓰는 근사 개념임
딥러닝의 거의 대부분 유익한 업적은 topology와는 무관하게 만들어짐. 딥러닝은 실험과 시행착오, 그리고 극히 일부의 수학적 영감(그것도 topology가 아님)에서 빠르게 발전한 경험적 분야임
- 나는 이 주장에 전적으로 반대함. 물론 시행착오가 많은 건 맞지만, topology, geometry, game theory, calculus, statistics 등 수많은 수학 이론의 복합적 작용임. 역전파(backpropagation)만 해도 체인 룰임
  많은 실무자가 이 주제의 이론적 뿌리를 몰라도 쉽게 활용할 수 있을 만큼 field가 대중화되고 수익성까지 갖추었음
  결국 이론·기법을 창안하면서도, 사실은 기존 다른 분야 이론을 비의식적으로 '재발견'해 활용하는 경우가 많음
- "이런 영감은 다 원래 topology가 아니었다"는 주장에 대해, 내 생각에 이런 ‘수학적 직감’은 대부분 사후적으로 적용되는 것임. 깊은 러닝에서 뭔가 돌파구를 찾은 뒤 물리나 수학 연구자들이 자기 분야 방법과의 유사성을 뒤늦게 인식함
  예로 GPT가 내가 과거 물리문제 풀던 알고리즘과 거의 같다는 글이 있음
  https://ondrejcertik.com/blog/2023/…
- 내가 딥러닝 분야에 10년 넘게 있었지만, "데이터가 매니폴드에 존재하지 않는다"는 주장은 틀렸음. 임베딩 공간을 'space'라고 부르는 데는 다 이유가 있음. GAN, VAE, contrastive loss 등은 실제로 걷거나 조작할 수 있는 벡터 매니폴드 구조를 구축함
- 근사 오차까지 허용한 정의라면 실제 데이터가 매니폴드 상에 놓인다고 할 수 있음. 참고 논문: Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning(https://aclanthology.org/2021.acl-long.568.pdf)
- 딥러닝은 현 단계에서 마치 연금술(alchemy)과 같다고 생각함
  이론적 밑바탕이 존재하는 화학(chemistry)이 나오기 전 시절의 연금술처럼 말임. 언젠가 후대의 인류가 ‘deep learning’이라는 단어 자체만 남겨 놓고 과거 언어의 흔적으로 취급할지도 모른다는 생각
"이 정도면 AGI에 도달했다"라는 문구를 보고 신뢰도가 확 떨어졌음
대체로 글의 아이디어 자체는 흥미로웠지만, reasoning과 엮는 부분이나 심화된 기술적 논의가 없는 fluffy함이 아쉬웠음. 이미 이보다 훨씬 구체화된 연구(i.g. https://arxiv.org/abs/1402.1869)가 존재함
DNN에서 많이 논의되는 또 다른 종류의 topology는 바로 네트워크 topology임. 즉, 노드가 어떻게 연결되고 데이터가 어떻게 흐르는지에 대한 구조임
오토인코더, CNN, GAN 등 모두 생물학적 영감을 받았음
아직 우리는 뇌의 topology와 그 기능적 연결성에 대해 배울 점이 많음
앞으로 개별 레이어/노드 내부나, 전문화된 네트워크들 간의 연결·상호작용 구조 측면에서 완전히 새로운 아키텍처가 나올 가능성이 큼
인간 뇌도 사실 하나의 네트워크가 아니라 "Big 7" 같은 여러 네트워크가 병렬적·상호 연동적으로 작동함. DMN(Default Mode Network), CEN(Central Executive Network), Limbic Network 등 다양한 네트워크가 존재하고, 한 뉴런이 동시에 여러 네트워크에 소속되는 경우도 많음
인공지능에서도 아직 이런 복잡성을 완전히 재현하지 못했기에, network topologies에서 영감을 받을 점이 무궁무진함
"Topology is all you need"라는 말에 공감함
수학적 위상(topology)은 기하적 객체와 변환을 다루지만, 컴퓨터에서는 추상 객체 간의 관계를 정의하는 ‘위상’ 개념도 중요함
예를 들어 그래프 자료구조에서는 객체(정점) 집합과 이들 간의 관계(간선) 집합을 저장하고, 이를 통해 그래프 자체가 하나의 이산적인 topology 구조가 됨
네트워크 자료구조 역시 비슷하지만, 각 간선에 값이 추가로 저장됨. 즉, 정점(객체) 집합과 이들 간의 관계(간선), 그리고 간선별로 값(가중치)을 갖출 수 있음. 결국 인공신경망도 이런 방향으로 이해할 수 있고, 이산 topology 위에 구축된 구조임
저자의 다이어그램에서 AGI/ASI가 next token prediction, chat, CoT 모델과 같은 매니폴드 상의 한 점으로 그려지는 부분이 혼란스러움. 후자의 세 유형은 확실히 연결된 동일 계에 속한다고 볼 수 있지만, AGI/ASI까지 포함한다고 할 충분한 근거가 있는지 의문임
혹시 CoT 기반 모델이 아무리 topological manipulation을 해도 AGI가 지닌 ‘지능’에 결코 도달할 수 없는 구조라면 어떻게 되는지 궁금함
예를 들어, 인간 지능은 고도의 센서적/내부 피드백·연속적 처리 기능이 필수인데, GPT류 오토리그레시브 모델은 본질적으로 불연속적임
비전문가 입장에서는 LLM이 ‘인텔리전스’나 '의식'을 낳는 계열의 시스템과는 전혀 다른 족속에 가깝다는 직관이 있음
- 그럴 수도 있다고 봄. AGI/ASI 정의 자체가 불확실함
  사실 나는 우리가 이미 AGI에 도달했다고 생각하지만 많은 사람이 동의하지 않음
  인간 지능의 본질은 고도의 감각/피드백 루프나 연속적 프로세싱에 있다는 언급이 있었는데, 제법 많은 connectomics 연구 경험상 생물·신경망의 유사성 역시 무시할 수 없음
  예를 들어, 마우스의 후각 체계에서는 어떤 뉴런 세트가 활성화될 때 특정 향('초콜릿', '레몬' 등)이 감지됨. 특성 벡터(feature vector)와 상당히 흡사한 구조임
  뇌의 뉴런 표상도 임베딩 표현과 비슷한 점이 있음. 마치 어떤 뉴런이 켜졌느냐에 따라 embedding space가 만들어지는 셈임.
  임베딩 위에서 이루어지는 것은 "그 이상"이 아니라 전부 추가적인 처리임

답변달기