보편적 가중치 부분공간 가설
(arxiv.org)- 다양한 딥러닝 모델이 서로 다른 데이터와 초기값으로 학습되더라도, 공통된 저차원 파라미터 부분공간으로 수렴함이 대규모 실험으로 확인됨
- 1100개 이상의 모델(500 Mistral-7B LoRA, 500 Vision Transformer, 50 LLaMA-8B 등)을 스펙트럼 분석한 결과, 대부분의 분산이 소수의 주성분 방향에 집중됨
- 이러한 보편적 부분공간(Universal Subspace) 은 모델 구조에 따라 형성되며, 데이터나 초기화와 무관하게 반복적으로 나타남
- 이 구조는 모델 압축, 파라미터 효율적 학습, 모델 병합, 빠른 추론 등에서 큰 잠재력을 가짐
- 연구는 신경망의 내재적 구조와 일반화 능력을 새롭게 이해할 단서를 제공하며, 향후 효율적 학습 알고리듬 설계에 중요한 기반이 될 수 있음
보편적 부분공간의 발견
- 다양한 데이터셋과 초기화, 하이퍼파라미터로 학습된 딥러닝 네트워크들이 공통된 저차원 부분공간으로 수렴함이 관찰됨
- 이 현상은 아키텍처별, 층별로 유사한 저랭크 구조로 나타남
- 학습 데이터나 손실 함수가 달라도 동일한 구조적 경향을 보임
- 스펙트럼 분석 결과, 개별 과제의 가중치 공간이 서로 다른 듯 보이지만 실제로는 공유된 저차원 공간의 일부로 존재함
- 이러한 결과는 과적합 모델이 일반화하는 이유, 다른 초기화가 유사 표현으로 수렴하는 이유, 파라미터 효율적 미세조정이 성공하는 이유를 설명할 수 있는 근거로 제시됨
대규모 실험 및 분석
- 연구는 500개의 Mistral-7B LoRA 어댑터, 500개의 Vision Transformer, 50개의 LLaMA3-8B 모델을 포함한 1100개 이상 모델을 분석
- 각 모델은 서로 다른 데이터셋과 초기화 조건에서 학습됨
- 주성분 분석(PCA) 결과, 소수의 주성분이 대부분의 분산을 설명하며, 이는 공유된 저랭크 부분공간의 존재를 시사
- 특히 무작위 초기화된 500개의 ViT 모델조차 동일한 저차원 부분공간으로 수렴, 이는 신경망의 근본적 성질로 해석됨
이론적 모델링과 수학적 정식화
- 연구는 예측기를 힐베르트 공간(Hilbert space) 상의 요소로 모델링하여, 여러 과제 간의 공통 부분공간 복원 조건을 분석
- 각 과제의 예측기 ( f_t^* )로부터 공통 2차 모멘트 연산자 S를 정의하고, 학습된 예측기 ( \hat{f_t} )로부터의 근사 연산자 ( \tilde{S} )가 S로 수렴함을 증명
- Theorem 2.5는 학습된 부분공간이 실제 공통 부분공간으로 수렴함을 보이며, 수렴 속도는 과제 수(T) 와 각 과제의 추정 정확도(η) 에 의해 결정됨
- 고유값 간격(γₖ) 이 클수록 부분공간 복원이 안정적임
응용 가능성 및 영향
-
공유된 부분공간을 활용하면 다음과 같은 응용이 가능
- 전체 가중치 대신 부분공간 계수만 저장하여 모델 압축
- 학습된 부분공간 내에서 새 과제에 빠르게 적응
- 일반화 한계와 최적화 지형에 대한 이론적 통찰 제공
- 훈련 및 추론의 계산 비용 절감으로 탄소 배출 감소 가능
- 이러한 구조는 모델 재사용성, 멀티태스크 학습, 모델 병합 등에서도 효율성을 높일 수 있음
향후 연구 과제
- 아키텍처 간 보편적 부분공간의 차이와 그 기하학적 최적화 가능성은 미해결 과제로 남음
- 모든 네트워크가 동일한 부분공간으로 수렴할 경우, 편향과 실패 모드의 공유로 인한 다양성 부족이 새로운 병목이 될 수 있음
- 향후 연구는 이러한 수렴을 의도적으로 분산시키는 방법 개발이 필요함
주요 기여 요약
- 딥러닝 네트워크의 파라미터 공간에서 보편적 저차원 부분공간 존재를 실증
- 다양한 과제 세트로부터 근사 공유 부분공간 학습 방법 제시
- 학습된 부분공간을 이용해 새 과제에 적은 파라미터로 효율적 적응 가능함을 검증
- 모델 압축, 빠른 학습 및 추론, 효율적 스케일링에 활용 가능성 제시
Hacker News 의견들
-
“500 Vision Transformers”라는 표현이 혼란스러웠음
실제로는 같은 기본 모델을 미세조정(finetune) 한 500개의 버전을 의미함
이런 모델들은 Hugging Face의 익명 사용자 계정에서 다운로드된 것이며, “보편적(universal)”이라는 표현은 사실상 단일 사전학습 모델에만 해당됨
LoRA처럼 미세조정된 모델들이 서로 비슷한 건 놀라운 일이 아님
참고로 논문에서 인용한 모델 중 하나인 CheXpert-ViT-U-MultiClass는 Hugging Face에서 악성코드 경고가 표시됨- 이 설명 덕분에 논문이 말하는 “보편적 부분공간(subspace)”의 의미가 명확해졌음
처음엔 서로 다른 모델 구조 간의 공통 부분공간을 찾았다는 줄 알고 혼란스러웠는데, 결국 같은 모델 클래스 내에서의 안정성을 말하는 것임
다만 이건 결과적으로 “손실 함수가 잘 정의된 최소점을 가진다”는 당연한 사실을 확인한 수준이라, “보편적 가중치 부분공간 가설”이라는 이름은 다소 과장된 느낌임 - 미세조정 결과는 예상대로였지만, 처음부터 학습한 ResNet 실험(Figure 2, Section 3.2.1)은 좀 더 흥미로웠음
LoRA보다 당장 실용적이진 않지만, 후속 연구의 가능성은 있음 - 각 미세조정은 기본 모델의 가중치를 특정 방향으로 이동시킴
500개의 데이터셋으로 미세조정하면 500차원 공간을 형성할 것 같지만, 실제로는 약 40차원 부분공간에 수렴함
즉, 미세조정된 가중치를 40개의 실수로 압축할 수 있음
언젠가 Hugging Face에서 모델 크기가 “160바이트” 단위로 표시되는 날이 올지도 모름
다만 이 기저 벡터들은 여전히 모델 크기만큼 크고, 데이터셋이 늘어나도 차원이 증가하지 않는다는 가정이 필요함
저자들이 무작위 모델을 사용한 건 아쉽지만, 이 연구가 대형 모델을 처음부터 학습하는 후속 연구로 이어지길 바람 - 서로 다른 데이터로 학습했는데 왜 비슷하다고 보는지 의문임
게다가 논문에서는 처음부터 학습한 모델도 분석했다고 생각함 - Mistral과 LLaMA 모델을 다뤘지만, “보편적”이라는 표현에는 과장이 있음
- 이 설명 덕분에 논문이 말하는 “보편적 부분공간(subspace)”의 의미가 명확해졌음
-
논문에서 가장 중요한 부분은 다음 두 문장이라 생각함
첫째, 새로운 ViT 모델 5개의 가중치를 16차원 보편적 부분공간으로 투영해도 정확도 손실이 없었음
둘째, 500개의 ViT 모델을 하나의 보편적 부분공간 모델로 대체할 수 있었고, 메모리 사용량이 100배 줄었음
즉, 50개의 LLaMA3-8B, 177개의 GPT-2, 8개의 Flan-T5 모델에서 공통 구조를 찾아내고, 이를 원본 모델 대신 사용해도 성능이 유지됨
비유하자면, 모든 파일을 99% 압축할 수 있는 bzip2 사전(dictionary) 을 발견한 것과 같음- 관련된 이론적 배경으로는 arXiv:2007.00810 논문이 있음
모델들이 선형 변환까지 동일한 공간으로 수렴한다는 내용임
예를 들어, MSE 손실을 사용하는 시암쌍둥이 인코더는 디코더 없이도 동일한 잠재공간에 수렴함
따라서 비슷한 데이터로 학습한 Transformer들도 선형 변환 수준에서 같은 공간에 도달할 가능성이 높음
이런 점에서 이번 결과는 놀랍지 않으며, 오히려 이 논문처럼 수학적 증명이 더 중요하다고 봄 - “공통성(commonality)”을 실제로 어떻게 활용할 수 있는지 궁금함
예를 들어, 이 보편적 가중치 하위집합으로 새 모델을 초기화할 수 있는지, 그리고 이게 특정 아키텍처에만 적용되는지 알고 싶음 - 모델들이 공유된 스펙트럼 부분공간을 자연스럽게 점유한다면, 학습 비용과 저장 공간을 크게 줄일 수 있을 것임
- “16차원만 있으면 충분하다”는 말이 인상적임
- 하지만 16이라는 숫자가 너무 깔끔해서 의심스러움
혹시 코드 버그거나 임의로 정한 값일 수도 있음
- 관련된 이론적 배경으로는 arXiv:2007.00810 논문이 있음
-
논문이 “보편성”을 과대포장했다고 느낌
CNN의 경우, 필터가 Laplacian/Gabor 형태로 수렴하는 건 강한 귀납적 편향 때문임
Transformer는 이런 지역성 제약이 없기 때문에, 공유된 초기화(finetuning) 를 통해서만 부분공간을 찾을 수 있었음
결국 “보편성”은 학습의 본질적 속성이 아니라, 구조적 제약 + 사전학습 안정성의 결과임- 그래도 이런 연구 방향이 존재한다는 것 자체가 놀랍고 흥미로움
-
이 접근법은 LoRA보다 훨씬 뛰어나며, 추론 속도 향상에도 쓸 수 있을 것 같음
이미 대형 모델들이 내부적으로 사용 중일 수도 있음
핵심은 새로운 작업으로의 능력 전이에 관여하는 파라미터 하위집합을 찾았다는 점임
완전히 새로운 작업에는 적용되지 않지만, 같은 도메인 내에서는 효과적임
GPT 5.1의 비유처럼, 3D 캐릭터 리깅에서 “표정”을 조정하는 기저 표현(basis expression) 과 유사함- “완전히 새로운 작업은 존재하나?”라는 철학적 반문도 있음
물리 법칙 안에서 가능한 작업은 유한하며, 대부분은 무의미하다는 의견임 - 실제로는 새로운 작업에도 어느 정도 작동하는 듯함
- “완전히 새로운 작업은 존재하나?”라는 철학적 반문도 있음
-
논문이 설명하는 “보편적 부분공간” 개념이 명확하지 않았음
같은 모델 패밀리 내에서만 비교했기 때문에, ViT와 GPT2처럼 구조가 다른 모델 간에는 공통 부분공간이 존재하지 않음
주성분 분석 결과가 로그 형태로 감소하는 건 당연한 현상임
또한 행렬 곱셈에서 행/열을 바꿔도 결과를 되돌릴 수 있기 때문에, 완전히 독립적으로 학습된 모델들이 동일한 부분공간 방향을 공유할 수는 없음- 결국 이건 모델 압축 기법에 가깝고, 철학적 의미의 “보편성”은 아님
-
모델들이 자연스럽게 저차원 공간으로 수렴한다면, 학습을 그 공간 내에서 시작해 훈련 속도를 크게 높일 수 있음
- 시암쌍둥이 인코더처럼 동일한 손실 함수를 쓰면 선형 변환 수준에서 같은 잠재공간에 도달함
Transformer도 비슷한 원리로 작동할 가능성이 높음
이론적으로는 이 논문 같은 수학적 증명이 필요함 - JHU에서 이런 연구를 했다는 게 흥미로움
OpenAI나 Google보다 훨씬 적은 자원으로 이런 결과를 냈다는 점이 인상적임 - 하지만 이런 공통 공간이 존재한다면, 모델의 표현력 한계도 존재할 수 있음
- 혹은 아예 그 부분공간의 성질을 귀납적 편향(inductive bias) 으로 삼는 새로운 아키텍처를 설계할 수도 있음
- 시암쌍둥이 인코더처럼 동일한 손실 함수를 쓰면 선형 변환 수준에서 같은 잠재공간에 도달함
-
이런 구조를 유전 알고리즘(GA) 으로 발전시키면 어떨까 하는 생각이 듦
사실 신경망 얘기만 나오면 항상 GA를 떠올리게 됨- 어릴 때 읽은 Levy의 『Artificial Life』 덕분에 GA에 애착이 있음
교차(crossover)와 돌연변이(mutation)는 직관적으로 이해되지만, 역전파(backpropagation)는 여전히 어렵게 느껴짐 - 최근 간접 인코딩 방식 GA 를 실험 중인데, 이번 논문이 그 방향성을 뒷받침하는 듯함
가중치 행렬을 스펙트럼 패턴으로 분해해 압축 공간에서 탐색하는 방식임
기존의 대형 모델을 압축 형태로 인코딩해 돌연변이의 출발점으로 삼는 것도 가능할 듯함
이런 접근이 발전하면, 새로운 메커니즘을 진화적으로 발견할 수도 있음 - 이런 목표가 생긴 지금, GA나 다른 비학습 기반 방법들을 다시 활용할 좋은 시점이라 생각함
- 예전에 EvoLisa 프로젝트에 푹 빠졌었음
EvoLisa 링크
LLM 학습과는 전혀 다르지만, 어떤 면에서는 비슷한 느낌을 받음 - 나는 GA 대신 벡터 양자화(vector quantization) 에 더 끌림
- 어릴 때 읽은 Levy의 『Artificial Life』 덕분에 GA에 애착이 있음
-
“Platonic Representation Hypothesis”와의 관계가 궁금함
- 나보다 똑똑한 사람이 답해줬으면 함
요즘 플라톤적 담론이 다시 유행하는 걸 보면 뭔가 근본적인 통찰로 수렴 중인 듯함 - 두 가설은 밀접하게 연관되어 있음
공유된 표현 구조는 플라톤적 범주의 좋은 후보가 될 수 있음
두 개념 사이에 흥미로운 매핑이 존재할 것 같음 -
arXiv:2405.07987 논문이 그 연장선에 있음
이전 가설을 경험적으로 뒷받침하는 증거를 제시한 셈임
- 나보다 똑똑한 사람이 답해줬으면 함
-
“모든 모델이 사실상 LLaMA의 미세조정 버전일지도 모른다”는 농담 섞인 추측도 있음
-
저자들은 다양한 저랭크 미세조정(low-rank fine-tune) 모델을 분석해, 공통된 저랭크 구조를 발견했다고 주장함
이는 기본 모델에 의존적이며, 인간의 유전적 변이가 소수의 주성분으로 표현되는 것과 유사함
결국 공유된 기저(ancestry) 가 있기 때문에 이런 현상이 나타나는 것일지도 모름