Kolmogorov-Arnold 네트워크 개발

(github.com/KindXiaoming)

2P by GN⁺ 2024-05-02 | ★ favorite | 댓글 1개

Kolmogorov-Arnold Networks (KANs) 소개

KAN의 정의와 특징

Kolmogorov-Arnold Networks (KANs)는 Multi-Layer Perceptrons (MLPs)의 유망한 대안임
KANs는 MLPs와 마찬가지로 강력한 수학적 기반을 가지고 있음
- MLPs는 universal approximation theorem에 기반함
- KANs는 Kolmogorov-Arnold representation theorem에 기반함
KANs와 MLPs는 서로 쌍대(dual)임
- KANs는 엣지(edge)에 활성화 함수(activation function)를 가짐
- MLPs는 노드(node)에 활성화 함수를 가짐
이러한 단순한 변화로 인해 KANs는 모델의 **정확도(accuracy)**와 해석력(interpretability) 측면에서 MLPs보다 더 나은 (때로는 훨씬 더 나은) 성능을 보임

KAN의 정확도

KANs는 MLPs보다 더 빠른 스케일링(scaling)을 보임
KANs는 더 적은 매개변수로도 MLPs보다 더 나은 정확도를 보임
예제
- 기호식(symbolic formula) 피팅
- 특수 함수(special function) 피팅
- 편미분 방정식(PDE) 해결
- catastrophic forgetting 회피

KAN의 해석력

KANs는 직관적으로 시각화될 수 있음
KANs는 MLPs가 제공할 수 없는 해석력과 상호작용성을 제공함
KANs를 사용하면 잠재적으로 새로운 과학 법칙을 발견할 수 있음
예제
- 기호식 해석
- 노트(knot)의 수학적 법칙 발견
- Anderson localization의 물리 법칙 발견
- 3계층 KAN 학습 과정 해석

설치 방법

pypi 또는 github를 통해 pykan을 설치할 수 있음
github를 통한 설치 방법 제공
pypi를 통한 설치 방법 제공
요구사항 명시 및 요구사항 설치 방법 제공

계산 요구 사항

튜토리얼의 예제는 일반적으로 10분 미만의 단일 CPU에서 실행 가능함
논문의 모든 예제는 하루 미만의 단일 CPU에서 실행 가능함
PDE를 위한 KANs 학습은 가장 계산 비용이 크며 단일 CPU에서 수 시간에서 수 일이 걸릴 수 있음
매개변수 스윕(sweep)을 수행하여 파레토 프런티어(Pareto Frontier)를 얻기 위해 CPU를 사용하여 모델을 학습시킴
작업 규모가 큰 경우 GPU 사용이 권장됨

문서

문서는 링크된 URL에서 찾을 수 있음

튜토리얼

퀵스타트: hellokan.ipynb 노트북으로 시작
더 많은 데모: tutorials에서 더 많은 노트북 튜토리얼을 찾을 수 있음

인용

논문 인용 방법 제공

연락처

질문이 있는 경우 zmliu@mit.edu로 연락 가능

GN⁺의 의견

KAN은 MLPs의 대안으로서 수학적 기반이 있고, 정확도와 해석력 측면에서 이점을 가지는 흥미로운 신경망 구조임. 다만 아직 초기 연구 단계로 보이며, 대규모 데이터셋이나 복잡한 태스크에서의 성능 검증이 더 필요해 보임.
MLPs에서는 노드에 활성화 함수를 두는 반면, KANs에서는 엣지에 활성화 함수를 두는 것이 핵심적인 차이점임. 이로 인해 네트워크 구조와 학습 방식에서 어떤 변화가 생기는지 자세히 분석해 볼 필요가 있음.
KANs의 해석력은 인공지능의 블랙박스 문제를 해결하는데 도움이 될 수 있음. 새로운 과학 법칙 발견에 활용 가능성도 흥미로운 부분임. 다만 해석 가능한 인공지능 분야에서 이미 다양한 연구가 진행 중이므로, 차별화된 접근 방식의 강점을 부각할 필요가 있어 보임.
논문에서 제시된 예제는 주로 수학/과학 분야에 국한되어 있음. KANs가 이미지, 자연어 등 다양한 도메인에서도 MLPs를 대체할 수 있을지는 추가 연구가 필요해 보임.
KANs와 유사한 접근 방식으로 Capsule Networks, Graph Neural Networks 등이 있음. 이들과의 비교 연구를 통해 KANs만의 강점을 확인해 볼 필요가 있음.

▲

GN⁺ 2024-05-02 [-]

Hacker News 의견

한 사용자가 PyTorch를 이용해 논문의 아이디어를 간단히 구현한 것을 소개함. 핵심은 단 몇 줄의 코드로 구성되며, 1차원 함수를 보간하기 위해 스플라인 대신 푸리에 계수를 사용함. 이는 Kolmogorov-Arnold 네트워크의 표현력을 보여주며, 논문의 스플라인 버전보다 수렴이 쉬울 수 있으나 연산량은 더 많음.
다른 사용자가 제공된 주피터 노트북을 실험해 본 결과를 공유함. 분류 문제에서 네트워크 구조를 (2, 2)에서 (2, 2, 2)로 변경하자 일반화에 실패했으며, 훈련 데이터 크기를 100배로 늘리면 과적합은 개선되나 훈련 손실이 1e-2 아래로 내려가지 않음. 더 큰 규모의 예제와 데이터로 실험해 보고 싶어함.
최근 트랜스포머의 점진적 개선에 지친 분위기 속에서, 이 연구가 기존 DNN의 표현력을 높일 수 있는 신선한 아이디어를 제시했다는 점을 높이 평가함. 실제 성능 향상 여부는 앞으로 검증이 필요함.
알고리즘 자체의 확장성(더 많은 레이어로도 잘 학습되는지)과 하드웨어 가속 활용 가능성(가중치별 활성화 함수 구조가 빠른 행렬 곱 가속을 활용할 수 있을지) 측면에서 대규모 적용 시 어떤 결과를 보일지 아직 불분명함. 작은 규모에서는 흥미로운 특성을 보이나 ImageNet이나 LLM 같은 태스크에 적합한 구조인지는 추가 연구가 필요함.
Kolmogorov-Arnold 표현 정리와 MLP가 거의 동시기인 1957년과 1958년에 발견/발명되었다는 점이 흥미로움. 이 접근법은 MLP의 가중치, 편향, 전역 활성화 함수 대비 오직 하나의 파라미터 종류(국소 활성화 함수의 계수)만 가진다는 장점도 있음. Transformer 일색인 요즘, 이 접근법을 Diffusion Model에 적용해 보고 싶어 하는 의견도 있음.
Kolmogorov 신경망이 불연속 함수도 표현할 수 있다는 점은 흥미롭지만, 실제 적용 가능성에 대해서는 의문이 있었음. 이 레포지토리는 어느 정도 활용 가능성이 있음을 보여줌.
성급한 의견일 수 있으나, B-spline의 선형 조합이 더 높은 차수의 B-spline이 되므로, 이는 단순히 고차 B-spline을 함수에 피팅하는 것이 아닌가 하는 견해도 있음.
Preprint에서 입력 차원이 100인 것을 "고차원"으로 간주하고, 대부분의 문제가 5차원 이하인 것은 ML에서 고려되는 물리 영감 환경의 전형적인 모습임. 현대적 기준으로는 매우 작은 784차원에 불과한 MNIST에서의 성능 검증이 다음 단계가 될 것임.
스플라인을 의사결정 트리에 쑤셔 넣은 것 같다는 느낌을 주기도 함.
유한 요소법과 개념적으로 매우 유사해 보이며, 이렇게 분야 간 유사 패턴을 발견하는 것이 반가움.

답변달기