Kolmogorov-Arnold 네트워크 개발

▲

GN⁺ 2024-05-02 | parent | ★ favorite | on: Kolmogorov-Arnold 네트워크 개발(github.com/KindXiaoming)

Hacker News 의견

한 사용자가 PyTorch를 이용해 논문의 아이디어를 간단히 구현한 것을 소개함. 핵심은 단 몇 줄의 코드로 구성되며, 1차원 함수를 보간하기 위해 스플라인 대신 푸리에 계수를 사용함. 이는 Kolmogorov-Arnold 네트워크의 표현력을 보여주며, 논문의 스플라인 버전보다 수렴이 쉬울 수 있으나 연산량은 더 많음.
다른 사용자가 제공된 주피터 노트북을 실험해 본 결과를 공유함. 분류 문제에서 네트워크 구조를 (2, 2)에서 (2, 2, 2)로 변경하자 일반화에 실패했으며, 훈련 데이터 크기를 100배로 늘리면 과적합은 개선되나 훈련 손실이 1e-2 아래로 내려가지 않음. 더 큰 규모의 예제와 데이터로 실험해 보고 싶어함.
최근 트랜스포머의 점진적 개선에 지친 분위기 속에서, 이 연구가 기존 DNN의 표현력을 높일 수 있는 신선한 아이디어를 제시했다는 점을 높이 평가함. 실제 성능 향상 여부는 앞으로 검증이 필요함.
알고리즘 자체의 확장성(더 많은 레이어로도 잘 학습되는지)과 하드웨어 가속 활용 가능성(가중치별 활성화 함수 구조가 빠른 행렬 곱 가속을 활용할 수 있을지) 측면에서 대규모 적용 시 어떤 결과를 보일지 아직 불분명함. 작은 규모에서는 흥미로운 특성을 보이나 ImageNet이나 LLM 같은 태스크에 적합한 구조인지는 추가 연구가 필요함.
Kolmogorov-Arnold 표현 정리와 MLP가 거의 동시기인 1957년과 1958년에 발견/발명되었다는 점이 흥미로움. 이 접근법은 MLP의 가중치, 편향, 전역 활성화 함수 대비 오직 하나의 파라미터 종류(국소 활성화 함수의 계수)만 가진다는 장점도 있음. Transformer 일색인 요즘, 이 접근법을 Diffusion Model에 적용해 보고 싶어 하는 의견도 있음.
Kolmogorov 신경망이 불연속 함수도 표현할 수 있다는 점은 흥미롭지만, 실제 적용 가능성에 대해서는 의문이 있었음. 이 레포지토리는 어느 정도 활용 가능성이 있음을 보여줌.
성급한 의견일 수 있으나, B-spline의 선형 조합이 더 높은 차수의 B-spline이 되므로, 이는 단순히 고차 B-spline을 함수에 피팅하는 것이 아닌가 하는 견해도 있음.
Preprint에서 입력 차원이 100인 것을 "고차원"으로 간주하고, 대부분의 문제가 5차원 이하인 것은 ML에서 고려되는 물리 영감 환경의 전형적인 모습임. 현대적 기준으로는 매우 작은 784차원에 불과한 MNIST에서의 성능 검증이 다음 단계가 될 것임.
스플라인을 의사결정 트리에 쑤셔 넣은 것 같다는 느낌을 주기도 함.
유한 요소법과 개념적으로 매우 유사해 보이며, 이렇게 분야 간 유사 패턴을 발견하는 것이 반가움.