GN⁺ 2024-05-02 | parent | ★ favorite | on: Kolmogorov-Arnold 네트워크 개발(github.com/KindXiaoming)
Hacker News 의견
  • 한 사용자가 PyTorch를 이용해 논문의 아이디어를 간단히 구현한 것을 소개함. 핵심은 단 몇 줄의 코드로 구성되며, 1차원 함수를 보간하기 위해 스플라인 대신 푸리에 계수를 사용함. 이는 Kolmogorov-Arnold 네트워크의 표현력을 보여주며, 논문의 스플라인 버전보다 수렴이 쉬울 수 있으나 연산량은 더 많음.

  • 다른 사용자가 제공된 주피터 노트북을 실험해 본 결과를 공유함. 분류 문제에서 네트워크 구조를 (2, 2)에서 (2, 2, 2)로 변경하자 일반화에 실패했으며, 훈련 데이터 크기를 100배로 늘리면 과적합은 개선되나 훈련 손실이 1e-2 아래로 내려가지 않음. 더 큰 규모의 예제와 데이터로 실험해 보고 싶어함.

  • 최근 트랜스포머의 점진적 개선에 지친 분위기 속에서, 이 연구가 기존 DNN의 표현력을 높일 수 있는 신선한 아이디어를 제시했다는 점을 높이 평가함. 실제 성능 향상 여부는 앞으로 검증이 필요함.

  • 알고리즘 자체의 확장성(더 많은 레이어로도 잘 학습되는지)과 하드웨어 가속 활용 가능성(가중치별 활성화 함수 구조가 빠른 행렬 곱 가속을 활용할 수 있을지) 측면에서 대규모 적용 시 어떤 결과를 보일지 아직 불분명함. 작은 규모에서는 흥미로운 특성을 보이나 ImageNet이나 LLM 같은 태스크에 적합한 구조인지는 추가 연구가 필요함.

  • Kolmogorov-Arnold 표현 정리와 MLP가 거의 동시기인 1957년과 1958년에 발견/발명되었다는 점이 흥미로움. 이 접근법은 MLP의 가중치, 편향, 전역 활성화 함수 대비 오직 하나의 파라미터 종류(국소 활성화 함수의 계수)만 가진다는 장점도 있음. Transformer 일색인 요즘, 이 접근법을 Diffusion Model에 적용해 보고 싶어 하는 의견도 있음.

  • Kolmogorov 신경망이 불연속 함수도 표현할 수 있다는 점은 흥미롭지만, 실제 적용 가능성에 대해서는 의문이 있었음. 이 레포지토리는 어느 정도 활용 가능성이 있음을 보여줌.

  • 성급한 의견일 수 있으나, B-spline의 선형 조합이 더 높은 차수의 B-spline이 되므로, 이는 단순히 고차 B-spline을 함수에 피팅하는 것이 아닌가 하는 견해도 있음.

  • Preprint에서 입력 차원이 100인 것을 "고차원"으로 간주하고, 대부분의 문제가 5차원 이하인 것은 ML에서 고려되는 물리 영감 환경의 전형적인 모습임. 현대적 기준으로는 매우 작은 784차원에 불과한 MNIST에서의 성능 검증이 다음 단계가 될 것임.

  • 스플라인을 의사결정 트리에 쑤셔 넣은 것 같다는 느낌을 주기도 함.

  • 유한 요소법과 개념적으로 매우 유사해 보이며, 이렇게 분야 간 유사 패턴을 발견하는 것이 반가움.