xLSTM을 활용한 장기 시계열 예측: XLSTMTime
(arxiv.org)xLSTMTime: Long-term Time Series Forecasting With xLSTM
- 최근 몇 년간, 변환기 기반 모델은 다변량 장기 시계열 예측(LTSF)에서 두드러진 성과를 보였음. 그러나 높은 계산 요구, 시간적 역학 포착의 어려움, 장기 종속성 관리 등의 문제에 직면해 있음
- 단순한 선형 구조를 가진 LTSF-Linear의 등장으로 변환기 기반 모델을 능가하는 성과를 보였으며, 이는 시계열 예측에서 변환기의 유용성을 재평가하게 만듦
- 이에 대응하여, 이 논문은 최근의 아키텍처인 확장 LSTM(xLSTM)을 LTSF에 적용한 결과를 제시함. xLSTM은 지수 게이팅과 더 높은 용량의 수정된 메모리 구조를 포함하여 LTSF에 적합한 잠재력을 가짐
- 우리가 채택한 LTSF 아키텍처인 xLSTMTime은 현재 접근 방식을 능가함. 여러 실제 데이터셋에서 다양한 최신 모델과 xLSTMTime의 성능을 비교한 결과, 우수한 예측 능력을 입증함
- 우리의 연구 결과는 정제된 순환 아키텍처가 LTSF 작업에서 변환기 기반 모델에 대한 경쟁력 있는 대안을 제공할 수 있으며, 시계열 예측의 지형을 재정의할 가능성을 시사함
GN⁺의 정리
- 이 논문은 변환기 기반 모델의 한계를 극복하고자 xLSTM을 도입하여 장기 시계열 예측에서 우수한 성능을 보임
- xLSTMTime은 지수 게이팅과 수정된 메모리 구조를 통해 기존 모델을 능가하는 예측 능력을 입증함
- 이 연구는 시계열 예측에서 순환 아키텍처의 가능성을 재조명하며, 변환기 기반 모델에 대한 새로운 대안을 제시함
- 유사한 기능을 가진 프로젝트로는 Facebook의 Prophet, Amazon의 DeepAR 등이 있음
댓글과 토론
Hacker News 의견들
-
최근 몇 년간 트랜스포머 기반 모델이 다변량 장기 시계열 예측에서 주목받은 건 맞지만, 비딥러닝 모델보다 일반적으로 더 나은지는 의문임
내가 이해하기로는 그렇지 않았는데, 이 분야를 아주 closely 따라가고 있지는 않음- 결제/지출 예측 경험상 딥러닝은 대체로 그래디언트 부스팅 트리보다 성능이 낮았음
딥러닝 모델은 계절성을 배우는 데는 강하지만, 복잡한 추세나 충격은 잘 다루지 못하는 편임
경제·금융 데이터는 계절성은 단순하고 추세가 복잡한 경우가 많아서 딥러닝이 꽤 부진해지는 듯함
이 논문에는 동의함. 내가 써본 좋은 딥러닝 시계열 구조는 DeepAR나 N-BEATS처럼 MLP나 순환 신경망의 단순 확장에 가까웠고, 트랜스포머 기반 구조는 특히 요즘 쏟아지는 트랜스포머 기반 기반 모델까지 포함해 정말 형편없었음 - 항공 안전 업무에서는 다변량 시계열 예측에서 딥러닝이 전통적인 비딥러닝 모델보다 나았음
다만 딥러닝 모델들 사이에서도 트랜스포머, 양방향 LSTM, 일반 MLP, VAE 등 성능 차이가 매우 컸음 - 직접 써본 건 아니지만, 최근 시계열 분석에 XGBoost 같은 트리 기반 모델을 써본 친구와 이 주제를 이야기했음
그 친구는 트랜스포머 기반 구조가 트리 모델에 비해 비교적 적은 노력으로도 시계열 작업에서 괜찮은 성능을 내는 편이라고 했음
내가 이해한 바로는 충분히 매개변수를 튜닝하면 트리 기반 모델이 보통 트랜스포머를 이길 수 있음. 하지만 TimeGPT 같은 모델은 광범위한 튜닝 없이도 괜찮은 성능을 내서 빠른 구현에는 매력적임 - 논문 바로 다음 문단에 그 얘기가 나옴. xLSTMTime도 트랜스포머 기반이 아님
- 아주 뛰어난 수준은 아니지만, 최근 전이 학습 시도들은 유망해 보였음
- 결제/지출 예측 경험상 딥러닝은 대체로 그래디언트 부스팅 트리보다 성능이 낮았음
-
내 업무 일부가 실제로 경제 쪽 nowcasting과 예측 모델을 만드는 일임. 인플레이션, GDP 같은 경제 지표와 시장 유동성 같은 금융 지표를 다룸
아직 논문은 읽지 못했지만, “트랜스포머는 잘하는 일에서는 훌륭하지만 LSTM 계열 모델도 여전히 매우 가치 있다”는 전반적인 톤은 완전히 공감됨- 업무에 Mamba를 적용해볼 기회가 있었는지, 생각이 궁금함
-
이게 Google의 AI 기반 날씨 예측 모델과 어떤 관련이 있는 건가?
https://deepmind.google/discover/blog/graphcast-ai-model-for...- 아님. Graphcast는 ERA5 대기 재구성 데이터로 학습한 그래프 트랜스포머이지, 범용 시계열 예측 모델이 아님
참고로 Graphcast는 적어도 대규모 전지구 패턴 예측에서는 모든 전통적인 전지구 단일 예측을 능가함. Z500 같은 지표에서 대략 3~10일 지연 구간 기준임
ECMWF에는 Graphcast 파생인 AIFS가 있고, 몇 년 안에 그것이나 비슷한 것을 운영 환경에 올릴 가능성이 큼
- 아님. Graphcast는 ERA5 대기 재구성 데이터로 학습한 그래프 트랜스포머이지, 범용 시계열 예측 모델이 아님
-
예측 도구로 마케팅되고 있다면, 시계열의 이벤트 분류에는 적용되지 않는 건가?
- 그건 조금 다른 작업이라고 봄. 이 분야 전문가까진 아니지만, 이벤트 수 n이 아주 작다면 각 이벤트별 확률을 목표값으로 두는 다변량 예측 문제처럼 다룰 수는 있을 듯함
- 이 접근법이나 트랜스포머/LLM 기반 접근법이 예를 들어 이상 탐지를 어디에서 개선하는지도 궁금함
-
논문에 있는 데이터셋 링크가 작동하지 않아서 아쉬움. 수정되면 좋겠음
-
최고의 딥러닝 시계열 모델은 헤지펀드 내부에 비공개로 있을 것임
- 실제로 어려운 일의 대부분은 거대한 단일 모델이 아니라 특징 구성임. 내가 알기로는 그래디언트 부스팅이 여전히 지배적임
- 공짜 점심 없음 정리 때문에 일반적으로 최고의 모델 같은 건 없음
헤지펀드에서 잘 되는 방식도 데이터 양과 데이터 성격이 다르고 필요한 귀납 편향이 적거나 다른 영역에서는 나쁠 수 있음 - 적어도 고급 헤지펀드들은 더 이상 시계열 모델링을 쓰지 않는다고 봄. 요즘 기준으로는 꽤 구식임
-
시계열 예측은 결정론적 영역에서 가장 잘 작동함
공개된 LLM, AI, 딥러닝, 머신러닝 기법 중 주식시장에 잘 먹히는 건 없음. 정말 하나도 없음. 다 해봤음 -
누군가의 시계열 예측 방법이 실제로 통했다면, 그걸 공개하지 않았을 것임
- 꼭 그렇진 않음. 실제로 공개도 많이 함. 시계열 작업의 압도적 다수는 자산 가격이나 주식시장 수익률을 이기는 것과 관련이 없음
- Transformer 모델도 AI 역사상 가장 성공적인 모델 중 하나였지만 논문으로 공개됐음
-
이걸 XSLT로 잘못 읽었음
- 2024년에 XML 관련 글이 얼마나 흥미로울까 궁금해서 클릭했는데, 동시에 실망스럽고 만족스러웠음
- 맞음. 그리고 이것도 변환에 대한 글이긴 함
- 나도 그랬음. 내가 늙은 건가?
-
누군가 이걸로 주식 예측하려다가 전 재산을 잃을 날이 기대됨