RNNs가 전부였을까?

(arxiv.org)

컴퓨터 과학 > 머신 러닝

제목: RNN이 전부였을까?
저자: Leo Feng, Frederick Tung, Mohamed Osama Ahmed, Yoshua Bengio, Hossein Hajimirsadegh
제출일: 2024년 10월 2일

배경: Transformer의 시퀀스 길이에 대한 확장성 제한으로 인해 병렬화가 가능한 순환 시퀀스 모델에 대한 관심이 다시 증가하고 있음. 이에 따라 S4, Mamba, Aaren과 같은 새로운 순환 구조가 제안되어 유사한 성능을 달성하고 있음.
연구 내용: 전통적인 순환 신경망(RNN)인 LSTM(1997)과 GRU(2014)를 재검토함. 이 모델들은 시간 역전파(BPTT)가 필요해 느렸으나, 입력, 망각, 업데이트 게이트에서 숨겨진 상태 의존성을 제거함으로써 BPTT가 필요 없게 되어 병렬로 효율적으로 학습할 수 있게 됨.
결과: 최소화된 버전(minLSTMs, minGRUs)을 도입하여 (1) 전통적인 모델보다 훨씬 적은 매개변수를 사용하고, (2) 학습 시 완전 병렬화가 가능함(길이 512의 시퀀스에서 175배 빠름). 이 간소화된 RNN 버전은 최근 시퀀스 모델의 경험적 성능과 일치함.