깊이 혼합: 트랜스포머에서 동적으로 컴퓨팅 자원을 할당하는 기술

(arxiv.org)

2P by GN⁺ 2024-04-08 | ★ favorite | 댓글과 토론

트랜스포머 기반 언어 모델에서의 동적 계산 할당

트랜스포머 기반 언어 모델은 일반적으로 입력 시퀀스에 걸쳐 FLOPs(부동 소수점 연산)를 균등하게 분배함.
연구팀은 트랜스포머가 특정 위치에 대해 동적으로 FLOPs를 할당하도록 학습할 수 있음을 보임.
이 방법은 모델 깊이에 걸쳐 다른 레이어에서 시퀀스에 대한 할당을 최적화함.

새로운 방법론: Mixture-of-Depths

총 계산 예산을 제한하기 위해 자기 주의(self-attention) 및 MLP 계산에 참여할 수 있는 토큰 수(k)를 제한함.
네트워크가 top-k 라우팅 메커니즘을 사용하여 처리할 토큰을 결정함.
k는 사전에 정의되어 있으므로, 다른 조건부 계산 기법과 달리 알려진 텐서 크기를 가진 정적 계산 그래프를 사용함.

효율성 및 성능

토큰의 정체성이 유동적이기 때문에, 이 방법은 시간과 모델 깊이 차원에서 FLOPs를 비균등하게 소모할 수 있음.
계산 지출은 총합에서는 완전히 예측 가능하지만, 토큰 수준에서는 동적이고 문맥에 민감함.
이 방법으로 훈련된 모델은 동적으로 계산을 할당할 뿐만 아니라 효율적으로 할당함.
이 모델들은 동일한 FLOPs 및 훈련에 소요되는 벽시계 시간으로 기준 성능에 부합하지만, 순방향 패스당 FLOPs의 일부만을 요구하며, 훈련 후 샘플링 중 최대 50% 더 빠른 속도로 진행할 수 있음.

GN⁺의 의견

이 연구는 자연어 처리(NLP) 분야에서 효율성이 중요한 주제를 다루고 있으며, 트랜스포머 모델의 계산 비용을 줄이는 새로운 접근 방식을 제시함.
동적 계산 할당은 특히 대규모 언어 모델을 사용하는 경우, 에너지 소비와 비용을 줄이는 데 도움이 될 수 있음.
그러나 이 기술이 실제 어플리케이션에 통합되기 위해서는 추가적인 검증과 최적화가 필요할 것임.
이 연구는 기계 학습 커뮤니티에 새로운 아이디어를 제공하며, 특히 클라우드 컴퓨팅과 같은 자원이 제한된 환경에서의 언어 모델 배포에 영향을 미칠 수 있음.
비판적인 시각에서 볼 때, 이 방법이 모든 종류의 언어 모델과 데이터셋에 대해 동일한 효과를 보일지, 또한 어떤 종류의 작업에서 더 효율적인지에 대한 추가 연구가 필요함.