효율적인 스트리밍 언어 모델과 어텐션 싱크

(github.com/mit-han-lab)

1P by GN⁺ 2023-10-03 | ★ favorite | 댓글과 토론

대용량 언어 모델(Large Language Models, LLMs)의 스트리밍 애플리케이션 배포에 대한 기사, 이는 메모리 소비와 LLMs의 훈련 시퀀스 길이보다 긴 텍스트를 일반화하는 능력 부족으로 인해 도전적임.
저자들은 '주의 집중 싱크(attention sink)'라는 개념을 소개, 이는 초기 토큰에 대한 강력한 주의 점수 현상을 의미하며, 그들이 의미론적으로 중요하지 않더라도 그렇습니다.
저자들은 유한 길이의 주의 창으로 훈련된 LLMs가 미세 조정 없이 무한 시퀀스 길이로 일반화할 수 있게 하는 효율적인 프레임워크인 StreamingLLM을 제시합니다.
StreamingLLM은 Llama-2, MPT, Falcon, Pythia와 같은 모델이 최대 400만 토큰 이상으로 안정적이고 효율적인 언어 모델링을 수행할 수 있게 합니다.
저자들은 또한 사전 훈련 중에 전용 주의 집중 싱크로 플레이스홀더 토큰을 추가하면 스트리밍 배포가 더욱 향상될 수 있음을 발견했습니다.
스트리밍 설정에서 StreamingLLM은 슬라이딩 윈도우 재계산 기준을 최대 22.2배 빠르게 능가합니다.
저자들은 LLMs의 컨텍스트 창이 StreamingLLM에서 확장되지 않으며, 모델은 최신 토큰만 처리할 수 있다는 것을 명확히 합니다.
StreamingLLM은 모델이 광범위한 메모리나 과거 데이터에 의존하지 않고 계속 작동해야 하는 다중 라운드 대화와 같은 스트리밍 애플리케이션에 이상적입니다.
저자들은 StreamingLLM의 핵심 코드, Llama-2, MPT, Falcon, Pythia를 포함, 그리고 혼란도 코드, Streaming Llama Chatbot 데모, StreamEval 데이터셋 및 평가 코드를 공개할 계획입니다.