1P by neo 2023-10-03 | favorite | 댓글과 토론
  • 대용량 언어 모델(Large Language Models, LLMs)의 스트리밍 애플리케이션 배포에 대한 기사, 이는 메모리 소비와 LLMs의 훈련 시퀀스 길이보다 긴 텍스트를 일반화하는 능력 부족으로 인해 도전적임.
  • 저자들은 '주의 집중 싱크(attention sink)'라는 개념을 소개, 이는 초기 토큰에 대한 강력한 주의 점수 현상을 의미하며, 그들이 의미론적으로 중요하지 않더라도 그렇습니다.
  • 저자들은 유한 길이의 주의 창으로 훈련된 LLMs가 미세 조정 없이 무한 시퀀스 길이로 일반화할 수 있게 하는 효율적인 프레임워크인 StreamingLLM을 제시합니다.
  • StreamingLLM은 Llama-2, MPT, Falcon, Pythia와 같은 모델이 최대 400만 토큰 이상으로 안정적이고 효율적인 언어 모델링을 수행할 수 있게 합니다.
  • 저자들은 또한 사전 훈련 중에 전용 주의 집중 싱크로 플레이스홀더 토큰을 추가하면 스트리밍 배포가 더욱 향상될 수 있음을 발견했습니다.
  • 스트리밍 설정에서 StreamingLLM은 슬라이딩 윈도우 재계산 기준을 최대 22.2배 빠르게 능가합니다.
  • 저자들은 LLMs의 컨텍스트 창이 StreamingLLM에서 확장되지 않으며, 모델은 최신 토큰만 처리할 수 있다는 것을 명확히 합니다.
  • StreamingLLM은 모델이 광범위한 메모리나 과거 데이터에 의존하지 않고 계속 작동해야 하는 다중 라운드 대화와 같은 스트리밍 애플리케이션에 이상적입니다.
  • 저자들은 StreamingLLM의 핵심 코드, Llama-2, MPT, Falcon, Pythia를 포함, 그리고 혼란도 코드, Streaming Llama Chatbot 데모, StreamEval 데이터셋 및 평가 코드를 공개할 계획입니다.