# 효율적인 스트리밍 언어 모델과 어텐션 싱크

> Clean Markdown view of GeekNews topic #11166. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=11166](https://news.hada.io/topic?id=11166)
- GeekNews Markdown: [https://news.hada.io/topic/11166.md](https://news.hada.io/topic/11166.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2023-10-03T10:23:20+09:00
- Updated: 2023-10-03T10:23:20+09:00
- Original source: [github.com/mit-han-lab](https://github.com/mit-han-lab/streaming-llm)
- Points: 1
- Comments: 0

## Topic Body

- 대용량 언어 모델(Large Language Models, LLMs)의 스트리밍 애플리케이션 배포에 대한 기사, 이는 메모리 소비와 LLMs의 훈련 시퀀스 길이보다 긴 텍스트를 일반화하는 능력 부족으로 인해 도전적임.
- 저자들은 '주의 집중 싱크(attention sink)'라는 개념을 소개, 이는 초기 토큰에 대한 강력한 주의 점수 현상을 의미하며, 그들이 의미론적으로 중요하지 않더라도 그렇습니다.
- 저자들은 유한 길이의 주의 창으로 훈련된 LLMs가 미세 조정 없이 무한 시퀀스 길이로 일반화할 수 있게 하는 효율적인 프레임워크인 StreamingLLM을 제시합니다.
- StreamingLLM은 Llama-2, MPT, Falcon, Pythia와 같은 모델이 최대 400만 토큰 이상으로 안정적이고 효율적인 언어 모델링을 수행할 수 있게 합니다.
- 저자들은 또한 사전 훈련 중에 전용 주의 집중 싱크로 플레이스홀더 토큰을 추가하면 스트리밍 배포가 더욱 향상될 수 있음을 발견했습니다.
- 스트리밍 설정에서 StreamingLLM은 슬라이딩 윈도우 재계산 기준을 최대 22.2배 빠르게 능가합니다.
- 저자들은 LLMs의 컨텍스트 창이 StreamingLLM에서 확장되지 않으며, 모델은 최신 토큰만 처리할 수 있다는 것을 명확히 합니다.
- StreamingLLM은 모델이 광범위한 메모리나 과거 데이터에 의존하지 않고 계속 작동해야 하는 다중 라운드 대화와 같은 스트리밍 애플리케이션에 이상적입니다.
- 저자들은 StreamingLLM의 핵심 코드, Llama-2, MPT, Falcon, Pythia를 포함, 그리고 혼란도 코드, Streaming Llama Chatbot 데모, StreamEval 데이터셋 및 평가 코드를 공개할 계획입니다.

## Comments


_No public comments on this page._