# Llama3-gradient - LLAMA의 컨텍스트 길이를 8k에서 1m으로 확장한 모델

> Clean Markdown view of GeekNews topic #14608. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=14608](https://news.hada.io/topic?id=14608)
- GeekNews Markdown: [https://news.hada.io/topic/14608.md](https://news.hada.io/topic/14608.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2024-05-02T10:46:01+09:00
- Updated: 2024-05-02T10:46:01+09:00
- Original source: [ollama.com](https://ollama.com/library/llama3-gradient)
- Points: 6
- Comments: 1

## Topic Body

- Gradient가 개발한 이 모델은 LLama-3 8B의 컨텍스트 길이를 8k에서 1040K 이상으로 확장  
- SOTA LLM이 RoPE theta를 적절히 조정하여 최소한의 훈련으로 긴 컨텍스트에서 작동하는 방법을 학습할 수 있음을 보여줌   
- 이 단계는 830M 토큰으로 훈련했으며 모든 단계에서 총 1.4B개의 토큰으로 Llama3의 오리지널 사전 훈련데이터의 0.1%에 불과함  
- 참고: 256k 컨텍스트를 사용하려면 최소 64GB의 메모리 필요. 1M 이상의 컨텍스트를 사용하려면 100GB 이상이 필요

## Comments



### Comment 24884

- Author: livekth
- Created: 2024-05-02T20:09:44+09:00
- Points: 2

컨텍스트 윈도가 늘어난 덕분에 성능은 원래 LLaMa 3에 비해 현저히 떨어져서 못쓸 지경이라는 댓글이 있네요.  
  
https://twitter.com/ArkaPal999/status/1785611161540378707
