Llama3-gradient - LLAMA의 컨텍스트 길이를 8k에서 1m으로 확장한 모델
(ollama.com)- Gradient가 개발한 이 모델은 LLama-3 8B의 컨텍스트 길이를 8k에서 1040K 이상으로 확장
- SOTA LLM이 RoPE theta를 적절히 조정하여 최소한의 훈련으로 긴 컨텍스트에서 작동하는 방법을 학습할 수 있음을 보여줌
- 이 단계는 830M 토큰으로 훈련했으며 모든 단계에서 총 1.4B개의 토큰으로 Llama3의 오리지널 사전 훈련데이터의 0.1%에 불과함
- 참고: 256k 컨텍스트를 사용하려면 최소 64GB의 메모리 필요. 1M 이상의 컨텍스트를 사용하려면 100GB 이상이 필요
댓글과 토론
컨텍스트 윈도가 늘어난 덕분에 성능은 원래 LLaMa 3에 비해 현저히 떨어져서 못쓸 지경이라는 댓글이 있네요.