Llama3-gradient - LLAMA의 컨텍스트 길이를 8k에서 1m으로 확장한 모델

xguru · 2024-05-02T10:46:01+09:00

Gradient가 개발한 이 모델은 LLama-3 8B의 컨텍스트 길이를 8k에서 1040K 이상으로 확장 SOTA LLM이 RoPE theta를 적절히 조정하여 최소한의 훈련으로 긴 컨텍스트에서 작동하는 방법을 학습할 수 있음을 보여줌 이 단계는 830M 토큰으로 훈련했으며 모든 단계에서 총 1.4B개의 토큰으로 Llama3의 오리지널 사전 훈련데이터의 0.1%에 불과함 참고: 256k 컨텍스트를 사용하려면 최소 64GB의 메모리 필요. 1M 이상의 컨텍스트를 사용하려면 100GB 이상이 필요