6P by xguru 15일전 | favorite | 댓글 1개
  • Gradient가 개발한 이 모델은 LLama-3 8B의 컨텍스트 길이를 8k에서 1040K 이상으로 확장
  • SOTA LLM이 RoPE theta를 적절히 조정하여 최소한의 훈련으로 긴 컨텍스트에서 작동하는 방법을 학습할 수 있음을 보여줌
  • 이 단계는 830M 토큰으로 훈련했으며 모든 단계에서 총 1.4B개의 토큰으로 Llama3의 오리지널 사전 훈련데이터의 0.1%에 불과함
  • 참고: 256k 컨텍스트를 사용하려면 최소 64GB의 메모리 필요. 1M 이상의 컨텍스트를 사용하려면 100GB 이상이 필요

컨텍스트 윈도가 늘어난 덕분에 성능은 원래 LLaMa 3에 비해 현저히 떨어져서 못쓸 지경이라는 댓글이 있네요.

https://twitter.com/ArkaPal999/status/1785611161540378707