다중 토큰 예측은 대규모 언어 모델의 샘플 효율성과 성능을 향상시킵니다.
(arxiv.org)• 본 논문은 다중 토큰 예측이라는 대형 언어 모델(LLM)에 대한 새로운 훈련 방법을 제안하며, 이는 모델을 훈련하여 여러 미래 토큰을 동시에 예측하는 것을 포함한다. 저자들은 이 접근법이 더 높은 표본 효율성으로 이어지며, 이는 모델이 주어진 양의 훈련 데이터에서 더 효과적으로 학습할 수 있음을 의미한다고 주장한다.
• 그들은 코드 생성 및 자연어 처리를 포함한 다양한 다운스트림 작업에 대한 방법의 효과를 보여주고 다중 토큰 예측이 강력한 기준선을 몇 퍼센트 포인트 지속적으로 능가한다는 것을 보여준다. 특히, 그들의 13B 매개변수 모델은 HumanEval 및 MBPP와 같은 도전적인 코딩 벤치마크에서 상당한 개선을 달성한다.
• 향상된 성능 외에도 다중 토큰 예측은 계산 이점도 제공합니다. 4토큰 예측으로 훈련된 모델은 배치 크기가 큰 경우에도 추론 속도가 최대 3배 빨라 실제 응용 프로그램에 더 효율적이다.