# 다중 토큰 예측은 대규모 언어 모델의 샘플 효율성과 성능을 향상시킵니다.

> Clean Markdown view of GeekNews topic #14593. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=14593](https://news.hada.io/topic?id=14593)
- GeekNews Markdown: [https://news.hada.io/topic/14593.md](https://news.hada.io/topic/14593.md)
- Type: news
- Author: [brainer](https://news.hada.io/@brainer)
- Published: 2024-05-01T11:43:32+09:00
- Updated: 2024-05-01T11:43:32+09:00
- Original source: [arxiv.org](https://arxiv.org/abs/2404.19737)
- Points: 2
- Comments: 0

## Topic Body

• 본 논문은 다중 토큰 예측이라는 대형 언어 모델(LLM)에 대한 새로운 훈련 방법을 제안하며, 이는 모델을 훈련하여 여러 미래 토큰을 동시에 예측하는 것을 포함한다. 저자들은 이 접근법이 더 높은 표본 효율성으로 이어지며, 이는 모델이 주어진 양의 훈련 데이터에서 더 효과적으로 학습할 수 있음을 의미한다고 주장한다.  
  
• 그들은 코드 생성 및 자연어 처리를 포함한 다양한 다운스트림 작업에 대한 방법의 효과를 보여주고 다중 토큰 예측이 강력한 기준선을 몇 퍼센트 포인트 지속적으로 능가한다는 것을 보여준다. 특히, 그들의 13B 매개변수 모델은 HumanEval 및 MBPP와 같은 도전적인 코딩 벤치마크에서 상당한 개선을 달성한다.  
  
• 향상된 성능 외에도 다중 토큰 예측은 계산 이점도 제공합니다. 4토큰 예측으로 훈련된 모델은 배치 크기가 큰 경우에도 추론 속도가 최대 3배 빨라 실제 응용 프로그램에 더 효율적이다.

## Comments



_No public comments on this page._
