멀티 토큰 예측을 통한 더 나은 성능과 더 빠른 속도의 Large Language Models

(arxiv.org)

1P by GN⁺ 2024-05-02 | ★ favorite | 댓글 1개

다중 토큰 예측을 통한 더 나은 대규모 언어 모델 학습

GPT와 Llama 같은 대규모 언어 모델은 다음 토큰 예측 손실로 학습됨
본 연구에서는 언어 모델이 한 번에 여러 개의 미래 토큰을 예측하도록 학습시키면 샘플 효율성이 높아짐을 제안함
구체적으로, 학습 코퍼스의 각 위치에서 공유 모델 트렁크 위에서 동작하는 n개의 독립적인 출력 헤드를 사용하여 다음 n개의 토큰을 예측하도록 모델에 요청함
다중 토큰 예측을 보조 학습 작업으로 고려하여, 코드와 자연어 모델 모두에 대해 학습 시간에 오버헤드 없이 하위 작업 능력이 향상되는 것을 측정함

모델 크기가 클수록 효과적이며 다중 에포크 학습에도 매력적임

이 방법은 모델 크기가 클수록 더 유용하며, 여러 에포크 동안 학습할 때도 매력을 유지함
특히 코딩과 같은 생성 벤치마크에서 이점이 두드러지며, 본 모델은 강력한 베이스라인보다 지속적으로 몇 퍼센트 포인트 더 우수한 성능을 보임
13B 파라미터 모델은 HumanEval에서 12%, MBPP에서 17% 더 많은 문제를 해결함

유도 헤드 개발과 알고리즘 추론 능력에 유리함

작은 알고리즘 작업에 대한 실험은 다중 토큰 예측이 유도 헤드 개발과 알고리즘 추론 능력에 유리함을 보여줌
추가적인 이점으로, 4-토큰 예측으로 학습된 모델은 큰 배치 크기에서도 추론 속도가 최대 3배 빠름

GN⁺의 의견

언어 모델의 효율성 향상을 위해 새로운 학습 방법을 제안한 흥미로운 연구임. 특히 대규모 모델일수록 성능 향상이 뚜렷하다는 점이 주목할 만함
다중 토큰 예측이 장기 의존성 학습에 어떤 영향을 미치는지에 대한 추가 실험이 있으면 좋을 듯함. 예를 들어 문장 간 참조 해결 같은 장거리 의존성 테스크에서의 성능 변화를 살펴보는 것도 의미 있을 것 같음
코딩이나 수학 문제 풀이 등 특정 도메인의 생성 태스크에서 성능 향상이 컸다고 하는데, 일반적인 자연어 이해나 QA 태스크 등에서는 어떤 효과가 있을지 궁금함. 다양한 벤치마크에서의 실험 결과가 보완되면 좋겠음
추론 속도 향상은 실용적인 측면에서 큰 메리트가 될 수 있음. 특히 실시간성이 요구되는 챗봇이나 질의응답 시스템 등에 적용하기에 유리해 보임
Anthropic의 Constitutional AI나 OpenAI의 InstructGPT 등 RLHF 기반 모델들이 주목받고 있는 상황에서, 이 연구는 지도학습만으로도 언어 모델의 성능을 높일 수 있는 방안을 제시했다는 점에서 의의가 있어 보임. 물론 윤리적 가치 정렬 등의 문제는 여전히 해결 과제로 남아있겠지만, 학습 효율성 측면에서는 충분히 경쟁력 있는 접근법으로 보임

▲

GN⁺ 2024-05-02 [-]

Hacker News 의견

요약:

LLM에서 다양한 용어(데이터, 사전 학습, 학습, 추론, 전문가 혼합, RAG 등)가 어떤 맥락에서 사용되는지 이해하기 쉬운 설명이 필요함
자기 추론 디코딩(Self-speculative decoding)은 예측한 레이블 시퀀스를 다시 네트워크에 피드하여 일치하는 지점까지만 예측을 유지하는 방식으로, 성능 저하 없이 속도를 높일 수 있음
LLM은 현재 출력 토큰 수 까지의 모든 토큰 조합에 대한 확률 분포를 고려하지 않고 있는데, 이를 고려한다면 더 좋은 성능을 보일 것으로 예상됨
LLM의 교차 엔트로피 손실 함수를 수정하여 훈련 데이터에서 n번째 미래 토큰만 고려하도록 하고, n에 따른 LLM 성능을 분석하는 것이 흥미로운 연구 주제가 될 수 있음
LLM이 출력한 토큰의 상태를 다음 답변에 활용할 수 있는 방법이 있는지 궁금함
문장 전체의 의미를 인코딩하는 벡터를 예측하도록 LLM을 학습시키는 것은 어떨지 질문함
논문의 5.2절 설명이 다소 부족한 면이 있음. 특히 H(Y|X)를 버리는 것에 대한 설명이 불명확함
LLM이 다음 N개 토큰에 대해 작은 PixelCNN과 같은 모델을 출력하게 하여 향후 토큰에 대한 조건부 확률을 설명할 수 있게 하는 방안을 고려해 볼 수 있음
다음 n개 토큰뿐 아니라 128, 512, 2048 등 더 먼 미래의 토큰도 예측하여 장기적인 담화 구조를 학습하게 하면 어떨지 궁금해 함
여러 토큰을 예측할 때 서로 간섭이 발생하는 경우 이를 어떻게 해결할 수 있을지 의문을 제기함

답변달기