1P by neo 15일전 | favorite | 댓글 1개

다중 토큰 예측을 통한 더 나은 대규모 언어 모델 학습

  • GPT와 Llama 같은 대규모 언어 모델은 다음 토큰 예측 손실로 학습됨
  • 본 연구에서는 언어 모델이 한 번에 여러 개의 미래 토큰을 예측하도록 학습시키면 샘플 효율성이 높아짐을 제안함
  • 구체적으로, 학습 코퍼스의 각 위치에서 공유 모델 트렁크 위에서 동작하는 n개의 독립적인 출력 헤드를 사용하여 다음 n개의 토큰을 예측하도록 모델에 요청함
  • 다중 토큰 예측을 보조 학습 작업으로 고려하여, 코드와 자연어 모델 모두에 대해 학습 시간에 오버헤드 없이 하위 작업 능력이 향상되는 것을 측정함

모델 크기가 클수록 효과적이며 다중 에포크 학습에도 매력적임

  • 이 방법은 모델 크기가 클수록 더 유용하며, 여러 에포크 동안 학습할 때도 매력을 유지함
  • 특히 코딩과 같은 생성 벤치마크에서 이점이 두드러지며, 본 모델은 강력한 베이스라인보다 지속적으로 몇 퍼센트 포인트 더 우수한 성능을 보임
  • 13B 파라미터 모델은 HumanEval에서 12%, MBPP에서 17% 더 많은 문제를 해결함

유도 헤드 개발과 알고리즘 추론 능력에 유리함

  • 작은 알고리즘 작업에 대한 실험은 다중 토큰 예측이 유도 헤드 개발과 알고리즘 추론 능력에 유리함을 보여줌
  • 추가적인 이점으로, 4-토큰 예측으로 학습된 모델은 큰 배치 크기에서도 추론 속도가 최대 3배 빠름

GN⁺의 의견

  • 언어 모델의 효율성 향상을 위해 새로운 학습 방법을 제안한 흥미로운 연구임. 특히 대규모 모델일수록 성능 향상이 뚜렷하다는 점이 주목할 만함

  • 다중 토큰 예측이 장기 의존성 학습에 어떤 영향을 미치는지에 대한 추가 실험이 있으면 좋을 듯함. 예를 들어 문장 간 참조 해결 같은 장거리 의존성 테스크에서의 성능 변화를 살펴보는 것도 의미 있을 것 같음

  • 코딩이나 수학 문제 풀이 등 특정 도메인의 생성 태스크에서 성능 향상이 컸다고 하는데, 일반적인 자연어 이해나 QA 태스크 등에서는 어떤 효과가 있을지 궁금함. 다양한 벤치마크에서의 실험 결과가 보완되면 좋겠음

  • 추론 속도 향상은 실용적인 측면에서 큰 메리트가 될 수 있음. 특히 실시간성이 요구되는 챗봇이나 질의응답 시스템 등에 적용하기에 유리해 보임

  • Anthropic의 Constitutional AI나 OpenAI의 InstructGPT 등 RLHF 기반 모델들이 주목받고 있는 상황에서, 이 연구는 지도학습만으로도 언어 모델의 성능을 높일 수 있는 방안을 제시했다는 점에서 의의가 있어 보임. 물론 윤리적 가치 정렬 등의 문제는 여전히 해결 과제로 남아있겠지만, 학습 효율성 측면에서는 충분히 경쟁력 있는 접근법으로 보임

Hacker News 의견

요약:

  • LLM에서 다양한 용어(데이터, 사전 학습, 학습, 추론, 전문가 혼합, RAG 등)가 어떤 맥락에서 사용되는지 이해하기 쉬운 설명이 필요함
  • 자기 추론 디코딩(Self-speculative decoding)은 예측한 레이블 시퀀스를 다시 네트워크에 피드하여 일치하는 지점까지만 예측을 유지하는 방식으로, 성능 저하 없이 속도를 높일 수 있음
  • LLM은 현재 출력 토큰 수 까지의 모든 토큰 조합에 대한 확률 분포를 고려하지 않고 있는데, 이를 고려한다면 더 좋은 성능을 보일 것으로 예상됨
  • LLM의 교차 엔트로피 손실 함수를 수정하여 훈련 데이터에서 n번째 미래 토큰만 고려하도록 하고, n에 따른 LLM 성능을 분석하는 것이 흥미로운 연구 주제가 될 수 있음
  • LLM이 출력한 토큰의 상태를 다음 답변에 활용할 수 있는 방법이 있는지 궁금함
  • 문장 전체의 의미를 인코딩하는 벡터를 예측하도록 LLM을 학습시키는 것은 어떨지 질문함
  • 논문의 5.2절 설명이 다소 부족한 면이 있음. 특히 H(Y|X)를 버리는 것에 대한 설명이 불명확함
  • LLM이 다음 N개 토큰에 대해 작은 PixelCNN과 같은 모델을 출력하게 하여 향후 토큰에 대한 조건부 확률을 설명할 수 있게 하는 방안을 고려해 볼 수 있음
  • 다음 n개 토큰뿐 아니라 128, 512, 2048 등 더 먼 미래의 토큰도 예측하여 장기적인 담화 구조를 학습하게 하면 어떨지 궁금해 함
  • 여러 토큰을 예측할 때 서로 간섭이 발생하는 경우 이를 어떻게 해결할 수 있을지 의문을 제기함