멀티 토큰 예측을 통한 더 나은 성능과 더 빠른 속도의

▲

GN⁺ 2024-05-02 | parent | ★ favorite | on: 멀티 토큰 예측을 통한 더 나은 성능과 더 빠른 속도의 Large Language Models(arxiv.org)

Hacker News 의견

요약:

LLM에서 다양한 용어(데이터, 사전 학습, 학습, 추론, 전문가 혼합, RAG 등)가 어떤 맥락에서 사용되는지 이해하기 쉬운 설명이 필요함
자기 추론 디코딩(Self-speculative decoding)은 예측한 레이블 시퀀스를 다시 네트워크에 피드하여 일치하는 지점까지만 예측을 유지하는 방식으로, 성능 저하 없이 속도를 높일 수 있음
LLM은 현재 출력 토큰 수 까지의 모든 토큰 조합에 대한 확률 분포를 고려하지 않고 있는데, 이를 고려한다면 더 좋은 성능을 보일 것으로 예상됨
LLM의 교차 엔트로피 손실 함수를 수정하여 훈련 데이터에서 n번째 미래 토큰만 고려하도록 하고, n에 따른 LLM 성능을 분석하는 것이 흥미로운 연구 주제가 될 수 있음
LLM이 출력한 토큰의 상태를 다음 답변에 활용할 수 있는 방법이 있는지 궁금함
문장 전체의 의미를 인코딩하는 벡터를 예측하도록 LLM을 학습시키는 것은 어떨지 질문함
논문의 5.2절 설명이 다소 부족한 면이 있음. 특히 H(Y|X)를 버리는 것에 대한 설명이 불명확함
LLM이 다음 N개 토큰에 대해 작은 PixelCNN과 같은 모델을 출력하게 하여 향후 토큰에 대한 조건부 확률을 설명할 수 있게 하는 방안을 고려해 볼 수 있음
다음 n개 토큰뿐 아니라 128, 512, 2048 등 더 먼 미래의 토큰도 예측하여 장기적인 담화 구조를 학습하게 하면 어떨지 궁금해 함
여러 토큰을 예측할 때 서로 간섭이 발생하는 경우 이를 어떻게 해결할 수 있을지 의문을 제기함