LoPE: 무작위 라틴어 텍스트를 앞에 붙이면 LLM 추론이 향상된다! (arXiv 논문)

(dev.to)

LoPE: 무작위 라틴어 텍스트를 앞에 붙이면 LLM 추론이 향상된다 (arXiv 논문)

LoPE는 RL 훈련 시 프롬프트 앞에 Lorem ipsum dolor sit amet ... 을 삽입하는 기법. 어려운 문제에서 모든 샘플이 실패하면 학습 신호가 0이 되는 "zero-advantage" 문제를 해결한다.

핵심 결과:

라틴어 기반의 "언어처럼 보이지만 무의미한 텍스트"가 효과적인 이유와 모델의 기본 추론 궤도를 교란해 탐색 다양성을 확보하는 메커니즘이 흥미롭다.