LoPE: 무작위 라틴어 텍스트를 앞에 붙이면 LLM 추론이 향상된다 (arXiv 논문)
핵심 요약
LoPE는 RL 훈련 시 프롬프트 앞에 Lorem ipsum dolor sit amet ... 을 삽입하는 기법. 어려운 문제에서 모든 샘플이 실패하면 학습 신호가 0이 되는 "zero-advantage" 문제를 해결한다.
핵심 결과:
- Qwen3-4B 기준 수학 벤치마크 평균 +4.62점
- AMC 2023에서 22% 상대 성능 향상
- 기존 방법이 전부 실패한 난제 50개를 유일하게 돌파
읽을 포인트
라틴어 기반의 "언어처럼 보이지만 무의미한 텍스트"가 효과적인 이유와 모델의 기본 추론 궤도를 교란해 탐색 다양성을 확보하는 메커니즘이 흥미롭다.