LoPE는 RL 훈련 시 프롬프트 앞에 Lorem ipsum dolor sit amet ... 을 삽입하는 기법. 어려운 문제에서 모든 샘플이 실패하면 학습 신호가 0이 되는 "zero-advantage" 문제를 해결한다.
핵심 결과:
- Qwen3-4B 기준 수학 벤치마크 평균 +4.62점
- AMC 2023에서 22% 상대 성능 향상
- 기존 방법이 전부 실패한 난제 50개를 유일하게 돌파
읽을 포인트
라틴어 기반의 "언어처럼 보이지만 무의미한 텍스트"가 효과적인 이유와 모델의 기본 추론 궤도를 교란해 탐색 다양성을 확보하는 메커니즘이 흥미롭다.
댓글과 토론
제 생각에는 사람으로 치면 어려운 문제를 풀 때 '생각을 환기' 시킨 후, 다시 처음부터 생각해보면 문제가 풀릴 때가 있는 것과 비슷한게 아닐까? 싶습니다. 제 개인적인 생각이에요 ㅋ