16P by taekim34 | ★ favorite | 댓글 13개

LoPE는 RL 훈련 시 프롬프트 앞에 Lorem ipsum dolor sit amet ... 을 삽입하는 기법. 어려운 문제에서 모든 샘플이 실패하면 학습 신호가 0이 되는 "zero-advantage" 문제를 해결한다.

핵심 결과:

  • Qwen3-4B 기준 수학 벤치마크 평균 +4.62점
  • AMC 2023에서 22% 상대 성능 향상
  • 기존 방법이 전부 실패한 난제 50개를 유일하게 돌파

읽을 포인트

라틴어 기반의 "언어처럼 보이지만 무의미한 텍스트"가 효과적인 이유와 모델의 기본 추론 궤도를 교란해 탐색 다양성을 확보하는 메커니즘이 흥미롭다.

댓글과 토론

“158번 올빼미, 할 수 있습니까?”
“… 교관님, 제겐 너무…”
“로렘 입숨! 할 수 있습니까?”
“악!!! 할 수 있습니다!”

앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

🤣🤣🤣🤣 빵 터졌습니다

재밌네요. 모델이 무시할 수 있는 문장을 추가 seed 처럼 써서 샘플링 할 때 탐색 공간을 늘리는거네요.

맞습니다. 생각지도 못한 새로운 관점을 제시하면서, 또 실제 성능도 개선되었다니 재밌기도 하고 흥미롭습니다.

어쩌면 현재 모델들이 과적합 학습이 되어 있다는 뜻이고, 따라서 모델용량을 더욱 줄일 수 있는 여지가 남아 있다고 해석할 수도 있을 것 같습니다.

개같이 오타내면서 프롬프트 쓰면 성능 향상되는게 느낌이 아니였구나

ㅋㅋㅋㅋ 다들 왜 이리 재미 있으십니까

원리가 말은 되는데 신기하네요. 왜 성능이 내려가지 않고 올라갔을까요?

제 생각에는 사람으로 치면 어려운 문제를 풀 때 '생각을 환기' 시킨 후, 다시 처음부터 생각해보면 문제가 풀릴 때가 있는 것과 비슷한게 아닐까? 싶습니다. 제 개인적인 생각이에요 ㅋ

궁금한게 저걸 활용하면 일반적인 학습에서도 유의미한 결과가 나올까요?? 두근두근..

저도 한번 해보고 싶긴 합니다. ^^
예전에 똑같은 프롬프트를 (무의미하지만) 2번 반복해서 넣으면 더 결과가 잘 나온다는 연구결과도 있었거든요. 잔소리 한번 더 하는 느낌이랄까.. aliverornot 님 글에 댓글로 달았지만, 이건 생각을 환기시키는 역할을 하는 것 같아요. 수학자들이 어려운 문제에 부딪쳤을 때 잠깐 펜을 놓고 산책 다니는 것과 비슷한 것 같기도 하고.. ㅋ