LoPE: 무작위 라틴어 텍스트를 앞에 붙이면 LLM 추론이 향상된다! (arXiv 논문)

(dev.to)

16P by taekim34 1달전 | ★ favorite | 댓글 13개

LoPE는 RL 훈련 시 프롬프트 앞에 Lorem ipsum dolor sit amet ... 을 삽입하는 기법. 어려운 문제에서 모든 샘플이 실패하면 학습 신호가 0이 되는 "zero-advantage" 문제를 해결한다.

핵심 결과:

Qwen3-4B 기준 수학 벤치마크 평균 +4.62점
AMC 2023에서 22% 상대 성능 향상
기존 방법이 전부 실패한 난제 50개를 유일하게 돌파

읽을 포인트

라틴어 기반의 "언어처럼 보이지만 무의미한 텍스트"가 효과적인 이유와 모델의 기본 추론 궤도를 교란해 탐색 다양성을 확보하는 메커니즘이 흥미롭다.

gooksangom6394 1달전 [-]

“158번 올빼미, 할 수 있습니까?”
“… 교관님, 제겐 너무…”
“로렘 입숨! 할 수 있습니까?”
“악!!! 할 수 있습니다!”

sonic0987 1달전 [-]

앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

epics 1달전 [-]

ㅋㅋㅋㅋ

taekim34 1달전 [-]

🤣🤣🤣🤣 빵 터졌습니다

mammal 1달전 [-]

재밌네요. 모델이 무시할 수 있는 문장을 추가 seed 처럼 써서 샘플링 할 때 탐색 공간을 늘리는거네요.

taekim34 1달전 [-]

맞습니다. 생각지도 못한 새로운 관점을 제시하면서, 또 실제 성능도 개선되었다니 재밌기도 하고 흥미롭습니다.

ide127 1달전 [-]

어쩌면 현재 모델들이 과적합 학습이 되어 있다는 뜻이고, 따라서 모델용량을 더욱 줄일 수 있는 여지가 남아 있다고 해석할 수도 있을 것 같습니다.

happing94 1달전 [-]

개같이 오타내면서 프롬프트 쓰면 성능 향상되는게 느낌이 아니였구나

taekim34 1달전 [-]

ㅋㅋㅋㅋ 다들 왜 이리 재미 있으십니까

aliveornot 1달전 [-]

원리가 말은 되는데 신기하네요. 왜 성능이 내려가지 않고 올라갔을까요?

taekim34 1달전 [-]

제 생각에는 사람으로 치면 어려운 문제를 풀 때 '생각을 환기' 시킨 후, 다시 처음부터 생각해보면 문제가 풀릴 때가 있는 것과 비슷한게 아닐까? 싶습니다. 제 개인적인 생각이에요 ㅋ

somang04 1달전 [-]

궁금한게 저걸 활용하면 일반적인 학습에서도 유의미한 결과가 나올까요?? 두근두근..

taekim34 1달전 [-]

저도 한번 해보고 싶긴 합니다. ^^
예전에 똑같은 프롬프트를 (무의미하지만) 2번 반복해서 넣으면 더 결과가 잘 나온다는 연구결과도 있었거든요. 잔소리 한번 더 하는 느낌이랄까.. aliverornot 님 글에 댓글로 달았지만, 이건 생각을 환기시키는 역할을 하는 것 같아요. 수학자들이 어려운 문제에 부딪쳤을 때 잠깐 펜을 놓고 산책 다니는 것과 비슷한 것 같기도 하고.. ㅋ