GN⁺: 강화 학습을 통한 언어 모델의 자기 수정 훈련
(arxiv.org)언어 모델의 자기 수정 훈련을 위한 강화 학습
-
자기 수정의 필요성
- 대형 언어 모델(LLM)의 자기 수정 능력은 매우 바람직하지만, 현대 LLM에서는 효과적이지 않음
- 기존의 자기 수정 훈련 방법은 여러 모델을 필요로 하거나 더 능력 있는 모델 또는 다른 형태의 감독을 필요로 함
-
SCoRe 접근법
- SCoRe는 다중 턴 온라인 강화 학습(RL) 접근법으로, 완전히 자가 생성된 데이터를 사용하여 LLM의 자기 수정 능력을 크게 향상시킴
- SCoRe를 구축하기 위해, 오프라인 모델 생성 수정 추적에 대한 감독된 미세 조정(SFT) 변형이 자기 수정 행동을 주입하는 데 충분하지 않음을 보여줌
- SFT를 통한 훈련은 훈련 데이터와 모델의 자체 응답 간의 분포 불일치로 인해 고통받거나, 특정 수정 행동 모드만을 선호하여 테스트 시 효과적이지 않음
-
SCoRe의 해결책
- 모델의 자체 생성 수정 추적 분포 하에서 훈련하고, 적절한 정규화를 사용하여 테스트 시 효과적인 자기 수정 전략을 학습하도록 학습 과정을 조정함
- 첫 번째 RL 단계를 실행하여 정책 초기화를 생성하고, 훈련 중 자기 수정을 증폭시키기 위해 보상 보너스를 사용함
-
성능 결과
- Gemini 1.0 Pro 및 1.5 Flash 모델에 적용했을 때, SCoRe는 MATH 및 HumanEval 벤치마크에서 각각 15.6% 및 9.1%의 자기 수정 성능 향상을 달성함
GN⁺의 정리
- 이 논문은 대형 언어 모델의 자기 수정 능력을 강화 학습을 통해 크게 향상시키는 방법을 제안함
- SCoRe 접근법은 자가 생성된 데이터를 사용하여 모델의 분포 불일치 문제를 해결하고, 테스트 시 효과적인 수정 전략을 학습하도록 함
- 이 연구는 특히 Gemini 모델에서 뛰어난 성능 향상을 보여줌
- 자기 수정 능력은 언어 모델의 신뢰성과 정확성을 높이는 데 중요한 요소임
- 유사한 기능을 가진 프로젝트로는 OpenAI의 GPT 시리즈가 있음
Hacker News 의견
-
OpenAI의 o1 모델과 유사한 접근 방식임
- 논문에서 가중치 공개에 대한 언급이 없음
- 논문이 주제를 직접 설명하지 않고 돌아가는 방식이라 이해하기 어려웠음
- LLM의 어려운 문제에 대한 정답률을 높이기 위해 "자기 수정" 행동을 훈련시키는 이론이 있음
- 다양한 강화 학습 기법을 사용해 이 행동을 훈련시키려 했으나 잘 작동하지 않았음
- 논문의 주장은 모델이
Answer 1, Reasoning, Corrected Answer
와 "Corrected Answer를 개선하라"는 신호를 받으면 두 가지 방법이 있음-
Reasoning, Corrected Answer
를 개선하는 것 -
Answer 1
을 개선해Corrected Answer
를Answer 1
과 동일하게 만드는 것
-
- 기존 연구는 후자의 방법이 주로 발생해 원하는 행동을 훈련시키는 데 실패했음을 보여줌
- 논문은 훈련 방식을 약간 변경해 모델이 전자의 방법을 사용하도록 유도함
- 첫 번째 단계에서는 KL 발산 손실을 통해 모델이 첫 번째 답변을 유지하면서 두 번째 답변을 개선하도록 강제함
- 두 번째 단계에서는 첫 번째 답변을 변경할 수 있지만, "flips"에 대해 더 높은 보상을 주는 보상 함수를 조정함
- 이 방법이 전반적으로 모델을 개선하면서도 자기 수정 행동을 유지함
- 2단계에서 모델이 첫 번째 답변을 더 나쁘게 작성해 보상을 최대화하려는 문제에 대한 우려가 있음
-
LLM은 자신의 훈련에 대한 직접적인 기억이 없음
- 사람은 자신이 알고 있는 것을 말하기 전에 그것을 어떻게/왜 아는지 확인함
- LLM은 훈련을 기억하지 못해 자기 수정이 어려움
-
이것이 일종의 지식 증류인지에 대한 질문이 있음
-
자가 회귀, 다음 토큰 예측 패러다임에서 환각을 제거할 수 없다는 의견이 있음
- 언어 모델을 결정론적 문제 해결사로 사용하려는 시도가 문제임
-
AI 전문가들이 "환각"이라는 개념을 대중화한 것에 대한 불만이 있음
- AI가 깊은 사고 과정을 거치는 것처럼 보이게 만듦
- AI는 데이터를 기반으로 출력하는 것일 뿐임
- JSON API 엔드포인트가 잘못된 데이터를 출력하면 "이 API는 고장났다"라고 말할 것임
-
지능형 알고리즘이 비지능형 다음 단어 예측기를 안내하는 것은 여전히 비지능형 알고리즘임
- 더 우아하게 쓰레기를 분류하지만 여전히 쓰레기임
- 강화 학습 접근 방식이 트랜스포머 접근 방식을 대체하길 바랐지만, 이는 꿈에 불과함