# 강화 학습을 통한 언어 모델의 자기 수정 훈련

> Clean Markdown view of GeekNews topic #16876. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=16876](https://news.hada.io/topic?id=16876)
- GeekNews Markdown: [https://news.hada.io/topic/16876.md](https://news.hada.io/topic/16876.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-09-22T09:58:51+09:00
- Updated: 2024-09-22T09:58:51+09:00
- Original source: [arxiv.org](https://arxiv.org/abs/2409.12917)
- Points: 2
- Comments: 1

## Topic Body

### 언어 모델의 자기 수정 훈련을 위한 강화 학습

- **자기 수정의 필요성**
  - 대형 언어 모델(LLM)의 자기 수정 능력은 매우 바람직하지만, 현대 LLM에서는 효과적이지 않음
  - 기존의 자기 수정 훈련 방법은 여러 모델을 필요로 하거나 더 능력 있는 모델 또는 다른 형태의 감독을 필요로 함

- **SCoRe 접근법**
  - SCoRe는 다중 턴 온라인 강화 학습(RL) 접근법으로, 완전히 자가 생성된 데이터를 사용하여 LLM의 자기 수정 능력을 크게 향상시킴
  - SCoRe를 구축하기 위해, 오프라인 모델 생성 수정 추적에 대한 감독된 미세 조정(SFT) 변형이 자기 수정 행동을 주입하는 데 충분하지 않음을 보여줌
  - SFT를 통한 훈련은 훈련 데이터와 모델의 자체 응답 간의 분포 불일치로 인해 고통받거나, 특정 수정 행동 모드만을 선호하여 테스트 시 효과적이지 않음

- **SCoRe의 해결책**
  - 모델의 자체 생성 수정 추적 분포 하에서 훈련하고, 적절한 정규화를 사용하여 테스트 시 효과적인 자기 수정 전략을 학습하도록 학습 과정을 조정함
  - 첫 번째 RL 단계를 실행하여 정책 초기화를 생성하고, 훈련 중 자기 수정을 증폭시키기 위해 보상 보너스를 사용함

- **성능 결과**
  - Gemini 1.0 Pro 및 1.5 Flash 모델에 적용했을 때, SCoRe는 MATH 및 HumanEval 벤치마크에서 각각 15.6% 및 9.1%의 자기 수정 성능 향상을 달성함

### GN⁺의 정리

- 이 논문은 대형 언어 모델의 자기 수정 능력을 강화 학습을 통해 크게 향상시키는 방법을 제안함
- SCoRe 접근법은 자가 생성된 데이터를 사용하여 모델의 분포 불일치 문제를 해결하고, 테스트 시 효과적인 수정 전략을 학습하도록 함
- 이 연구는 특히 Gemini 모델에서 뛰어난 성능 향상을 보여줌
- 자기 수정 능력은 언어 모델의 신뢰성과 정확성을 높이는 데 중요한 요소임
- 유사한 기능을 가진 프로젝트로는 OpenAI의 GPT 시리즈가 있음

## Comments


### Comment 29100

- Author: neo
- Created: 2024-09-22T09:58:51+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=41600179) 
- OpenAI의 o1 모델과 유사한 접근 방식임
  - 논문에서 가중치 공개에 대한 언급이 없음
  - 논문이 주제를 직접 설명하지 않고 돌아가는 방식이라 이해하기 어려웠음
  - LLM의 어려운 문제에 대한 정답률을 높이기 위해 "자기 수정" 행동을 훈련시키는 이론이 있음
  - 다양한 강화 학습 기법을 사용해 이 행동을 훈련시키려 했으나 잘 작동하지 않았음
  - 논문의 주장은 모델이 `Answer 1, Reasoning, Corrected Answer`와 "Corrected Answer를 개선하라"는 신호를 받으면 두 가지 방법이 있음
    - `Reasoning, Corrected Answer`를 개선하는 것
    - `Answer 1`을 개선해 `Corrected Answer`를 `Answer 1`과 동일하게 만드는 것
  - 기존 연구는 후자의 방법이 주로 발생해 원하는 행동을 훈련시키는 데 실패했음을 보여줌
  - 논문은 훈련 방식을 약간 변경해 모델이 전자의 방법을 사용하도록 유도함
  - 첫 번째 단계에서는 KL 발산 손실을 통해 모델이 첫 번째 답변을 유지하면서 두 번째 답변을 개선하도록 강제함
  - 두 번째 단계에서는 첫 번째 답변을 변경할 수 있지만, "flips"에 대해 더 높은 보상을 주는 보상 함수를 조정함
  - 이 방법이 전반적으로 모델을 개선하면서도 자기 수정 행동을 유지함
  - 2단계에서 모델이 첫 번째 답변을 더 나쁘게 작성해 보상을 최대화하려는 문제에 대한 우려가 있음

- LLM은 자신의 훈련에 대한 직접적인 기억이 없음
  - 사람은 자신이 알고 있는 것을 말하기 전에 그것을 어떻게/왜 아는지 확인함
  - LLM은 훈련을 기억하지 못해 자기 수정이 어려움

- 이것이 일종의 지식 증류인지에 대한 질문이 있음

- 자가 회귀, 다음 토큰 예측 패러다임에서 환각을 제거할 수 없다는 의견이 있음
  - 언어 모델을 결정론적 문제 해결사로 사용하려는 시도가 문제임

- AI 전문가들이 "환각"이라는 개념을 대중화한 것에 대한 불만이 있음
  - AI가 깊은 사고 과정을 거치는 것처럼 보이게 만듦
  - AI는 데이터를 기반으로 출력하는 것일 뿐임
  - JSON API 엔드포인트가 잘못된 데이터를 출력하면 "이 API는 고장났다"라고 말할 것임

- 지능형 알고리즘이 비지능형 다음 단어 예측기를 안내하는 것은 여전히 비지능형 알고리즘임
  - 더 우아하게 쓰레기를 분류하지만 여전히 쓰레기임
  - 강화 학습 접근 방식이 트랜스포머 접근 방식을 대체하길 바랐지만, 이는 꿈에 불과함