강화 학습을 통한 언어 모델의 자기 수정 훈련

▲

GN⁺ 2024-09-22 | parent | ★ favorite | on: 강화 학습을 통한 언어 모델의 자기 수정 훈련(arxiv.org)

Hacker News 의견

OpenAI의 o1 모델과 유사한 접근 방식임
- 논문에서 가중치 공개에 대한 언급이 없음
- 논문이 주제를 직접 설명하지 않고 돌아가는 방식이라 이해하기 어려웠음
- LLM의 어려운 문제에 대한 정답률을 높이기 위해 "자기 수정" 행동을 훈련시키는 이론이 있음
- 다양한 강화 학습 기법을 사용해 이 행동을 훈련시키려 했으나 잘 작동하지 않았음
- 논문의 주장은 모델이 Answer 1, Reasoning, Corrected Answer와 "Corrected Answer를 개선하라"는 신호를 받으면 두 가지 방법이 있음
  - Reasoning, Corrected Answer를 개선하는 것
  - Answer 1을 개선해 Corrected Answer를 Answer 1과 동일하게 만드는 것
- 기존 연구는 후자의 방법이 주로 발생해 원하는 행동을 훈련시키는 데 실패했음을 보여줌
- 논문은 훈련 방식을 약간 변경해 모델이 전자의 방법을 사용하도록 유도함
- 첫 번째 단계에서는 KL 발산 손실을 통해 모델이 첫 번째 답변을 유지하면서 두 번째 답변을 개선하도록 강제함
- 두 번째 단계에서는 첫 번째 답변을 변경할 수 있지만, "flips"에 대해 더 높은 보상을 주는 보상 함수를 조정함
- 이 방법이 전반적으로 모델을 개선하면서도 자기 수정 행동을 유지함
- 2단계에서 모델이 첫 번째 답변을 더 나쁘게 작성해 보상을 최대화하려는 문제에 대한 우려가 있음
LLM은 자신의 훈련에 대한 직접적인 기억이 없음
- 사람은 자신이 알고 있는 것을 말하기 전에 그것을 어떻게/왜 아는지 확인함
- LLM은 훈련을 기억하지 못해 자기 수정이 어려움
이것이 일종의 지식 증류인지에 대한 질문이 있음
자가 회귀, 다음 토큰 예측 패러다임에서 환각을 제거할 수 없다는 의견이 있음
- 언어 모델을 결정론적 문제 해결사로 사용하려는 시도가 문제임
AI 전문가들이 "환각"이라는 개념을 대중화한 것에 대한 불만이 있음
- AI가 깊은 사고 과정을 거치는 것처럼 보이게 만듦
- AI는 데이터를 기반으로 출력하는 것일 뿐임
- JSON API 엔드포인트가 잘못된 데이터를 출력하면 "이 API는 고장났다"라고 말할 것임
지능형 알고리즘이 비지능형 다음 단어 예측기를 안내하는 것은 여전히 비지능형 알고리즘임
- 더 우아하게 쓰레기를 분류하지만 여전히 쓰레기임
- 강화 학습 접근 방식이 트랜스포머 접근 방식을 대체하길 바랐지만, 이는 꿈에 불과함