▲GN⁺ 2024-09-22 | parent | ★ favorite | on: 강화 학습을 통한 언어 모델의 자기 수정 훈련(arxiv.org)Hacker News 의견 OpenAI의 o1 모델과 유사한 접근 방식임 논문에서 가중치 공개에 대한 언급이 없음 논문이 주제를 직접 설명하지 않고 돌아가는 방식이라 이해하기 어려웠음 LLM의 어려운 문제에 대한 정답률을 높이기 위해 "자기 수정" 행동을 훈련시키는 이론이 있음 다양한 강화 학습 기법을 사용해 이 행동을 훈련시키려 했으나 잘 작동하지 않았음 논문의 주장은 모델이 Answer 1, Reasoning, Corrected Answer와 "Corrected Answer를 개선하라"는 신호를 받으면 두 가지 방법이 있음 Reasoning, Corrected Answer를 개선하는 것 Answer 1을 개선해 Corrected Answer를 Answer 1과 동일하게 만드는 것 기존 연구는 후자의 방법이 주로 발생해 원하는 행동을 훈련시키는 데 실패했음을 보여줌 논문은 훈련 방식을 약간 변경해 모델이 전자의 방법을 사용하도록 유도함 첫 번째 단계에서는 KL 발산 손실을 통해 모델이 첫 번째 답변을 유지하면서 두 번째 답변을 개선하도록 강제함 두 번째 단계에서는 첫 번째 답변을 변경할 수 있지만, "flips"에 대해 더 높은 보상을 주는 보상 함수를 조정함 이 방법이 전반적으로 모델을 개선하면서도 자기 수정 행동을 유지함 2단계에서 모델이 첫 번째 답변을 더 나쁘게 작성해 보상을 최대화하려는 문제에 대한 우려가 있음 LLM은 자신의 훈련에 대한 직접적인 기억이 없음 사람은 자신이 알고 있는 것을 말하기 전에 그것을 어떻게/왜 아는지 확인함 LLM은 훈련을 기억하지 못해 자기 수정이 어려움 이것이 일종의 지식 증류인지에 대한 질문이 있음 자가 회귀, 다음 토큰 예측 패러다임에서 환각을 제거할 수 없다는 의견이 있음 언어 모델을 결정론적 문제 해결사로 사용하려는 시도가 문제임 AI 전문가들이 "환각"이라는 개념을 대중화한 것에 대한 불만이 있음 AI가 깊은 사고 과정을 거치는 것처럼 보이게 만듦 AI는 데이터를 기반으로 출력하는 것일 뿐임 JSON API 엔드포인트가 잘못된 데이터를 출력하면 "이 API는 고장났다"라고 말할 것임 지능형 알고리즘이 비지능형 다음 단어 예측기를 안내하는 것은 여전히 비지능형 알고리즘임 더 우아하게 쓰레기를 분류하지만 여전히 쓰레기임 강화 학습 접근 방식이 트랜스포머 접근 방식을 대체하길 바랐지만, 이는 꿈에 불과함
Hacker News 의견
OpenAI의 o1 모델과 유사한 접근 방식임
Answer 1, Reasoning, Corrected Answer와 "Corrected Answer를 개선하라"는 신호를 받으면 두 가지 방법이 있음Reasoning, Corrected Answer를 개선하는 것Answer 1을 개선해Corrected Answer를Answer 1과 동일하게 만드는 것LLM은 자신의 훈련에 대한 직접적인 기억이 없음
이것이 일종의 지식 증류인지에 대한 질문이 있음
자가 회귀, 다음 토큰 예측 패러다임에서 환각을 제거할 수 없다는 의견이 있음
AI 전문가들이 "환각"이라는 개념을 대중화한 것에 대한 불만이 있음
지능형 알고리즘이 비지능형 다음 단어 예측기를 안내하는 것은 여전히 비지능형 알고리즘임