LLM을 위한 잊혀진 지식을 회복하는 당혹스럽게 간단한

▲

GN⁺ 2024-11-05 | parent | ★ favorite | on: LLM을 위한 잊혀진 지식을 회복하는 당혹스럽게 간단한 접근법(arxiv.org)

Hacker News 의견

모델 양자화가 "잊기" 방법을 무효화한다는 연구 결과가 있음. "잊기" 방법은 모델이 특정 사실을 잊도록 가중치를 업데이트하는 것임. 이러한 방법은 주로 저작권 문제를 해결하기 위해 사용됨.
- 양자화가 "잊기"를 무효화하는 것은 정보 이론적으로 모델 가중치에 여전히 지식이 남아있다는 것을 의미함.
- AI 열풍을 10-15년 전의 3D 프린터 열풍과 비교하며, AI도 비슷한 운명을 맞이할 것이라고 예상함.
- 32비트 모델에서 지식을 제거했지만, 4비트로 압축하면 지식이 다시 나타나는 것이 정보 이론적으로 예상 밖임.
- "잊기"를 위해서는 모델 유용성을 해치지 않으면서 작은 학습률과 정규화를 사용하는 것이 일반적임. 이로 인해 목표 LLM과 "잊기"된 LLM의 가중치가 매우 가까움.
- 기본 훈련 중에 원치 않는 학습을 방지하거나, 기본 모델의 "잊기"가 양자화에 민감해야 함.
- 양자화된 LLM을 사용해도 모델이 덜 검열된다는 것을 발견하지 못했음.
- "잊기"된 행동을 강화하는 데는 abliteration 기법이 더 강력함.
- "잊기"는 사실 잠재적 "학습 공간"에서 샘플링 확률을 줄이는 것이며, 양자화는 이 샘플링의 효과를 감소시킴.
- "잊기"는 LLM이 원치 않는 지식을 억제하는 것을 배우는 것이며, 양자화는 이 억제를 깨뜨리는 것임.
- 모델 "잊기"에 대해 처음 알게 되었으며, 연합 학습이 모델 "잊기"를 방지하는 방법에 대한 답변을 기대함.