GN⁺: LLM을 위한 잊혀진 지식을 회복하는 당혹스럽게 간단한 접근법
(arxiv.org)-
LLM의 진정한 '잊기' 여부
- 대형 언어 모델(LLM)은 방대한 텍스트 데이터로 훈련되어 뛰어난 텍스트 생성 능력을 보임
- 그러나 훈련 데이터의 민감한 특성으로 인해 원치 않는 행동을 학습할 수 있음
- 기계 '잊기'는 이러한 문제를 해결하기 위한 방법으로, 모델의 유용성을 최대한 유지하면서 특정 지식을 제거하는 것을 목표로 함
-
문제점과 연구 내용
- 현재의 '잊기' 방법이 실제로 지식을 잊게 하는지, 아니면 단순히 숨기는지에 대한 연구가 부족함
- 본 연구는 양자화를 적용하면 '잊혀진' 정보가 복구될 수 있음을 밝힘
- 다양한 양자화 기법을 사용하여 여러 정밀도 수준에서 실험을 수행함
-
실험 결과
- 유용성 제약이 있는 '잊기' 방법의 경우, 모델은 전체 정밀도에서 의도된 잊혀진 지식의 평균 21%를 유지함
- 4비트 양자화 후에는 이 비율이 83%로 증가함
-
제안된 전략
- 이러한 현상을 설명하기 위한 이론적 설명을 제공함
- 복잡한 문제를 완화하기 위한 양자화에 강인한 '잊기' 전략을 제안함
-
연구의 중요성
- LLM의 '잊기' 방법의 효과를 평가하고 개선하는 데 중요한 기여를 함
- 양자화가 '잊기'에 미치는 영향을 이해하는 데 도움을 줌
Hacker News 의견
- 모델 양자화가 "잊기" 방법을 무효화한다는 연구 결과가 있음. "잊기" 방법은 모델이 특정 사실을 잊도록 가중치를 업데이트하는 것임. 이러한 방법은 주로 저작권 문제를 해결하기 위해 사용됨.
- 양자화가 "잊기"를 무효화하는 것은 정보 이론적으로 모델 가중치에 여전히 지식이 남아있다는 것을 의미함.
- AI 열풍을 10-15년 전의 3D 프린터 열풍과 비교하며, AI도 비슷한 운명을 맞이할 것이라고 예상함.
- 32비트 모델에서 지식을 제거했지만, 4비트로 압축하면 지식이 다시 나타나는 것이 정보 이론적으로 예상 밖임.
- "잊기"를 위해서는 모델 유용성을 해치지 않으면서 작은 학습률과 정규화를 사용하는 것이 일반적임. 이로 인해 목표 LLM과 "잊기"된 LLM의 가중치가 매우 가까움.
- 기본 훈련 중에 원치 않는 학습을 방지하거나, 기본 모델의 "잊기"가 양자화에 민감해야 함.
- 양자화된 LLM을 사용해도 모델이 덜 검열된다는 것을 발견하지 못했음.
- "잊기"된 행동을 강화하는 데는 abliteration 기법이 더 강력함.
- "잊기"는 사실 잠재적 "학습 공간"에서 샘플링 확률을 줄이는 것이며, 양자화는 이 샘플링의 효과를 감소시킴.
- "잊기"는 LLM이 원치 않는 지식을 억제하는 것을 배우는 것이며, 양자화는 이 억제를 깨뜨리는 것임.
- 모델 "잊기"에 대해 처음 알게 되었으며, 연합 학습이 모델 "잊기"를 방지하는 방법에 대한 답변을 기대함.