머신 언러닝은 원하지 않는 데이터를 훈련된 모델에서 제거하는 것을 의미하며, 모델을 처음부터 재학습할 필요 없이 모델을 편집하려는 관심이 증가하고 있음
예를 들어 개인정보, 오래된 지식, 저작권이 있는 자료, 유해/위험한 콘텐츠, 위험한 기능, 거짓정보 등을 제거하는 것이 해당됨
언러닝의 형태
정확한 언러닝(Exact unlearning)
언러닝된 모델과 재학습된 모델이 분포적으로 동일하도록 요구함
학습 알고리즘에 모듈식 컴포넌트가 있어 학습 예제의 서로 다른 집합에 대응되는 것이 핵심임
차등정보보호(Differential Privacy)를 통한 "언러닝"
모델이 특정 데이터 포인트에 의존하지 않도록 만드는 것임
언러닝된 모델과 재학습된 모델 사이의 분포적 근접성을 요구함
알려진 예제 공간에서의 실증적 언러닝(Empirical unlearning with known example space)
언러닝 데이터가 정확히 알려져 있는 경우에 적용됨
모델 파인튜닝을 통해 언러닝하는 방식임
알려지지 않은 예제 공간에서의 실증적 언러닝(Empirical unlearning with unknown example space)
언러닝 데이터의 범위나 경계가 명확하지 않은 경우에 적용됨
개념, 사실, 지식 등을 언러닝하는 경우가 해당됨
언러닝을 요청하는 것(Just ask for unlearning)
강력한 LLM에 언러닝을 직접적으로 요청하는 방식임
언러닝 평가
언러닝 평가는 매우 어려운 문제임. 특히 지표나 벤치마크의 부족이 심각함
언러닝 평가에서는 다음의 세가지 측면을 중점적으로 봐야함
효율성 : 재학습 대비 알고리즘이 얼마나 빠른지
모델 효용성 : 보존해야할 데이터나 직교 태스크에서의 성능 저하 여부
망각 품질 : 망각해야할 데이터가 실제로 얼마나 언러닝되었는지
TOFU와 WMDP 벤치마크가 최근 제안되어 언러닝 평가에 도움이 되고 있음
TOFU는 저자 개인정보 언러닝에 초점을 맞추고, WMDP는 바이오/사이버 보안 관련 위험한 지식 언러닝에 초점을 맞춤
인스턴스 기반이 아닌 지식 보유와 이해도에 기반한 높은 수준의 평가를 하고 있음
개인식별정보, 저작권, 유해성, 백도어 등 애플리케이션 중심의 언러닝 벤치마크가 필요해 보임
언러닝의 실제와 전망
언러닝의 어려움에는 스펙트럼이 존재함
빈도가 낮은 텍스트 언러닝이 가장 쉽고, 높은 빈도의 텍스트, 근본적인 사실 순으로 점점 어려워짐
지식이 더 근본적일수록 다른 지식들과의 연관성이 높아 언러닝 범위가 기하급수적으로 늘어나기 때문
초기에 학습된 예제일수록 이후 예제에 의해 "덮어쓰기" 되어 언러닝이 어려울 수 있음
반면 늦게 학습된 예제는 모델이 점진적/치명적으로 잊어버려 언러닝이 어려울 수 있음
저작권 보호
언러닝이 저작권 보호에 유망해 보이지만 현재로서는 법적 지형이 불분명함
공정 이용 법리에 따라 저작권이 있는 콘텐츠 사용이 공정 이용에 해당된다면 언러닝이 불필요할 수 있음
검색 기반 AI 시스템
언러닝 요청을 받을 수 있는 콘텐츠를 사전학습 말뭉치에서 제거하고 외부 데이터베이스에 저장하는 방식
언러닝 요청이 들어오면 DB에서 해당 데이터를 삭제하면 됨
하지만 중복제거, 인용/변형 처리, 데이터 추출 공격 등의 문제가 있음
AI 안전성
언러닝은 모델의 위험한 지식, 행동, 능력 등을 제거하는데 활용 가능함
하지만 사후 위험 완화 및 방어 메커니즘 중 하나로 보아야 하며, 정렬 파인튜닝이나 콘텐츠 필터링 등 다른 도구와 trade-off가 있음을 인지해야 함
GN⁺의 의견
머신 언러닝은 아직 연구 초기 단계이며, 특히 거대 언어 모델에서는 많은 어려움이 있어 보임. 정확한 언러닝이 가능한 특수한 경우를 제외하면 대부분 실증적이고 경험적인 방법에 의존하고 있는 상황임.
언러닝의 평가 문제가 가장 큰 걸림돌로 보임. 언러닝 정의와 기준이 애매모호하고 애플리케이션마다 다른 상황에서 제대로된 벤치마크와 평가 지표 없이는 발전이 어려울 것임. 최근 TOFU, WMDP 등의 애플리케이션 중심 벤치마크가 나오고 있어 고무적이긴 함.
저작권 문제에 대해서는 언러닝 외에 경제적 해법도 고려해볼만 함. 정기적 재학습을 통한 정확한 언러닝 서비스를 제공하고, 그 사이에 발생하는 저작권 침해에 대해서는 모델 소유자가 면책하는 식으로 OpenAI가 하고 있음.
검색 기반 시스템은 많은 장점이 있지만 세부적으로 들어가면 생각보다 쉽지 않아 보임. 중복 제거, 저작권 식별, 데이터 추출 공격 방어 등 해결해야할 과제가 많음. LLM의 인컨텍스트 학습 능력이 높아지고 있어 retrieval만으로도 많은 것이 가능해질 것으로 보이나, 파인튜닝을 완전히 대체하긴 어려울 것 같음.
AI 안전성 관점에서 언러닝은 꽤 흥미로운 연구 분야임. 하지만 만능 해결책은 아니고 정렬, 필터링 등 다른 방어 기법들과 함께 사용되어야 할 것임. 모델이 자율성을 가지게 되면서 정책/규제 관점에서도 관심이 높아질 것으로 보임.