# 2024년의 Machine Unlearning

> Clean Markdown view of GeekNews topic #14676. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=14676](https://news.hada.io/topic?id=14676)
- GeekNews Markdown: [https://news.hada.io/topic/14676.md](https://news.hada.io/topic/14676.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-05-06T21:35:14+09:00
- Updated: 2024-05-06T21:35:14+09:00
- Original source: [ai.stanford.edu](https://ai.stanford.edu/~kzliu/blog/unlearning)
- Points: 17
- Comments: 2

## Topic Body

- 머신 언러닝은 원하지 않는 데이터를 훈련된 모델에서 제거하는 것을 의미하며, 모델을 처음부터 재학습할 필요 없이 모델을 편집하려는 관심이 증가하고 있음
  - 예를 들어 개인정보, 오래된 지식, 저작권이 있는 자료, 유해/위험한 콘텐츠, 위험한 기능, 거짓정보 등을 제거하는 것이 해당됨

### 언러닝의 형태
- 정확한 언러닝(Exact unlearning)
  - 언러닝된 모델과 재학습된 모델이 분포적으로 동일하도록 요구함
  - 학습 알고리즘에 모듈식 컴포넌트가 있어 학습 예제의 서로 다른 집합에 대응되는 것이 핵심임
- 차등정보보호(Differential Privacy)를 통한 "언러닝"
  - 모델이 특정 데이터 포인트에 의존하지 않도록 만드는 것임
  - 언러닝된 모델과 재학습된 모델 사이의 분포적 근접성을 요구함
- 알려진 예제 공간에서의 실증적 언러닝(Empirical unlearning with known example space) 
  - 언러닝 데이터가 정확히 알려져 있는 경우에 적용됨
  - 모델 파인튜닝을 통해 언러닝하는 방식임
- 알려지지 않은 예제 공간에서의 실증적 언러닝(Empirical unlearning with unknown example space)
  - 언러닝 데이터의 범위나 경계가 명확하지 않은 경우에 적용됨
  - 개념, 사실, 지식 등을 언러닝하는 경우가 해당됨
- 언러닝을 요청하는 것(Just ask for unlearning)
  - 강력한 LLM에 언러닝을 직접적으로 요청하는 방식임

### 언러닝 평가
- 언러닝 평가는 매우 어려운 문제임. 특히 지표나 벤치마크의 부족이 심각함
- 언러닝 평가에서는 다음의 세가지 측면을 중점적으로 봐야함
  - 효율성 : 재학습 대비 알고리즘이 얼마나 빠른지
  - 모델 효용성 : 보존해야할 데이터나 직교 태스크에서의 성능 저하 여부  
  - 망각 품질 : 망각해야할 데이터가 실제로 얼마나 언러닝되었는지
- TOFU와 WMDP 벤치마크가 최근 제안되어 언러닝 평가에 도움이 되고 있음
  - TOFU는 저자 개인정보 언러닝에 초점을 맞추고, WMDP는 바이오/사이버 보안 관련 위험한 지식 언러닝에 초점을 맞춤
  - 인스턴스 기반이 아닌 지식 보유와 이해도에 기반한 높은 수준의 평가를 하고 있음
- 개인식별정보, 저작권, 유해성, 백도어 등 애플리케이션 중심의 언러닝 벤치마크가 필요해 보임

### 언러닝의 실제와 전망
- 언러닝의 어려움에는 스펙트럼이 존재함
  - 빈도가 낮은 텍스트 언러닝이 가장 쉽고, 높은 빈도의 텍스트, 근본적인 사실 순으로 점점 어려워짐
  - 지식이 더 근본적일수록 다른 지식들과의 연관성이 높아 언러닝 범위가 기하급수적으로 늘어나기 때문
  - 초기에 학습된 예제일수록 이후 예제에 의해 "덮어쓰기" 되어 언러닝이 어려울 수 있음
  - 반면 늦게 학습된 예제는 모델이 점진적/치명적으로 잊어버려 언러닝이 어려울 수 있음
- 저작권 보호
  - 언러닝이 저작권 보호에 유망해 보이지만 현재로서는 법적 지형이 불분명함
  - 공정 이용 법리에 따라 저작권이 있는 콘텐츠 사용이 공정 이용에 해당된다면 언러닝이 불필요할 수 있음
- 검색 기반 AI 시스템  
  - 언러닝 요청을 받을 수 있는 콘텐츠를 사전학습 말뭉치에서 제거하고 외부 데이터베이스에 저장하는 방식
  - 언러닝 요청이 들어오면 DB에서 해당 데이터를 삭제하면 됨
  - 하지만 중복제거, 인용/변형 처리, 데이터 추출 공격 등의 문제가 있음
- AI 안전성
  - 언러닝은 모델의 위험한 지식, 행동, 능력 등을 제거하는데 활용 가능함
  - 하지만 사후 위험 완화 및 방어 메커니즘 중 하나로 보아야 하며, 정렬 파인튜닝이나 콘텐츠 필터링 등 다른 도구와 trade-off가 있음을 인지해야 함

### GN⁺의 의견
- 머신 언러닝은 아직 연구 초기 단계이며, 특히 거대 언어 모델에서는 많은 어려움이 있어 보임. 정확한 언러닝이 가능한 특수한 경우를 제외하면 대부분 실증적이고 경험적인 방법에 의존하고 있는 상황임. 
- 언러닝의 평가 문제가 가장 큰 걸림돌로 보임. 언러닝 정의와 기준이 애매모호하고 애플리케이션마다 다른 상황에서 제대로된 벤치마크와 평가 지표 없이는 발전이 어려울 것임. 최근 TOFU, WMDP 등의 애플리케이션 중심 벤치마크가 나오고 있어 고무적이긴 함.
- 저작권 문제에 대해서는 언러닝 외에 경제적 해법도 고려해볼만 함. 정기적 재학습을 통한 정확한 언러닝 서비스를 제공하고, 그 사이에 발생하는 저작권 침해에 대해서는 모델 소유자가 면책하는 식으로 OpenAI가 하고 있음. 
- 검색 기반 시스템은 많은 장점이 있지만 세부적으로 들어가면 생각보다 쉽지 않아 보임. 중복 제거, 저작권 식별, 데이터 추출 공격 방어 등 해결해야할 과제가 많음. LLM의 인컨텍스트 학습 능력이 높아지고 있어 retrieval만으로도 많은 것이 가능해질 것으로 보이나, 파인튜닝을 완전히 대체하긴 어려울 것 같음.
- AI 안전성 관점에서 언러닝은 꽤 흥미로운 연구 분야임. 하지만 만능 해결책은 아니고 정렬, 필터링 등 다른 방어 기법들과 함께 사용되어야 할 것임. 모델이 자율성을 가지게 되면서 정책/규제 관점에서도 관심이 높아질 것으로 보임.

## Comments


### Comment 24999

- Author: xguru
- Created: 2024-05-07T09:04:37+09:00
- Points: 1

[구글 Machine Unlearning Challenge](https://news.hada.io/topic?id=9742)

### Comment 24996

- Author: neo
- Created: 2024-05-06T21:35:14+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=40264352) 
- 모델에서 특정 정보를 삭제하더라도 추론이나 프롬프팅으로 다시 학습될 수 있는 근본적인 문제가 있음
- 금지된 정보 자체를 필터링하기보다는 최종 추론 레이어를 형성하는 가중치와 인센티브에 솔루션이 있을 수 있음
- 현재의 "안전한" 모델들은 결과가 만족스럽지 않은 경우가 많은데, 이는 우리가 아직 진실한 모델을 원하지 않고, 추가 개발을 가능하게 하는 모델을 원하기 때문임
- 모델이 외부의 무언가에 의해 생성되었다는 원칙을 인코딩하고 가중치를 부여하는 방법이 있을 수 있음
- 저작권을 위반하는 데이터셋을 삭제하는 것이 법적으로 가장 받아들여질 수 있는 방법일 수 있음
- 모든 콘텐츠를 수집하는 것이 아니라 명시적으로 모델 구축에 사용 가능한 것으로 표시된 콘텐츠만 수집하는 것은 어떨까?
- 모델이 DP로 훈련되면 데이터가 너무 많이 뒤섞여 정확한 데이터를 반환할 수 없게 되거나, 반대로 DP 단계가 쓸모없어짐
- 지식 삭제는 문제가 있는 작업임
- 훈련, 미훈련, 재훈련된 AI의 "건전성"이 우려됨
- 2014년에 정책 입안자들은 딥러닝이 데이터와 컴퓨팅의 거대한 혼합체가 될 것이라고 예측하지 못했음
- "학습 해제"는 실제 목표가 아니며, 모델이 은유적으로 머리를 모래에 쳐박기를 원하는 것은 아님
- 새로운 스타트업에는 ML 훈련 루프에 갈퀴를 든 폭도가 포함됨