17P by neo 4달전 | favorite | 댓글 2개
  • 머신 언러닝은 원하지 않는 데이터를 훈련된 모델에서 제거하는 것을 의미하며, 모델을 처음부터 재학습할 필요 없이 모델을 편집하려는 관심이 증가하고 있음
    • 예를 들어 개인정보, 오래된 지식, 저작권이 있는 자료, 유해/위험한 콘텐츠, 위험한 기능, 거짓정보 등을 제거하는 것이 해당됨

언러닝의 형태

  • 정확한 언러닝(Exact unlearning)
    • 언러닝된 모델과 재학습된 모델이 분포적으로 동일하도록 요구함
    • 학습 알고리즘에 모듈식 컴포넌트가 있어 학습 예제의 서로 다른 집합에 대응되는 것이 핵심임
  • 차등정보보호(Differential Privacy)를 통한 "언러닝"
    • 모델이 특정 데이터 포인트에 의존하지 않도록 만드는 것임
    • 언러닝된 모델과 재학습된 모델 사이의 분포적 근접성을 요구함
  • 알려진 예제 공간에서의 실증적 언러닝(Empirical unlearning with known example space)
    • 언러닝 데이터가 정확히 알려져 있는 경우에 적용됨
    • 모델 파인튜닝을 통해 언러닝하는 방식임
  • 알려지지 않은 예제 공간에서의 실증적 언러닝(Empirical unlearning with unknown example space)
    • 언러닝 데이터의 범위나 경계가 명확하지 않은 경우에 적용됨
    • 개념, 사실, 지식 등을 언러닝하는 경우가 해당됨
  • 언러닝을 요청하는 것(Just ask for unlearning)
    • 강력한 LLM에 언러닝을 직접적으로 요청하는 방식임

언러닝 평가

  • 언러닝 평가는 매우 어려운 문제임. 특히 지표나 벤치마크의 부족이 심각함
  • 언러닝 평가에서는 다음의 세가지 측면을 중점적으로 봐야함
    • 효율성 : 재학습 대비 알고리즘이 얼마나 빠른지
    • 모델 효용성 : 보존해야할 데이터나 직교 태스크에서의 성능 저하 여부
    • 망각 품질 : 망각해야할 데이터가 실제로 얼마나 언러닝되었는지
  • TOFU와 WMDP 벤치마크가 최근 제안되어 언러닝 평가에 도움이 되고 있음
    • TOFU는 저자 개인정보 언러닝에 초점을 맞추고, WMDP는 바이오/사이버 보안 관련 위험한 지식 언러닝에 초점을 맞춤
    • 인스턴스 기반이 아닌 지식 보유와 이해도에 기반한 높은 수준의 평가를 하고 있음
  • 개인식별정보, 저작권, 유해성, 백도어 등 애플리케이션 중심의 언러닝 벤치마크가 필요해 보임

언러닝의 실제와 전망

  • 언러닝의 어려움에는 스펙트럼이 존재함
    • 빈도가 낮은 텍스트 언러닝이 가장 쉽고, 높은 빈도의 텍스트, 근본적인 사실 순으로 점점 어려워짐
    • 지식이 더 근본적일수록 다른 지식들과의 연관성이 높아 언러닝 범위가 기하급수적으로 늘어나기 때문
    • 초기에 학습된 예제일수록 이후 예제에 의해 "덮어쓰기" 되어 언러닝이 어려울 수 있음
    • 반면 늦게 학습된 예제는 모델이 점진적/치명적으로 잊어버려 언러닝이 어려울 수 있음
  • 저작권 보호
    • 언러닝이 저작권 보호에 유망해 보이지만 현재로서는 법적 지형이 불분명함
    • 공정 이용 법리에 따라 저작권이 있는 콘텐츠 사용이 공정 이용에 해당된다면 언러닝이 불필요할 수 있음
  • 검색 기반 AI 시스템
    • 언러닝 요청을 받을 수 있는 콘텐츠를 사전학습 말뭉치에서 제거하고 외부 데이터베이스에 저장하는 방식
    • 언러닝 요청이 들어오면 DB에서 해당 데이터를 삭제하면 됨
    • 하지만 중복제거, 인용/변형 처리, 데이터 추출 공격 등의 문제가 있음
  • AI 안전성
    • 언러닝은 모델의 위험한 지식, 행동, 능력 등을 제거하는데 활용 가능함
    • 하지만 사후 위험 완화 및 방어 메커니즘 중 하나로 보아야 하며, 정렬 파인튜닝이나 콘텐츠 필터링 등 다른 도구와 trade-off가 있음을 인지해야 함

GN⁺의 의견

  • 머신 언러닝은 아직 연구 초기 단계이며, 특히 거대 언어 모델에서는 많은 어려움이 있어 보임. 정확한 언러닝이 가능한 특수한 경우를 제외하면 대부분 실증적이고 경험적인 방법에 의존하고 있는 상황임.
  • 언러닝의 평가 문제가 가장 큰 걸림돌로 보임. 언러닝 정의와 기준이 애매모호하고 애플리케이션마다 다른 상황에서 제대로된 벤치마크와 평가 지표 없이는 발전이 어려울 것임. 최근 TOFU, WMDP 등의 애플리케이션 중심 벤치마크가 나오고 있어 고무적이긴 함.
  • 저작권 문제에 대해서는 언러닝 외에 경제적 해법도 고려해볼만 함. 정기적 재학습을 통한 정확한 언러닝 서비스를 제공하고, 그 사이에 발생하는 저작권 침해에 대해서는 모델 소유자가 면책하는 식으로 OpenAI가 하고 있음.
  • 검색 기반 시스템은 많은 장점이 있지만 세부적으로 들어가면 생각보다 쉽지 않아 보임. 중복 제거, 저작권 식별, 데이터 추출 공격 방어 등 해결해야할 과제가 많음. LLM의 인컨텍스트 학습 능력이 높아지고 있어 retrieval만으로도 많은 것이 가능해질 것으로 보이나, 파인튜닝을 완전히 대체하긴 어려울 것 같음.
  • AI 안전성 관점에서 언러닝은 꽤 흥미로운 연구 분야임. 하지만 만능 해결책은 아니고 정렬, 필터링 등 다른 방어 기법들과 함께 사용되어야 할 것임. 모델이 자율성을 가지게 되면서 정책/규제 관점에서도 관심이 높아질 것으로 보임.
Hacker News 의견
  • 모델에서 특정 정보를 삭제하더라도 추론이나 프롬프팅으로 다시 학습될 수 있는 근본적인 문제가 있음
  • 금지된 정보 자체를 필터링하기보다는 최종 추론 레이어를 형성하는 가중치와 인센티브에 솔루션이 있을 수 있음
  • 현재의 "안전한" 모델들은 결과가 만족스럽지 않은 경우가 많은데, 이는 우리가 아직 진실한 모델을 원하지 않고, 추가 개발을 가능하게 하는 모델을 원하기 때문임
  • 모델이 외부의 무언가에 의해 생성되었다는 원칙을 인코딩하고 가중치를 부여하는 방법이 있을 수 있음
  • 저작권을 위반하는 데이터셋을 삭제하는 것이 법적으로 가장 받아들여질 수 있는 방법일 수 있음
  • 모든 콘텐츠를 수집하는 것이 아니라 명시적으로 모델 구축에 사용 가능한 것으로 표시된 콘텐츠만 수집하는 것은 어떨까?
  • 모델이 DP로 훈련되면 데이터가 너무 많이 뒤섞여 정확한 데이터를 반환할 수 없게 되거나, 반대로 DP 단계가 쓸모없어짐
  • 지식 삭제는 문제가 있는 작업임
  • 훈련, 미훈련, 재훈련된 AI의 "건전성"이 우려됨
  • 2014년에 정책 입안자들은 딥러닝이 데이터와 컴퓨팅의 거대한 혼합체가 될 것이라고 예측하지 못했음
  • "학습 해제"는 실제 목표가 아니며, 모델이 은유적으로 머리를 모래에 쳐박기를 원하는 것은 아님
  • 새로운 스타트업에는 ML 훈련 루프에 갈퀴를 든 폭도가 포함됨