7P by davespark 16시간전 | ★ favorite | 댓글과 토론

모델 붕괴(Model Collapse)란?

  • AI가 AI가 생성한 데이터로 재학습할 때 발생하는 퇴화 현상
  • Nature 논문 기반으로 증명된 구조적 위험

겉보기 특징

  • 평균 성능·벤치마크 점수는 유지 또는 상승
  • 하지만 드문 케이스(아웃라이어·엣지 케이스)가 점점 사라짐
  • 출력이 점점 전형적·안전·평균적인 방향으로 수렴

핵심 메커니즘

  • 초기 → 인간 데이터 학습
  • 이후 → 웹에 AI 생성 콘텐츠가 급증 → 새 모델이 합성 데이터 학습
  • 각 세대가 이전 세대의 사각지대를 증폭·강화
  • 드문 이벤트/데이터가 점진적으로 무시 → 영구 소실

모달리티별 구체적 증상

  • 텍스트: 유창하지만 공허·반복적, 새로운 아이디어 대신 안전한 견해 선호 (em-dash 과다 사용 등)
  • 추천 시스템: 호기심·다양성 제거 → 피드 극도로 좁아짐
  • 이미지/비디오: 익숙한 스타일로만 수렴, 창의적 변형 거의 불가 (예: 항상 비슷한 미학 범위 내)
  • 공통점: “오작동”이 아니라 “너무 같아지는 것”으로 최적화됨

예방·대응 방안

  • 출처(Provenance) 추적·관리
    → 인간 생성 데이터 보존 및 우선 학습, AI 생성 데이터 명확 구분
  • 편의성보다 확신 선택
    → AI 데이터의 중심 편향 피하기, 실제 세계 복잡성 유지
  • 범위(Range) 가치화
    → 드문 사례를 위한 학습 공간 확보 (효율성 일부 희생 감수)
  • 드문 사례를 노이즈가 아닌 자산으로 재정의

결론 메시지

  • 재귀적 학습(AI → AI)은 장기적으로 재앙적
  • “AI 데이터로 AI를 학습시키지 말라”는 주장이 점점 더 강한 근거 확보
  • 학습 데이터 출처에 대한 무관심이 가장 큰 위험 요인

현재 대부분의 대형 모델들이 이미 상당량의 합성 데이터를 섭취한 상태이므로, 앞으로 출처 관리와 희소 데이터 보존이 핵심 과제가 될 전망.