요즘 작품 이미지의 LLM 학습 방해 방법은?

(lobste.rs)

1P by GN⁺ 6시간전 | ★ favorite | 댓글 1개

한 사용자는 아내가 자신의 작품 이미지가 LLM 학습에 쓰이는 것을 원치 않아 온라인 공개를 망설이고 있다고 밝힘
질문의 핵심은 이미지를 사전에 처리해 LLM 학습을 방해하는 라이브러리나 방법이 현재 실용적인지임
사용자는 아내를 위한 맞춤형 웹사이트를 직접 만들 수 있는 수준의 도구가 있는지 궁금해함
본인은 프론트엔드 경험이 많지 않지만, 정적 사이트 생성기로 간단한 사이트는 만들 수 있음
과거 밴드 웹사이트 제작에 Eleventy를 사용한 경험이 있어, 비슷한 방식의 정적 사이트 구축을 고려 중임

질문의 맥락

아내는 자신의 작품 이미지를 온라인에 올리고 싶어 하지 않음
- 이유는 해당 이미지가 LLM 학습에 사용되는 것을 원치 않기 때문임
사용자는 작품 이미지를 미리 처리해 LLM 학습을 어렵게 만드는 방법이 있는지 찾고 있음

원하는 해결 방식

아내를 위한 맞춤형 웹사이트를 직접 만드는 방안을 염두에 두고 있음
필요한 조건은 작품 이미지를 처리해 LLM 학습을 방해할 수 있는 라이브러리나 방법이 실제로 존재하는지임
본인의 기술적 조건은 다음과 같음
- 프론트엔드 경험은 많지 않음
- 정적 사이트 생성기로 간단한 사이트는 만들 수 있음
- 이전에 Eleventy로 밴드 웹사이트를 만든 경험이 있음

GN⁺ 6시간전 [-]

Lobste.rs 의견들

업데이트: cara를 살펴보면 좋겠음
제 아티스트 친구가 작품을 거기에 올리고 있고 만족하는 것 같음
아티스트 우선을 내세우고 공개적으로 반 AI 성향이며, 이미지가 AI 학습에 쓰이지 않도록 막는 Glaze 연동도 있는 듯함
그리고 말하려던 건 LLM이 아니라 확산 모델일 가능성이 큼. LLM은 텍스트를 다루니 검색할 때 도움이 될 수 있음
Nightshade는 기억나지만, 빠르게 확인해 보니 2023/24년쯤 나온 것으로 보이고 저장소나 유지보수 흔적은 찾지 못했음
오염시키거나, LLM이 접근할 수 있는 예술 작품을 숨기는 방식의 문제는 효과가 어느 정도인지 알 수 없고, 알 수도 없다는 데 있음. 결국 전부 블랙박스로 들어가기 때문임
작품이 LLM에 수집되길 원하지 않는다면 선택지는 몇 가지 있고, 각각 장단점이 있음
1. 온라인에 올리지 않기. 아주 간단하지만, 다른 누군가도 온라인에 올리지 않는 경우에만 통함. 책이라면 스캔처럼 AI 회사가 다른 경로로 확보할 수도 있음
2. 회원가입과 로그인 뒤에만 온라인으로 공개하기. 관심 있는 사람은 접근할 수 있고, 일반적인 LLM은 접근하지 못함. 물론 누군가 로그인 장벽 없이 다시 올리지 않는다는 전제가 필요함
3. 강한 크롤러 방어 뒤에 올리기. 제 도구라 민망하지만 iocaine 같은 것을 사이트 앞단에 두면 많은 크롤러를 막을 수 있음. 전부는 아니지만 학습에 들어갈 가능성을 크게 낮출 만큼은 막고, 정상 방문자에게도 장벽이 크지 않음
  또 중요한 점은 학습 데이터에서 빠지고 싶다면 검색엔진 비노출도 아마 필요하다는 것임. 상업 검색엔진은 색인한 자료로 학습하므로 Google 검색에서 찾을 수 있다면 같은 자료가 Gemini에도 들어갔을 가능성이 큼
  결국 LLM 학습 없이 포트폴리오 사이트를 만들고 싶다면 어렵다. 단지 작품을 온라인에 올리고 싶은 정도라면 로그인 장벽이나 강한 크롤러 방어가 학습 가능성을 상당히 줄여 줌. 안타깝게도 0은 될 수 없고, 작품을 숨기거나 독성화한다고 확신할 수 있는 마법 같은 도구는 없음
아내분의 직감이 맞는 것 같음. 적어도 공개적으로는 온라인에 올리지 않는 것이 답에 가까움
- 싫지만, 인간의 창작 표현 전반이 대체로 이런 상황인 듯함
  저품질 생성물 기계의 연료가 되길 원하지 않는다면 공개적으로 공유할 수 없음
이런 말을 하게 될 줄 몰랐지만 더 강한 DRM이 필요해 보임. 모델 안까지 출처 추적이 가능한 수준이어야 하는데, 그런 것이 존재할 수 있는지도 불분명함
그 외에는 아내분 말이 맞는 것 같고, LLM 난독화가 오래 가는 완화책이 되지는 못할 듯함
- 좋아하는 해커 포럼에 와서 사람들이 DRM 찬성을 논하는 걸 보면 상황이 정말 심각하다는 뜻임
- 다행히 DRM은 작동하지 않고, 작동할 수도 없음
  설령 작동하더라도 이미 강한 쪽이 아닌 사람들의 권리를 보호하는 데 배포될 거라고 기대하면 안 됨
- 절대 아님. 더 강한 DRM은 필요하지 않음
  이를 달성하는 유일한 방법은, 그래도 결국 깨지겠지만, 검증 가능한 하드웨어의 암호화 엔클레이브를 쓰는 것뿐이고, 이는 사용자가 자기 기기를 통제할 수 있는 권한을 점점 더 빼앗는 방향임
- 그들이 저작권과 라이선스 등을 완전히 무시한다는 점을 보면, DRM을 아무리 붙여도 도움이 되지 않을 것 같음
  또 이 회사들이 매일 태우는 돈의 규모를 보면 DRM이 큰 장애물이 되지도 않을 듯함
  결과적으로 더 자금력 있는 모델에만 들어가게 만들 뿐일 수 있음
  DRM을 어떻게 정의하느냐에 따라서는 이런 난독화 자체도 DRM이라고 부를 수 있음
1년 반 전에 Glaze를 살펴봤고, 몇 가지 확인 질문을 하려고 연구실에도 연락했지만, 기억상 답을 받지 못했음
그 조사 과정에서 한계와 단서가 너무 많이 보였음. 지금 최신 수준이 어떤지는 모르지만, 일반적인 이미지 오염이 대부분의 모델에 통할 거라고 낙관하지 않음
일부 모델과 일부 조건에서는 Glaze가 작동했음

답변달기

요즘 작품 이미지의 LLM 학습 방해 방법은?

질문의 맥락

원하는 해결 방식

함께 보면 좋은 글 β

댓글과 토론

Lobste.rs 의견들