요즘 작품 이미지의 LLM 학습 방해 방법은?
(lobste.rs)- 한 사용자는 아내가 자신의 작품 이미지가 LLM 학습에 쓰이는 것을 원치 않아 온라인 공개를 망설이고 있다고 밝힘
- 질문의 핵심은 이미지를 사전에 처리해 LLM 학습을 방해하는 라이브러리나 방법이 현재 실용적인지임
- 사용자는 아내를 위한 맞춤형 웹사이트를 직접 만들 수 있는 수준의 도구가 있는지 궁금해함
- 본인은 프론트엔드 경험이 많지 않지만, 정적 사이트 생성기로 간단한 사이트는 만들 수 있음
- 과거 밴드 웹사이트 제작에 Eleventy를 사용한 경험이 있어, 비슷한 방식의 정적 사이트 구축을 고려 중임
질문의 맥락
- 아내는 자신의 작품 이미지를 온라인에 올리고 싶어 하지 않음
- 이유는 해당 이미지가 LLM 학습에 사용되는 것을 원치 않기 때문임
- 사용자는 작품 이미지를 미리 처리해 LLM 학습을 어렵게 만드는 방법이 있는지 찾고 있음
원하는 해결 방식
- 아내를 위한 맞춤형 웹사이트를 직접 만드는 방안을 염두에 두고 있음
- 필요한 조건은 작품 이미지를 처리해 LLM 학습을 방해할 수 있는 라이브러리나 방법이 실제로 존재하는지임
- 본인의 기술적 조건은 다음과 같음
- 프론트엔드 경험은 많지 않음
- 정적 사이트 생성기로 간단한 사이트는 만들 수 있음
- 이전에 Eleventy로 밴드 웹사이트를 만든 경험이 있음
댓글과 토론
Lobste.rs 의견들
-
업데이트: cara를 살펴보면 좋겠음
제 아티스트 친구가 작품을 거기에 올리고 있고 만족하는 것 같음
아티스트 우선을 내세우고 공개적으로 반 AI 성향이며, 이미지가 AI 학습에 쓰이지 않도록 막는 Glaze 연동도 있는 듯함
그리고 말하려던 건 LLM이 아니라 확산 모델일 가능성이 큼. LLM은 텍스트를 다루니 검색할 때 도움이 될 수 있음
Nightshade는 기억나지만, 빠르게 확인해 보니 2023/24년쯤 나온 것으로 보이고 저장소나 유지보수 흔적은 찾지 못했음 -
오염시키거나, LLM이 접근할 수 있는 예술 작품을 숨기는 방식의 문제는 효과가 어느 정도인지 알 수 없고, 알 수도 없다는 데 있음. 결국 전부 블랙박스로 들어가기 때문임
작품이 LLM에 수집되길 원하지 않는다면 선택지는 몇 가지 있고, 각각 장단점이 있음- 온라인에 올리지 않기. 아주 간단하지만, 다른 누군가도 온라인에 올리지 않는 경우에만 통함. 책이라면 스캔처럼 AI 회사가 다른 경로로 확보할 수도 있음
- 회원가입과 로그인 뒤에만 온라인으로 공개하기. 관심 있는 사람은 접근할 수 있고, 일반적인 LLM은 접근하지 못함. 물론 누군가 로그인 장벽 없이 다시 올리지 않는다는 전제가 필요함
- 강한 크롤러 방어 뒤에 올리기. 제 도구라 민망하지만 iocaine 같은 것을 사이트 앞단에 두면 많은 크롤러를 막을 수 있음. 전부는 아니지만 학습에 들어갈 가능성을 크게 낮출 만큼은 막고, 정상 방문자에게도 장벽이 크지 않음
또 중요한 점은 학습 데이터에서 빠지고 싶다면 검색엔진 비노출도 아마 필요하다는 것임. 상업 검색엔진은 색인한 자료로 학습하므로 Google 검색에서 찾을 수 있다면 같은 자료가 Gemini에도 들어갔을 가능성이 큼
결국 LLM 학습 없이 포트폴리오 사이트를 만들고 싶다면 어렵다. 단지 작품을 온라인에 올리고 싶은 정도라면 로그인 장벽이나 강한 크롤러 방어가 학습 가능성을 상당히 줄여 줌. 안타깝게도 0은 될 수 없고, 작품을 숨기거나 독성화한다고 확신할 수 있는 마법 같은 도구는 없음
-
아내분의 직감이 맞는 것 같음. 적어도 공개적으로는 온라인에 올리지 않는 것이 답에 가까움
- 싫지만, 인간의 창작 표현 전반이 대체로 이런 상황인 듯함
저품질 생성물 기계의 연료가 되길 원하지 않는다면 공개적으로 공유할 수 없음
- 싫지만, 인간의 창작 표현 전반이 대체로 이런 상황인 듯함
-
이런 말을 하게 될 줄 몰랐지만 더 강한 DRM이 필요해 보임. 모델 안까지 출처 추적이 가능한 수준이어야 하는데, 그런 것이 존재할 수 있는지도 불분명함
그 외에는 아내분 말이 맞는 것 같고, LLM 난독화가 오래 가는 완화책이 되지는 못할 듯함- 좋아하는 해커 포럼에 와서 사람들이 DRM 찬성을 논하는 걸 보면 상황이 정말 심각하다는 뜻임
- 다행히 DRM은 작동하지 않고, 작동할 수도 없음
설령 작동하더라도 이미 강한 쪽이 아닌 사람들의 권리를 보호하는 데 배포될 거라고 기대하면 안 됨 - 절대 아님. 더 강한 DRM은 필요하지 않음
이를 달성하는 유일한 방법은, 그래도 결국 깨지겠지만, 검증 가능한 하드웨어의 암호화 엔클레이브를 쓰는 것뿐이고, 이는 사용자가 자기 기기를 통제할 수 있는 권한을 점점 더 빼앗는 방향임 - 그들이 저작권과 라이선스 등을 완전히 무시한다는 점을 보면, DRM을 아무리 붙여도 도움이 되지 않을 것 같음
또 이 회사들이 매일 태우는 돈의 규모를 보면 DRM이 큰 장애물이 되지도 않을 듯함
결과적으로 더 자금력 있는 모델에만 들어가게 만들 뿐일 수 있음
DRM을 어떻게 정의하느냐에 따라서는 이런 난독화 자체도 DRM이라고 부를 수 있음
-
1년 반 전에 Glaze를 살펴봤고, 몇 가지 확인 질문을 하려고 연구실에도 연락했지만, 기억상 답을 받지 못했음
그 조사 과정에서 한계와 단서가 너무 많이 보였음. 지금 최신 수준이 어떤지는 모르지만, 일반적인 이미지 오염이 대부분의 모델에 통할 거라고 낙관하지 않음
일부 모델과 일부 조건에서는 Glaze가 작동했음