4P by finalbench 9시간전 | 댓글 4개

문제

AI 기본법이 2026년 1월 22일 시행되면서 AI 생성물에 워터마크 표시가 의무화됐습니다. 그런데 반대편 문제도 있습니다. 뉴스 기사, 블로그, 전문 콘텐츠를 AI가 학습 데이터로 가져가는 걸 어떻게 추적할 수 있을까요?

기존 워터마킹 기술의 대부분은 영어 기준으로 설계되어 있습니다. 한국어에는 형태소 단위의 교착어 특성이 있고, 유니코드 처리 방식도 다릅니다. 영어용 도구를 그대로 가져다 쓰면 한국어 텍스트에서 깨지거나, AI 전처리 과정(토크나이저, 정규화)에서 바로 소멸합니다.

만든 것

StealthMark는 한국어 텍스트 전용 비가시 워터마크 삽입/검출 도구입니다.

겉으로 보이는 텍스트는 원본과 100% 동일합니다. 사람이 읽을 때 어떤 차이도 느낄 수 없습니다. 하지만 내부에는 콘텐츠 고유 식별자가 다층으로 심어져 있어서, 나중에 해당 텍스트가 어디서 왔는지 역추적할 수 있습니다.

왜 만들었나요

뉴스 통신사 쪽에서 "우리 기사를 AI가 학습했다는 걸 기술적으로 입증할 수 있느냐"라는 질문을 받았습니다. 찾아보니 한국어에 특화된 텍스트 워터마킹 도구가 없더라구요. 이미지 워터마킹은 꽤 있는데 텍스트, 특히 한국어 텍스트는 사실상 전무했습니다.

핵심 특징

한국어 형태소 분석 기반: 한국어 형태소 분석기(Kiwi)를 활용해서 텍스트의 언어 구조를 이해한 위치에 삽입합니다. 무작위가 아니라 한국어 문법 구조에 맞는 자연스러운 지점을 선택합니다.

다층 방어: 단일 기법에 의존하지 않습니다. 서로 다른 유니코드 카테고리에 속하는 복수의 기법을 결합해서, 하나가 제거되면 다른 것이 살아남는 구조입니다. 공격자가 A를 지우면 B가 남고, B를 지우면 A가 남는 상호보완 설계입니다.

30종 공격 시뮬레이션: 유니코드 정규화(NFC/NFKC/NFD/NFKD), 특수문자 일괄 제거, 텍스트 요약, 패러프레이징, 역번역, ASCII 변환 등 30가지 공격 시나리오를 내장 테스트로 돌려볼 수 있습니다. 현재 30종 전체에서 검출에 성공합니다.

LLM 통과 후 검출: Groq API를 연동해서 실제 LLM(Llama, Gemma, Mistral 등 9개 모델)에 워터마크가 삽입된 텍스트를 넣고, 요약/패러프레이징/확장 처리 후에도 흔적이 남는지 테스트할 수 있습니다.

법적 증거 패키지: 삽입 시점의 SHA-256 해시와 타임스탬프를 포함한 증거 JSON을 생성합니다. 나중에 "이 텍스트에 우리 워터마크가 있었다"는 것을 제3자에게 증명하기 위한 용도입니다.

직접 해보실 수 있는 것

Hugging Face Space에서 가입 없이 바로 사용할 수 있습니다.

  1. 텍스트를 붙여넣고 "삽입" 버튼을 누르면 워터마크가 심어진 텍스트가 나옵니다
  2. 원본과 비교해서 육안 차이가 없는 걸 확인할 수 있습니다
  3. "30종 공격 테스트" 탭에서 다양한 공격 후에도 검출되는지 실시간으로 확인됩니다
  4. "LLM 검출" 탭에서 실제 AI 모델이 처리한 결과에서의 추적 여부를 테스트할 수 있습니다

한계와 TODO

워터마크는 결국 군비 경쟁입니다. 공격자가 의도적으로 모든 비가시 문자를 제거하고, 전문을 패러프레이징하면 신호 자체는 사라질 수 있습니다. 다만 그런 공격의 흔적 자체가 정황 증거가 되도록 설계했고, 이 부분은 계속 강화하고 있습니다.

이미지 워터마킹 트랙은 아직 미구현 상태이고, 현재 텍스트에 집중하고 있습니다. 피드백 주시면 감사하겠습니다.

멀티 계정 및 어뷰징 등 사용약관 위반으로 차단되었습니다.

신기하네요.

허깅페이스를 써본 사람이 아니라면 뭐 어쩌라는 거지 싶은 생각이 들 정도로 페이지 디자인이 아쉽긴 한데요. <텍스트 보호> 라는 탭을 클릭하면 사용해볼 수 있습니다.

별개로 https://originality.ai/blog/invisible-text-detector-remover 기존에 공개된 "워터마크 제거"툴을 사용하면 쉽게 파훼할 수 있어보입니다.

비공개라서 실행해볼수가 없는 순수 광고(?)인데 그러면 show gn에 올라오면 안 됩니다.
https://news.hada.io/blog/show