구글 딥마인드, LLM이 생성한 텍스트를 워터마킹하고 감지하는 SynthID를 오픈소스로 공개

(github.com/google-deepmind)

7P by GN⁺ 2024-10-31 | ★ favorite | 댓글과 토론

Google DeepMind의 SynthID는 AI 생성 이미지, 오디오, 텍스트 또는 비디오에 직접 디지털 워터마크를 삽입하여 AI 생성 콘텐츠에 워터마크를 적용하고 식별하는 기술
- Nature 논문에서 이 방법에 대한 보다 완전한 기술적 설명을 읽을 수 있음
SynthID Text는 개발자가 텍스트 생성에 워터마킹을 사용할 수 있도록 오픈 소스로 제공

워터마크 적용

SynthID Text는 Top-K 및 Top-P 이후 모델의 생성 파이프라인에 적용되는 Logits 프로세서
의사 무작위 g-함수를 사용하여 모델의 로짓을 보강하여 텍스트 품질에 크게 영향을 주지 않으면서 텍스트가 모델에 의해 생성되었는지 여부를 판단하는 데 도움이 되는 방식으로 워터마킹 정보를 인코딩함
워터마크는 g-함수를 매개변수화하고 생성 중에 적용되는 방식을 구성하기 위해 설정됨
사용하는 각 워터마킹 구성은 안전하고 비공개로 저장되어야 함
워터마킹 구성에 필요한 두 가지 필수 매개변수
- keys 매개변수: 모델의 어휘에 걸쳐 g-함수 점수를 계산하는 데 사용되는 고유한 무작위 정수 목록. 이 목록의 길이는 적용되는 워터마킹 계층 수를 결정함
- ngram_len 매개변수: 강건성과 검출 가능성의 균형을 맞추는 데 사용됨. 값이 클수록 워터마크가 더 잘 감지되지만 변경에 더 취약해짐. 기본값으로 5가 적절함
성능 요구에 따른 워터마크 추가 구성 가능
- 샘플링 테이블은 sampling_table_size와 sampling_table_seed의 두 가지 속성으로 구성됨
- 샘플링할 때 편향되지 않고 안정적인 g-함수를 보장하려면 sampling_table_size를 최소 2^16 이상 사용해야 함
- 그러나 샘플링 테이블의 크기는 추론 시 필요한 메모리 양에 영향을 미침
- sampling_table_seed로는 원하는 정수를 사용할 수 있음
- 이전 토큰의 context_history_size에서 반복되는 n-그램은 검출 가능성을 높이기 위해 워터마크되지 않음
SynthID Text 워터마크로 텍스트를 생성하기 위해 모델에 추가 훈련이 필요하지 않음
모델의 .generate() 메서드에 전달되는 워터마킹 구성만 필요함. 이는 SynthID Text 로짓 프로세서를 활성화함
Hugging Face의 블로그 게시물과 Space에서 Transformers 라이브러리에서 워터마크를 적용하는 방법을 보여주는 코드 예제를 확인할 수 있음

워터마크 감지 및 검증 가능성

워터마크 감지는 확률적임
베이지안 탐지기가 Hugging Face Transformers 및 GitHub에서 제공됨
이 탐지기는 워터마크됨, 워터마크되지 않음 또는 불확실의 세 가지 가능한 탐지 상태를 출력할 수 있음
두 개의 임계값을 설정하여 특정 거짓 양성률과 거짓 음성률을 달성하도록 동작을 사용자 정의할 수 있음
동일한 토크나이저를 사용하는 모델은 탐지기의 훈련 세트에 워터마크를 공유하는 모든 모델의 예제가 포함되어 있는 한 워터마킹 구성 및 탐지기를 공유할 수 있음
훈련된 탐지기가 있으면 탐지기를 사용자 및 대중에게 노출할지 여부와 방법을 선택할 수 있음
- 완전 비공개 옵션은 탐지기를 어떤 식으로든 공개하거나 노출하지 않음
- 반 비공개 옵션은 탐지기를 공개하지 않지만 API를 통해 노출함
- 공개 옵션은 다른 사람이 다운로드하고 사용할 수 있도록 탐지기를 공개함

제한 사항

SynthID Text 워터마크는 일부 변환에 강력하지만 제한 사항이 있음
- 워터마크 적용은 정확성을 저하시키지 않고 생성을 보강할 기회가 적기 때문에 사실적인 응답에는 덜 효과적임
- AI 생성 텍스트를 철저히 다시 작성하거나 다른 언어로 번역하면 탐지기 신뢰도 점수가 크게 감소할 수 있음
SynthID Text는 의도적인 공격자가 해를 끼치는 것을 직접 막도록 설계되지 않았음
그러나 악의적인 목적으로 AI 생성 콘텐츠를 사용하기 어렵게 만들 수 있으며, 다른 접근 방식과 결합하여 콘텐츠 유형과 플랫폼에 걸쳐 더 나은 적용 범위를 제공할 수 있음

GN⁺의 의견

SynthID Text는 워터마크를 통해 AI 생성 콘텐츠의 출처를 식별할 수 있는 유용한 기능을 제공함
그러나 워터마크 자체는 콘텐츠의 진위 여부를 보장하지는 않음. 잘못된 정보나 유해한 콘텐츠에도 워터마크를 적용할 수 있기 때문
따라서 워터마크와 더불어 콘텐츠의 내용 자체에 대한 신뢰성 검증도 필요할 것임
Hugging Face와 같은 주요 라이브러리에 통합되어 개발자들이 쉽게 활용할 수 있다는 점은 큰 장점
다만 탐지기의 공개 여부는 신중히 결정해야 할 사항임. 완전 공개할 경우 워터마크를 우회하려는 시도가 늘어날 수 있기 때문
전반적으로 AI 생성 콘텐츠가 빠르게 확산되는 상황에서 출처 식별을 위한 기술로서 SynthID Text의 중요성은 커질 것으로 보임

GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기

구글 딥마인드, LLM이 생성한 텍스트를 워터마킹하고 감지하는 SynthID를 오픈소스로 공개

워터마크 적용

워터마크 감지 및 검증 가능성

제한 사항

GN⁺의 의견

함께 보면 좋은 글 β

댓글과 토론