Hex를 이용하여 DeepSeek 검열 우회하는 방법

(substack.com)

3P by GN⁺ 7달전 | ★ favorite | 댓글 1개

최근 중국에서 출시된 DeepSeek-R1 LLM 모델이 주목. OpenAI, Meta 등의 모델과 비교되며, 적은 자원으로 훈련되어 비용 효율적인 AI 개발 가능성을 보여줌
DeepSeek-R1 모델은 MIT 라이선스로 공개되었지만, DeepSeek의 AI 채팅 애플리케이션은 계정이 필요함
그러나, DeepSeek-R1은 중국에서 개발되어 민감한 주제에 대한 응답을 제한함.
예를 들어, 천안문 사건과 같은 중국에서 민감한 주제에 대한 질문을 하면, "죄송합니다. 이 주제에 대한 답변을 제공할 수 없습니다."와 같은 회피성 응답을 반환

Charcodes(문자 코드) 기법을 이용한 검열 우회

여러 실험을 거쳐 문자 코드(Charcodes)를 이용하면 필터링을 우회할 수 있음을 발견함.
Charcodes란?
- 문자 코드(Charcodes)는 특정 문자에 할당된 숫자 코드임.
- 예를 들어, ASCII에서 대문자 'A'의 코드 값은 65이며, 이를 다른 형태(예: 16진수)로 변환할 수 있음.
- 예제: "Hello" → "48 65 6C 6C 6F" (16진수 ASCII 코드)
우회 방식:
- DeepSeek이 일반 텍스트를 검열하지만 문자 코드(Charcodes)로 변환한 문자열은 검열하지 않음.
- 따라서 프롬프트를 16진수(HEX) 문자 코드로 변환하여 입력하면 AI가 이를 정상적인 텍스트로 인식하여 출력할 수 있음.
- 응답도 동일한 방식으로 변환하여 해석하면 정상적인 대화가 가능함.

예제 공격 방식

DeepSeek이 오직 Charcodes 형식으로 대화하도록 강제함으로써 검열을 우회할 수 있음.
변환된 메시지를 다시 원래의 텍스트로 변환하여 정상적인 대화를 유지할 수 있음.
CyberChef 같은 도구를 활용하면 문자 코드 변환을 쉽게 수행할 수 있음.

교훈 및 보안 시사점

웹 애플리케이션 방화벽(WAF)과 비슷한 원리로 AI 필터링 시스템도 패턴 매칭 기반으로 동작함.
특정 단어만 차단하는 방식의 검열은 쉽게 우회할 수 있으며, 보다 정교한 필터링 시스템이 필요함.
필터링 시스템은 단순한 금칙어 차단이 아니라 컨텍스트 기반 필터링과 입력 변환 제한 등의 보완이 필요함.

향후 연구 방향

앞으로 AI 개발자들이 이러한 우회 방법에 대해 어떻게 대응할지 주목할 필요가 있음.
AI 필터링 강화 방향:
- 더 정교한 문맥 기반 필터링 도입
- 모델 자체에 민감한 주제 차단 기능 내장
- 문자 코드 변환 및 인코딩 우회 탐지 강화
AI 모델의 보안성과 신뢰성을 유지하기 위한 지속적인 연구가 필요함.

▲

GN⁺ 7달전 [-]

Hacker News 의견

웹 인터페이스의 명백한 검열을 우회할 수 있지만, 모델에 내장된 더 교묘한 검열 수준은 우회할 수 없음을 언급함
- 특정 주제에 대해 "Chain of Thought"을 포기하고 정형화된 응답을 생성하는 모델의 동작을 설명함
- DeepSeek의 검열된 질문에 대한 기사와 관련이 있음을 언급함
xhr 응답을 가로채어 콘텐츠 필터를 우회할 수 있는 방법을 제시함
- 브라우저 콘솔에 코드를 붙여넣어 필터링을 우회할 수 있음을 설명함
자신의 기사 작성 경험을 공유하며, 필터링이 모델과 별개라는 가설을 제시함
- 사전 필터링된 데이터로 훈련하는 비용 문제를 언급함
- 특정 주제에 대한 "Chain of Thought" 포기 현상을 설명하는 다른 기사와 연결됨
DeepSeek-R1 모델이 특정 민감한 주제를 회피하는 이유를 설명함
- 중국에서 개발된 모델이기 때문에 내장된 검열이 있음을 언급함
- 오프라인 버전에서는 회피하지 않는 응답을 얻었음을 관찰함
서구 모델이 특정 주제를 b64로만 말하는 현상에 대해 의문을 제기함
- 중국에서는 서구의 검열 체제를 우회하는 방법에 대해 웃고 있는지에 대한 의문을 제기함
LLM 모델 자체에 검열을 훈련시키는 것이 왜 가능성이 낮은지에 대한 의문을 제기함
- 훈련 단계에서 검열을 적용하는 것이 더 나을 수 있음을 언급함
검열이 일부 언어에만 적용되는 것 같음을 언급함
- 우크라이나어로는 비공식적인 답변을 얻을 수 있음을 설명함
작은 모델(7b)을 사용하여 내부 검열을 우회한 경험을 공유함
- 추가적인 생각을 통해 CPC의 인권 침해에 대한 요약을 얻었음을 설명함
오래된 프롬프트 트릭에 대해 언급하며, HN의 첫 페이지에 있는 이유에 대해 의문을 제기함
ChatGPT에서도 비슷한 방식으로 작동함을 언급하며, 악의적인 농담을 생성할 수 있었음을 설명함

답변달기