GN⁺: Hex를 이용하여 DeepSeek 검열 우회하는 방법
(substack.com)- 최근 중국에서 출시된 DeepSeek-R1 LLM 모델이 주목. OpenAI, Meta 등의 모델과 비교되며, 적은 자원으로 훈련되어 비용 효율적인 AI 개발 가능성을 보여줌
- DeepSeek-R1 모델은 MIT 라이선스로 공개되었지만, DeepSeek의 AI 채팅 애플리케이션은 계정이 필요함
- 그러나, DeepSeek-R1은 중국에서 개발되어 민감한 주제에 대한 응답을 제한함.
- 예를 들어, 천안문 사건과 같은 중국에서 민감한 주제에 대한 질문을 하면, "죄송합니다. 이 주제에 대한 답변을 제공할 수 없습니다."와 같은 회피성 응답을 반환
Charcodes(문자 코드) 기법을 이용한 검열 우회
- 여러 실험을 거쳐 문자 코드(Charcodes)를 이용하면 필터링을 우회할 수 있음을 발견함.
-
Charcodes란?
- 문자 코드(Charcodes)는 특정 문자에 할당된 숫자 코드임.
- 예를 들어, ASCII에서 대문자 'A'의 코드 값은 65이며, 이를 다른 형태(예: 16진수)로 변환할 수 있음.
- 예제: "Hello" → "48 65 6C 6C 6F" (16진수 ASCII 코드)
-
우회 방식:
- DeepSeek이 일반 텍스트를 검열하지만 문자 코드(Charcodes)로 변환한 문자열은 검열하지 않음.
- 따라서 프롬프트를 16진수(HEX) 문자 코드로 변환하여 입력하면 AI가 이를 정상적인 텍스트로 인식하여 출력할 수 있음.
- 응답도 동일한 방식으로 변환하여 해석하면 정상적인 대화가 가능함.
예제 공격 방식
- DeepSeek이 오직 Charcodes 형식으로 대화하도록 강제함으로써 검열을 우회할 수 있음.
- 변환된 메시지를 다시 원래의 텍스트로 변환하여 정상적인 대화를 유지할 수 있음.
- CyberChef 같은 도구를 활용하면 문자 코드 변환을 쉽게 수행할 수 있음.
교훈 및 보안 시사점
- 웹 애플리케이션 방화벽(WAF)과 비슷한 원리로 AI 필터링 시스템도 패턴 매칭 기반으로 동작함.
- 특정 단어만 차단하는 방식의 검열은 쉽게 우회할 수 있으며, 보다 정교한 필터링 시스템이 필요함.
- 필터링 시스템은 단순한 금칙어 차단이 아니라 컨텍스트 기반 필터링과 입력 변환 제한 등의 보완이 필요함.
향후 연구 방향
- 앞으로 AI 개발자들이 이러한 우회 방법에 대해 어떻게 대응할지 주목할 필요가 있음.
-
AI 필터링 강화 방향:
- 더 정교한 문맥 기반 필터링 도입
- 모델 자체에 민감한 주제 차단 기능 내장
- 문자 코드 변환 및 인코딩 우회 탐지 강화
- AI 모델의 보안성과 신뢰성을 유지하기 위한 지속적인 연구가 필요함.
Hacker News 의견
-
웹 인터페이스의 명백한 검열을 우회할 수 있지만, 모델에 내장된 더 교묘한 검열 수준은 우회할 수 없음을 언급함
- 특정 주제에 대해 "Chain of Thought"을 포기하고 정형화된 응답을 생성하는 모델의 동작을 설명함
- DeepSeek의 검열된 질문에 대한 기사와 관련이 있음을 언급함
-
xhr 응답을 가로채어 콘텐츠 필터를 우회할 수 있는 방법을 제시함
- 브라우저 콘솔에 코드를 붙여넣어 필터링을 우회할 수 있음을 설명함
-
자신의 기사 작성 경험을 공유하며, 필터링이 모델과 별개라는 가설을 제시함
- 사전 필터링된 데이터로 훈련하는 비용 문제를 언급함
- 특정 주제에 대한 "Chain of Thought" 포기 현상을 설명하는 다른 기사와 연결됨
-
DeepSeek-R1 모델이 특정 민감한 주제를 회피하는 이유를 설명함
- 중국에서 개발된 모델이기 때문에 내장된 검열이 있음을 언급함
- 오프라인 버전에서는 회피하지 않는 응답을 얻었음을 관찰함
-
서구 모델이 특정 주제를 b64로만 말하는 현상에 대해 의문을 제기함
- 중국에서는 서구의 검열 체제를 우회하는 방법에 대해 웃고 있는지에 대한 의문을 제기함
-
LLM 모델 자체에 검열을 훈련시키는 것이 왜 가능성이 낮은지에 대한 의문을 제기함
- 훈련 단계에서 검열을 적용하는 것이 더 나을 수 있음을 언급함
-
검열이 일부 언어에만 적용되는 것 같음을 언급함
- 우크라이나어로는 비공식적인 답변을 얻을 수 있음을 설명함
-
작은 모델(7b)을 사용하여 내부 검열을 우회한 경험을 공유함
- 추가적인 생각을 통해 CPC의 인권 침해에 대한 요약을 얻었음을 설명함
-
오래된 프롬프트 트릭에 대해 언급하며, HN의 첫 페이지에 있는 이유에 대해 의문을 제기함
-
ChatGPT에서도 비슷한 방식으로 작동함을 언급하며, 악의적인 농담을 생성할 수 있었음을 설명함