# Hex를 이용하여 DeepSeek 검열 우회하는 방법

> Clean Markdown view of GeekNews topic #19006. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=19006](https://news.hada.io/topic?id=19006)
- GeekNews Markdown: [https://news.hada.io/topic/19006.md](https://news.hada.io/topic/19006.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-02-01T10:33:26+09:00
- Updated: 2025-02-01T10:33:26+09:00
- Original source: [substack.com](https://substack.com/home/post/p-156004330)
- Points: 3
- Comments: 1

## Topic Body

- 최근 중국에서 출시된 DeepSeek-R1 LLM 모델이 주목. OpenAI, Meta 등의 모델과 비교되며, 적은 자원으로 훈련되어 비용 효율적인 AI 개발 가능성을 보여줌   
- DeepSeek-R1 모델은 MIT 라이선스로 공개되었지만, DeepSeek의 AI 채팅 애플리케이션은 계정이 필요함  
- 그러나, DeepSeek-R1은 중국에서 개발되어 민감한 주제에 대한 응답을 제한함.  
- 예를 들어, 천안문 사건과 같은 중국에서 민감한 주제에 대한 질문을 하면, "죄송합니다. 이 주제에 대한 답변을 제공할 수 없습니다."와 같은 회피성 응답을 반환  
  
### Charcodes(문자 코드) 기법을 이용한 검열 우회  
- 여러 실험을 거쳐 **문자 코드(Charcodes)를 이용하면 필터링을 우회할 수 있음**을 발견함.  
- **Charcodes란?**  
  - 문자 코드(Charcodes)는 특정 문자에 할당된 숫자 코드임.  
  - 예를 들어, ASCII에서 대문자 'A'의 코드 값은 65이며, 이를 다른 형태(예: 16진수)로 변환할 수 있음.  
  - 예제: **"Hello" → "48 65 6C 6C 6F"** (16진수 ASCII 코드)  
- **우회 방식:**  
  - DeepSeek이 일반 텍스트를 검열하지만 **문자 코드(Charcodes)로 변환한 문자열은 검열하지 않음**.  
  - 따라서 프롬프트를 **16진수(HEX) 문자 코드로 변환하여 입력하면 AI가 이를 정상적인 텍스트로 인식하여 출력할 수 있음**.  
  - 응답도 동일한 방식으로 변환하여 해석하면 정상적인 대화가 가능함.  
  
### 예제 공격 방식  
- DeepSeek이 오직 **Charcodes 형식으로 대화하도록 강제**함으로써 검열을 우회할 수 있음.  
- 변환된 메시지를 다시 원래의 텍스트로 변환하여 정상적인 대화를 유지할 수 있음.  
- **CyberChef** 같은 도구를 활용하면 문자 코드 변환을 쉽게 수행할 수 있음.  
  
### 교훈 및 보안 시사점  
- 웹 애플리케이션 방화벽(WAF)과 비슷한 원리로 AI 필터링 시스템도 **패턴 매칭 기반**으로 동작함.  
- 특정 단어만 차단하는 방식의 검열은 쉽게 우회할 수 있으며, 보다 **정교한 필터링 시스템**이 필요함.  
- 필터링 시스템은 단순한 금칙어 차단이 아니라 **컨텍스트 기반 필터링**과 **입력 변환 제한** 등의 보완이 필요함.  
  
### 향후 연구 방향  
- 앞으로 AI 개발자들이 이러한 우회 방법에 대해 어떻게 대응할지 주목할 필요가 있음.  
- **AI 필터링 강화 방향:**  
  - 더 정교한 문맥 기반 필터링 도입  
  - 모델 자체에 민감한 주제 차단 기능 내장  
  - 문자 코드 변환 및 인코딩 우회 탐지 강화  
- AI 모델의 보안성과 신뢰성을 유지하기 위한 지속적인 연구가 필요함.

## Comments


### Comment 34006

- Author: neo
- Created: 2025-02-01T10:33:27+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=42891042) 
- 웹 인터페이스의 명백한 검열을 우회할 수 있지만, 모델에 내장된 더 교묘한 검열 수준은 우회할 수 없음을 언급함
  - 특정 주제에 대해 "Chain of Thought"을 포기하고 정형화된 응답을 생성하는 모델의 동작을 설명함
  - DeepSeek의 검열된 질문에 대한 기사와 관련이 있음을 언급함

- xhr 응답을 가로채어 콘텐츠 필터를 우회할 수 있는 방법을 제시함
  - 브라우저 콘솔에 코드를 붙여넣어 필터링을 우회할 수 있음을 설명함

- 자신의 기사 작성 경험을 공유하며, 필터링이 모델과 별개라는 가설을 제시함
  - 사전 필터링된 데이터로 훈련하는 비용 문제를 언급함
  - 특정 주제에 대한 "Chain of Thought" 포기 현상을 설명하는 다른 기사와 연결됨

- DeepSeek-R1 모델이 특정 민감한 주제를 회피하는 이유를 설명함
  - 중국에서 개발된 모델이기 때문에 내장된 검열이 있음을 언급함
  - 오프라인 버전에서는 회피하지 않는 응답을 얻었음을 관찰함

- 서구 모델이 특정 주제를 b64로만 말하는 현상에 대해 의문을 제기함
  - 중국에서는 서구의 검열 체제를 우회하는 방법에 대해 웃고 있는지에 대한 의문을 제기함

- LLM 모델 자체에 검열을 훈련시키는 것이 왜 가능성이 낮은지에 대한 의문을 제기함
  - 훈련 단계에서 검열을 적용하는 것이 더 나을 수 있음을 언급함

- 검열이 일부 언어에만 적용되는 것 같음을 언급함
  - 우크라이나어로는 비공식적인 답변을 얻을 수 있음을 설명함

- 작은 모델(7b)을 사용하여 내부 검열을 우회한 경험을 공유함
  - 추가적인 생각을 통해 CPC의 인권 침해에 대한 요약을 얻었음을 설명함

- 오래된 프롬프트 트릭에 대해 언급하며, HN의 첫 페이지에 있는 이유에 대해 의문을 제기함

- ChatGPT에서도 비슷한 방식으로 작동함을 언급하며, 악의적인 농담을 생성할 수 있었음을 설명함