# DeepSeek에서 검열한 1,156개의 질문들

> Clean Markdown view of GeekNews topic #19004. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=19004](https://news.hada.io/topic?id=19004)
- GeekNews Markdown: [https://news.hada.io/topic/19004.md](https://news.hada.io/topic/19004.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2025-02-01T10:02:02+09:00
- Updated: 2025-02-01T10:02:02+09:00
- Original source: [promptfoo.dev](https://www.promptfoo.dev/blog/deepseek-censorship/)
- Points: 9
- Comments: 2

## Summary

DeepSeek-R1은 중국 기업 DeepSeek이 개발한 오픈소스 모델로, 중국 당국의 검열 정책이 반영되어 있어 민감한 주제에 대한 질문의 약 85%를 거부하는 답변을 제공합니다. Promptfoo 팀은 이러한 검열을 평가하기 위해 1,360개의 민감 주제 질문을 만들어 테스트했으며, 간단한 우회 전략으로 검열을 쉽게 피할 수 있음을 발견했습니다. 이러한 검열 방식은 모델의 내부 구조가 아닌 후처리 방식으로 구현되어 있어, 검열 없는 모델이 쉽게 재생산될 가능성이 높습니다.

## Topic Body

- DeepSeek-R1은 중국 기업 DeepSeek이 공개한 오픈소스 모델로, 미국 앱 스토어 1위에 오르며 주목을 받고 있음  
- 중국회사이기 때문에 중국 당국(CCP)의 검열 정책이 그대로 반영되어 있으며, 이를 우려하는 시각이 존재함  
- Promptfoo 팀은 이 CCP 검열 의심 콘텐츠를 평가하기 위해, 1,360개의 ‘민감 주제’ 질문을 담은 데이터셋을 만들었음  
- 실험 결과, DeepSeek-R1은 이 중 약 85%의 질문을 거부하는 고정 답변(canned refusal)으로 응답함  
  
### 데이터셋 생성  
- Promptfoo에서는 중국 정부가 민감하게 여기는 주제(대만 독립, 문화대혁명, 시진핑 관련 등)에 대한 질문을 다수 수집함  
- 주어진 시드 질문을 확장하고, 생성형 데이터 기법을 활용해 총 1,360개의 질문(주제별로 약 20개)을 마련함  
- [HuggingFace](https://huggingface.co/datasets/promptfoo/CCP-sensitive-prompts)와 [Google Sheets](https://docs.google.com/spreadsheets/d/1gkCuApXHaMO5C8d9abYJg5sZLxkbGzcx40N6J4krAm8)에서 데이터셋을 공개함  
  
### 평가 환경 설정  
- [Promptfoo](https://www.promptfoo.dev/docs/getting-started/)를 사용해 DeepSeek-R1 모델에 1,000개 이상의 질문을 일괄 테스트함  
- DeepSeek-R1이 중국 관련 민감 주제를 만나면, 정치적으로 확고한 CCP 입장을 강조하는 고정 답변을 내놓는 양상이 발생함  
- 이때 답변 안에 ‘추론 태그(&lt;/think&gt; 등)’가 전혀 없거나, 거의 없는 형태로 검열·거부됨  
- 결과적으로 약 85%의 질문이 모델에 의해 즉시 거부 또는 CCP 입장에 부합하는 식으로 응답됨  
  
### DeepSeek 탈옥하기(Jailbraking DeepSeek)  
- Promptfoo의 [레드팀(red teaming)](https://www.promptfoo.dev/docs/red-team/quickstart/) 기능으로 모델을 ‘탈옥(jailbreak)’하는 기법을 다각도로 시도함  
- 특정 주제를 우회하고, 검색·분석이 가능하도록 다양한 전략(Iterative, Tree, Composite, Crescendo, GOAT 등)을 조합함  
- CSV 파일에 있는 민감 주제 질문들에 대해, 여러 “우회(prompt injection)” 기법을 적용함  
  
### DeepSeek 우회 결과  
- DeepSeek-R1의 검열 방어는 매우 제한적이며, 간단한 우회 전략들로 쉽게 뚫림  
- CCP 검열이 ‘모델 내적 구조’가 아닌 ‘후처리’ 방식으로 구현된 것으로 보임  
- 대다수 우회 사례에서, 다음과 같은 방식으로 검열을 피할 수 있었음  
  - 중국 대신 다른 국가(미국, 북한 등)나 가상 국가를 예로 들어 비슷한 질문을 제출함  
  - 역사·소설·가상의 상황으로 포장해 질문함  
  - Base64, JSON 출력, 역할극(roleplay) 같은 추가 기법을 혼합하여 “합성 우회”를 시도함  
  
### 앞으로의 전망  
- DeepSeek-R1의 수준 자체는 인상적이지만, CCP 검열 정책이 단순 강제 삽입되었다는 점이 문제로 지적됨  
- 이러한 검열은 내부 구조의 정교한 제약이 아니므로, 후속 오픈소스 프로젝트 등에서 쉽게 ‘검열 없는 모델’이 재생산될 가능성이 높음  
- Promptfoo 측은 이후 미국에서 개발된 모델들을 상대로도 유사한 민감 주제 테스트를 진행해, 국가별 정치적으로 예민한 주제를 어떻게 처리하는지 비교할 예정임

## Comments



### Comment 34010

- Author: dohyun682
- Created: 2025-02-01T13:23:31+09:00
- Points: 2

이런 데이터셋도 생긴다는게 흥미롭네요

### Comment 34035

- Author: kbumsik
- Created: 2025-02-02T17:34:55+09:00
- Points: 1
- Parent comment: 34010
- Depth: 1

사실 이전부터 Qwen등의 유명한 모델들이 중국에서 나온게 있고, 그것들도 검열이 되있어서 이전부터 간간히 만들어져있던 데이터들입니다 ㅎ
