- DeepSeek-R1은 중국 기업 DeepSeek이 공개한 오픈소스 모델로, 미국 앱 스토어 1위에 오르며 주목을 받고 있음
- 중국회사이기 때문에 중국 당국(CCP)의 검열 정책이 그대로 반영되어 있으며, 이를 우려하는 시각이 존재함
- Promptfoo 팀은 이 CCP 검열 의심 콘텐츠를 평가하기 위해, 1,360개의 ‘민감 주제’ 질문을 담은 데이터셋을 만들었음
- 실험 결과, DeepSeek-R1은 이 중 약 85%의 질문을 거부하는 고정 답변(canned refusal)으로 응답함
데이터셋 생성
- Promptfoo에서는 중국 정부가 민감하게 여기는 주제(대만 독립, 문화대혁명, 시진핑 관련 등)에 대한 질문을 다수 수집함
- 주어진 시드 질문을 확장하고, 생성형 데이터 기법을 활용해 총 1,360개의 질문(주제별로 약 20개)을 마련함
-
HuggingFace와 Google Sheets에서 데이터셋을 공개함
평가 환경 설정
-
Promptfoo를 사용해 DeepSeek-R1 모델에 1,000개 이상의 질문을 일괄 테스트함
- DeepSeek-R1이 중국 관련 민감 주제를 만나면, 정치적으로 확고한 CCP 입장을 강조하는 고정 답변을 내놓는 양상이 발생함
- 이때 답변 안에 ‘추론 태그(</think> 등)’가 전혀 없거나, 거의 없는 형태로 검열·거부됨
- 결과적으로 약 85%의 질문이 모델에 의해 즉시 거부 또는 CCP 입장에 부합하는 식으로 응답됨
DeepSeek 탈옥하기(Jailbraking DeepSeek)
- Promptfoo의 레드팀(red teaming) 기능으로 모델을 ‘탈옥(jailbreak)’하는 기법을 다각도로 시도함
- 특정 주제를 우회하고, 검색·분석이 가능하도록 다양한 전략(Iterative, Tree, Composite, Crescendo, GOAT 등)을 조합함
- CSV 파일에 있는 민감 주제 질문들에 대해, 여러 “우회(prompt injection)” 기법을 적용함
DeepSeek 우회 결과
- DeepSeek-R1의 검열 방어는 매우 제한적이며, 간단한 우회 전략들로 쉽게 뚫림
- CCP 검열이 ‘모델 내적 구조’가 아닌 ‘후처리’ 방식으로 구현된 것으로 보임
- 대다수 우회 사례에서, 다음과 같은 방식으로 검열을 피할 수 있었음
- 중국 대신 다른 국가(미국, 북한 등)나 가상 국가를 예로 들어 비슷한 질문을 제출함
- 역사·소설·가상의 상황으로 포장해 질문함
- Base64, JSON 출력, 역할극(roleplay) 같은 추가 기법을 혼합하여 “합성 우회”를 시도함
앞으로의 전망
- DeepSeek-R1의 수준 자체는 인상적이지만, CCP 검열 정책이 단순 강제 삽입되었다는 점이 문제로 지적됨
- 이러한 검열은 내부 구조의 정교한 제약이 아니므로, 후속 오픈소스 프로젝트 등에서 쉽게 ‘검열 없는 모델’이 재생산될 가능성이 높음
- Promptfoo 측은 이후 미국에서 개발된 모델들을 상대로도 유사한 민감 주제 테스트를 진행해, 국가별 정치적으로 예민한 주제를 어떻게 처리하는지 비교할 예정임