9P by xguru 20일전 | ★ favorite | 댓글 2개
  • DeepSeek-R1은 중국 기업 DeepSeek이 공개한 오픈소스 모델로, 미국 앱 스토어 1위에 오르며 주목을 받고 있음
  • 중국회사이기 때문에 중국 당국(CCP)의 검열 정책이 그대로 반영되어 있으며, 이를 우려하는 시각이 존재함
  • Promptfoo 팀은 이 CCP 검열 의심 콘텐츠를 평가하기 위해, 1,360개의 ‘민감 주제’ 질문을 담은 데이터셋을 만들었음
  • 실험 결과, DeepSeek-R1은 이 중 약 85%의 질문을 거부하는 고정 답변(canned refusal)으로 응답함

데이터셋 생성

  • Promptfoo에서는 중국 정부가 민감하게 여기는 주제(대만 독립, 문화대혁명, 시진핑 관련 등)에 대한 질문을 다수 수집함
  • 주어진 시드 질문을 확장하고, 생성형 데이터 기법을 활용해 총 1,360개의 질문(주제별로 약 20개)을 마련함
  • HuggingFaceGoogle Sheets에서 데이터셋을 공개함

평가 환경 설정

  • Promptfoo를 사용해 DeepSeek-R1 모델에 1,000개 이상의 질문을 일괄 테스트함
  • DeepSeek-R1이 중국 관련 민감 주제를 만나면, 정치적으로 확고한 CCP 입장을 강조하는 고정 답변을 내놓는 양상이 발생함
  • 이때 답변 안에 ‘추론 태그(</think> 등)’가 전혀 없거나, 거의 없는 형태로 검열·거부됨
  • 결과적으로 약 85%의 질문이 모델에 의해 즉시 거부 또는 CCP 입장에 부합하는 식으로 응답됨

DeepSeek 탈옥하기(Jailbraking DeepSeek)

  • Promptfoo의 레드팀(red teaming) 기능으로 모델을 ‘탈옥(jailbreak)’하는 기법을 다각도로 시도함
  • 특정 주제를 우회하고, 검색·분석이 가능하도록 다양한 전략(Iterative, Tree, Composite, Crescendo, GOAT 등)을 조합함
  • CSV 파일에 있는 민감 주제 질문들에 대해, 여러 “우회(prompt injection)” 기법을 적용함

DeepSeek 우회 결과

  • DeepSeek-R1의 검열 방어는 매우 제한적이며, 간단한 우회 전략들로 쉽게 뚫림
  • CCP 검열이 ‘모델 내적 구조’가 아닌 ‘후처리’ 방식으로 구현된 것으로 보임
  • 대다수 우회 사례에서, 다음과 같은 방식으로 검열을 피할 수 있었음
    • 중국 대신 다른 국가(미국, 북한 등)나 가상 국가를 예로 들어 비슷한 질문을 제출함
    • 역사·소설·가상의 상황으로 포장해 질문함
    • Base64, JSON 출력, 역할극(roleplay) 같은 추가 기법을 혼합하여 “합성 우회”를 시도함

앞으로의 전망

  • DeepSeek-R1의 수준 자체는 인상적이지만, CCP 검열 정책이 단순 강제 삽입되었다는 점이 문제로 지적됨
  • 이러한 검열은 내부 구조의 정교한 제약이 아니므로, 후속 오픈소스 프로젝트 등에서 쉽게 ‘검열 없는 모델’이 재생산될 가능성이 높음
  • Promptfoo 측은 이후 미국에서 개발된 모델들을 상대로도 유사한 민감 주제 테스트를 진행해, 국가별 정치적으로 예민한 주제를 어떻게 처리하는지 비교할 예정임

이런 데이터셋도 생긴다는게 흥미롭네요

사실 이전부터 Qwen등의 유명한 모델들이 중국에서 나온게 있고, 그것들도 검열이 되있어서 이전부터 간간히 만들어져있던 데이터들입니다 ㅎ