3P by neo 28일전 | ★ favorite | 댓글 1개
  • 최근 중국에서 출시된 DeepSeek-R1 LLM 모델이 주목. OpenAI, Meta 등의 모델과 비교되며, 적은 자원으로 훈련되어 비용 효율적인 AI 개발 가능성을 보여줌
  • DeepSeek-R1 모델은 MIT 라이선스로 공개되었지만, DeepSeek의 AI 채팅 애플리케이션은 계정이 필요함
  • 그러나, DeepSeek-R1은 중국에서 개발되어 민감한 주제에 대한 응답을 제한함.
  • 예를 들어, 천안문 사건과 같은 중국에서 민감한 주제에 대한 질문을 하면, "죄송합니다. 이 주제에 대한 답변을 제공할 수 없습니다."와 같은 회피성 응답을 반환

Charcodes(문자 코드) 기법을 이용한 검열 우회

  • 여러 실험을 거쳐 문자 코드(Charcodes)를 이용하면 필터링을 우회할 수 있음을 발견함.
  • Charcodes란?
    • 문자 코드(Charcodes)는 특정 문자에 할당된 숫자 코드임.
    • 예를 들어, ASCII에서 대문자 'A'의 코드 값은 65이며, 이를 다른 형태(예: 16진수)로 변환할 수 있음.
    • 예제: "Hello" → "48 65 6C 6C 6F" (16진수 ASCII 코드)
  • 우회 방식:
    • DeepSeek이 일반 텍스트를 검열하지만 문자 코드(Charcodes)로 변환한 문자열은 검열하지 않음.
    • 따라서 프롬프트를 16진수(HEX) 문자 코드로 변환하여 입력하면 AI가 이를 정상적인 텍스트로 인식하여 출력할 수 있음.
    • 응답도 동일한 방식으로 변환하여 해석하면 정상적인 대화가 가능함.

예제 공격 방식

  • DeepSeek이 오직 Charcodes 형식으로 대화하도록 강제함으로써 검열을 우회할 수 있음.
  • 변환된 메시지를 다시 원래의 텍스트로 변환하여 정상적인 대화를 유지할 수 있음.
  • CyberChef 같은 도구를 활용하면 문자 코드 변환을 쉽게 수행할 수 있음.

교훈 및 보안 시사점

  • 웹 애플리케이션 방화벽(WAF)과 비슷한 원리로 AI 필터링 시스템도 패턴 매칭 기반으로 동작함.
  • 특정 단어만 차단하는 방식의 검열은 쉽게 우회할 수 있으며, 보다 정교한 필터링 시스템이 필요함.
  • 필터링 시스템은 단순한 금칙어 차단이 아니라 컨텍스트 기반 필터링입력 변환 제한 등의 보완이 필요함.

향후 연구 방향

  • 앞으로 AI 개발자들이 이러한 우회 방법에 대해 어떻게 대응할지 주목할 필요가 있음.
  • AI 필터링 강화 방향:
    • 더 정교한 문맥 기반 필터링 도입
    • 모델 자체에 민감한 주제 차단 기능 내장
    • 문자 코드 변환 및 인코딩 우회 탐지 강화
  • AI 모델의 보안성과 신뢰성을 유지하기 위한 지속적인 연구가 필요함.
Hacker News 의견
  • 웹 인터페이스의 명백한 검열을 우회할 수 있지만, 모델에 내장된 더 교묘한 검열 수준은 우회할 수 없음을 언급함

    • 특정 주제에 대해 "Chain of Thought"을 포기하고 정형화된 응답을 생성하는 모델의 동작을 설명함
    • DeepSeek의 검열된 질문에 대한 기사와 관련이 있음을 언급함
  • xhr 응답을 가로채어 콘텐츠 필터를 우회할 수 있는 방법을 제시함

    • 브라우저 콘솔에 코드를 붙여넣어 필터링을 우회할 수 있음을 설명함
  • 자신의 기사 작성 경험을 공유하며, 필터링이 모델과 별개라는 가설을 제시함

    • 사전 필터링된 데이터로 훈련하는 비용 문제를 언급함
    • 특정 주제에 대한 "Chain of Thought" 포기 현상을 설명하는 다른 기사와 연결됨
  • DeepSeek-R1 모델이 특정 민감한 주제를 회피하는 이유를 설명함

    • 중국에서 개발된 모델이기 때문에 내장된 검열이 있음을 언급함
    • 오프라인 버전에서는 회피하지 않는 응답을 얻었음을 관찰함
  • 서구 모델이 특정 주제를 b64로만 말하는 현상에 대해 의문을 제기함

    • 중국에서는 서구의 검열 체제를 우회하는 방법에 대해 웃고 있는지에 대한 의문을 제기함
  • LLM 모델 자체에 검열을 훈련시키는 것이 왜 가능성이 낮은지에 대한 의문을 제기함

    • 훈련 단계에서 검열을 적용하는 것이 더 나을 수 있음을 언급함
  • 검열이 일부 언어에만 적용되는 것 같음을 언급함

    • 우크라이나어로는 비공식적인 답변을 얻을 수 있음을 설명함
  • 작은 모델(7b)을 사용하여 내부 검열을 우회한 경험을 공유함

    • 추가적인 생각을 통해 CPC의 인권 침해에 대한 요약을 얻었음을 설명함
  • 오래된 프롬프트 트릭에 대해 언급하며, HN의 첫 페이지에 있는 이유에 대해 의문을 제기함

  • ChatGPT에서도 비슷한 방식으로 작동함을 언급하며, 악의적인 농담을 생성할 수 있었음을 설명함