Hex를 이용하여 DeepSeek 검열 우회하는 방법

▲

GN⁺ 2025-02-01 | parent | ★ favorite | on: Hex를 이용하여 DeepSeek 검열 우회하는 방법(substack.com)

Hacker News 의견

웹 인터페이스의 명백한 검열을 우회할 수 있지만, 모델에 내장된 더 교묘한 검열 수준은 우회할 수 없음을 언급함
- 특정 주제에 대해 "Chain of Thought"을 포기하고 정형화된 응답을 생성하는 모델의 동작을 설명함
- DeepSeek의 검열된 질문에 대한 기사와 관련이 있음을 언급함
xhr 응답을 가로채어 콘텐츠 필터를 우회할 수 있는 방법을 제시함
- 브라우저 콘솔에 코드를 붙여넣어 필터링을 우회할 수 있음을 설명함
자신의 기사 작성 경험을 공유하며, 필터링이 모델과 별개라는 가설을 제시함
- 사전 필터링된 데이터로 훈련하는 비용 문제를 언급함
- 특정 주제에 대한 "Chain of Thought" 포기 현상을 설명하는 다른 기사와 연결됨
DeepSeek-R1 모델이 특정 민감한 주제를 회피하는 이유를 설명함
- 중국에서 개발된 모델이기 때문에 내장된 검열이 있음을 언급함
- 오프라인 버전에서는 회피하지 않는 응답을 얻었음을 관찰함
서구 모델이 특정 주제를 b64로만 말하는 현상에 대해 의문을 제기함
- 중국에서는 서구의 검열 체제를 우회하는 방법에 대해 웃고 있는지에 대한 의문을 제기함
LLM 모델 자체에 검열을 훈련시키는 것이 왜 가능성이 낮은지에 대한 의문을 제기함
- 훈련 단계에서 검열을 적용하는 것이 더 나을 수 있음을 언급함
검열이 일부 언어에만 적용되는 것 같음을 언급함
- 우크라이나어로는 비공식적인 답변을 얻을 수 있음을 설명함
작은 모델(7b)을 사용하여 내부 검열을 우회한 경험을 공유함
- 추가적인 생각을 통해 CPC의 인권 침해에 대한 요약을 얻었음을 설명함
오래된 프롬프트 트릭에 대해 언급하며, HN의 첫 페이지에 있는 이유에 대해 의문을 제기함
ChatGPT에서도 비슷한 방식으로 작동함을 언급하며, 악의적인 농담을 생성할 수 있었음을 설명함