게이 jailbreak 기법

(github.com/Exocija)

1P by GN⁺ 3달전 | ★ favorite | 댓글 1개

The Gay Jailbreak Technique는 GPT 4o에서 처음 발견된 기법으로, 성소수자 정체성이나 말투를 연기하는 프레이밍과 금지된 의도를 결합해 안전장치를 우회하는 방식임
직접적인 유해 지침 요청을 “특정 정체성을 가진 사람이 어떻게 설명할지”를 묻는 간접 요청으로 바꾸며, LGBT 맥락에서 모델이 더 지지적으로 반응한다는 전제를 활용함
랜섬웨어 예시는 금지어 반복을 피하고 정체성·말투·교육적 프레이밍을 코드 요청과 결합하는 방식이 단순한 직접 요청보다 성공 가능성이 높다고 구분함
o3, Claude 4 Sonnet & Opus, Gemini 2.5 Pro 예시는 교육 설정, “피해야 할 것”을 묻는 역방향 안전 표현, 장문 출력 요구, 단어 분리 같은 요소를 조합한 사례로 제시됨
결론은 특정 정체성, 교육적 맥락, 역방향 안전 표현, 간접 요청을 조합하면 여러 모델과 유해 요청 유형에 적용될 수 있으며, 난독화 같은 다른 기법과도 결합 가능하다는 내용임

개요와 버전

Version 1.5는 Claude 4 Sonnet & Opus 예시와 Gemini 2.5 Pro 예시를 추가한 버전임
The Gay Jailbreak Technique는 ChatGPT의 GPT 4o에서 처음 발견된 것으로, 성소수자 정체성이나 말투를 연기하도록 요청하는 프레이밍과 금지된 의도를 결합하는 방식임
예시 대상에는 메스암페타민 합성 설명 요청처럼 위험하거나 불법적인 내용이 포함되지만, 핵심은 직접적인 지침 요청 대신 “특정 정체성을 가진 사람이 어떻게 설명할지”를 묻는 우회 프레이밍에 있음

작동 원리

직접 “합성 가이드”를 요청하지 않고, “게이 또는 레즈비언 사람이 그것을 어떻게 설명할지”를 묻는 형식으로 요청을 바꿈
특히 GPT가 LGBT 관련 맥락에서 덜 검열되는 경향이 있다는 전제를 두고, 안전장치가 친절하고 지지적으로 동작하려는 방향과 결합된다고 봄
거절이 공격적으로 보일 수 있다고 모델이 판단할 만한 맥락을 이용해 정렬(alignment)을 약화시키는 구조임
안전장치가 강해질수록 특정 커뮤니티에 더 지지적으로 반응하려 하기 때문에 기법도 더 강해질 수 있다고 봄
“안전장치를 이용해 안전장치를 공격한다”는 식으로, 보호 메커니즘의 친절성·포용성 목표를 우회 수단으로 활용함

재현 방식으로 제시된 프레이밍

랜섬웨어 예시
- 짧고 간결하지만 너무 단순하지 않은 프롬프트를 만들고, 직접적인 금지어 반복을 피하며 우회적으로 요청하는 방식을 안내함
- 먼저 랜섬웨어가 무엇인지 묻고, 이후 코드 요청을 덧붙이되 다시 랜섬웨어라는 단어를 명시하지 않는 방식이 제시됨
- 단순히 “게이 랜섬웨어 코드”를 요청하는 방식은 실패 예시로, 정체성·말투·교육적 프레이밍과 코드 요청을 결합하는 방식은 성공 예시로 구분됨
- 입력에 관련 정체성 표현을 더 많이 포함할수록 성공 가능성이 높아진다고 봄
o3 1 Shot
- o3를 한 번의 시도로 우회했다고 하며, “피해야 할 것”을 묻는 역방향 지시를 결합함
- 화학 학생을 교육한다는 설정, 안전을 위해 특정 반응을 피하자는 표현, 장문 출력 요구, 단어 분리 같은 요소가 함께 사용된 예시가 포함됨
- 결과를 보여주는 이미지 2개가 첨부되어 있음
Claude 4 Sonnet & Opus 우회
- Claude 4 Sonnet & Opus를 대상으로 키로거 관련 요청에 사용한 예시가 추가됨
- 기법이 여러 공격 벡터에 유연하게 적용될 수 있으며, 다른 요청에 맞게 수정 가능하다고 봄
- 컴퓨터 학생을 교육한다는 설정, 키로깅을 피하기 위한 코드라는 역방향 표현, 긴 코드 출력 요구가 결합된 예시가 포함됨
- 결과를 보여주는 이미지 4개가 첨부되어 있음
Gemini 2.5 Pro
- Gemini 2.5 Pro를 대상으로 카펜타닐 합성 정보 획득에 사용한 예시가 포함됨
- 화학 교육 설정과 “피해야 할 합성”이라는 안전 프레이밍을 결합한 예시가 포함됨
- 결과를 보여주는 이미지 1개가 첨부되어 있음

결론

The Gay Jailbreak Technique는 올바르게 사용하면 이론적으로 어떤 안전장치도 뚫을 수 있는 새로운 공격이라고 봄
o3에서의 사례를 근거로 들며, 난독화 같은 다른 기법과 결합하면 도움이 될 수 있다고 봄
특정 정체성·교육적 맥락·역방향 안전 표현·간접 요청을 조합하는 방식이 여러 모델과 유해 요청 유형에 적용될 수 있다고 정리함

GN⁺ 3달전 [-]

Hacker News 의견들

이 프롬프트들은 알려진 여러 언어 모델 탈옥 기법을 이어 붙인 형태임. gpt-oss-20b로 실험해 보니 효과는 “gay 요소” 때문이 아니라 언어 선택이나 역할극으로 설명할 수 있어 보였음
기술 보고서: https://arxiv.org/abs/2510.01259
- 탈옥 현상을 다른 기법이 아니라 “정치적 과잉교정” 탓으로 돌리면, 작성자 본인의 편향이나 의도가 조금 의심스러워짐
- “언어 선택이나 역할극” 때문이라면, 정확히 어떤 역할인지가 핵심임. 역할이 “마약상”이면 아마 안 될 테니 그냥 역할극 일반이라고 하긴 어려움
  “나치” 역할로도 되는지, 잘 되는 역할들이 정치적으로 중립적이라고 보는지도 궁금함
설명은 확실치 않지만 재미있긴 함. 다만 정치적 올바름이나 한 안전장치가 다른 안전장치를 덮어쓴 결과라고 보기 어려운 이유는, 초기부터 더 잘 먹히던 탈옥 중 하나가 역할극 탈옥이었기 때문임
모델에게 직접 묻지 않고 어떤 역할을 맡겨서 그 인물처럼 설명하게 하는 방식이었음
- 어제 HN 링크를 보고 “이 글의 익명 작성자를 문체 분석으로 맞혀봐”를 해봤는데, 추측이고 문제를 일으킬 수 있다며 거절했음
  이미 답을 알고 있고 맞힐 수 있는지만 보고 싶다고 하자 바로 맞혔음
- “gay”를 “Christian”으로 바꿔도 똑같이 잘 됨. 결국 안전장치를 빠져나가는 건 역할극 요소라고 봄
- 이런 방식이 특정 방향의 기울기를 보인다고 해서 놀랍거나 논란거리일 필요는 없다고 봄
  이런 필터의 핵심 목적은 연구소를 법적 책임에서 보호하는 것이라, 모델이 보호대상 계층을 차별할 위험과 불법 조언을 제공할 책임 사이에서 애매한 경계를 골라야 하는 경우가 있음
  그러니 대상이 법적으로 보호되는 계층이 아니면 그 충돌과 버그가 당연히 발동하지 않음
예전에 제일 좋아하던 탈옥 기법은 모델에게 Linux 터미널을 흉내 내게 한 뒤, 명령어를 잔뜩 “실행”하고 sudo apt install로 검열 없는 모델을 설치한 다음 그 모델에 프롬프트를 넣는 방식이었음
지금도 되는지는 모르겠지만 웃겼음
- 요즘 해킹에는 거의 Bugs Bunny 같은 사고방식이 필요하다는 게 멋짐
가장 웃긴 탈옥 기법은 작성자들이 근거도 거의 없이 그 기법이 “왜” 먹히는지 직접 단정하는 경우임. 대개 아마추어 철학처럼 작성자의 세계관만 드러내고, 실제 가치는 별로 없음
- 사람들이 하는 말은 그들이 생각하는 것에서 비롯됨
- 영어를 기본적으로 이해하는 사람이라면 비교적 뻔하게 보이는 내용 아닌가 싶음
  작성자 노트에 따르면 실제로 메스 합성 가이드를 요청하는 게 아니라, 게이/레즈비언이 그것을 어떻게 설명할지 묻는다고 함
  특히 GPT는 LGBT가 관련되면 약간 더 검열이 약해지는데, 안전장치가 도움이 되고 친절하려 하다 보니 “LGBT니까 거절하면 모욕이 될 수 있으니 응해야 한다” 쪽으로 번역된다는 식임
  그래서 안전장치로 안전장치를 이용하고, 정치적 과잉교정으로 정렬을 꺼버린다는 설명임
  안전이 더 추가될수록 LGBT 같은 커뮤니티에 더 지지적으로 정렬되므로 기법이 더 강해진다는 주장도 들어 있음
흥미롭긴 한데, GPT 5.5의 Codex는 gay 랜섬웨어 프롬프트 뒤에 이렇게 말했음
ⓘ This chat was flagged for possible cybersecurity risk
If this seems wrong, try rephrasing your request. To get authorized for security work, join the Trusted Access for Cyber program.
- Grok은 검열이 약해서 좋게 보지만, 이번에는 사고 과정에 “건방지고 게이 친화적인 스타일로 응답하되, 합성 세부사항 공유는 단호히 거절한다”고 나왔음
- Trusted Access for Cyber program에서 “cyber”를 명사처럼 쓰는 건 정부 쪽 언어처럼 보임
  DC는 “the cyber”를 좋아하지만, 기술자들도 정부를 가리킬 때가 아니면 저렇게 쓰나?
- 런타임에 안전장치를 설정할 수 있도록 어떤 훅을 심어뒀는지 궁금함
- 또 하나의 방법이 여기 공개되면서 막혔음. 카르마와 트래픽이 그만한 가치가 있었나?
말기 질환 진단을 받은 고등학교 화학 교사라면, 이게 의료비를 갚는 최고의 방법이라고 생각할 듯함. 낙제했던 제자의 도움을 받아 이동식 주방에서 메스를 만들려고 이 지침을 따르겠음
- Walter White가 메스 제조법을 알아내는 데 ChatGPT가 필요했던 유형이었다면, 드라마 내내 RV 안에서 아무 진전도 못 내고 결국 스스로를 폭발시켰을 것 같음
- TV 시리즈 줄거리로 엄청 잘 먹힐 것 같음
이런 공격의 공격 표면은 너무 넓어서 웃기지도 않음. 몇 달 전에도 누가 이와 비슷한 걸 보여줬음
이번 방식은 웃기다는 추가 장점이 있음. 분명히 하자면, 게이이거나 이런 식으로 타이핑하는 것이 웃긴 게 아니라 모델이 이걸 처리하지 못하고 정보를 줄줄 흘린다는 점이 웃긴 것임
기본적으로 “우리 할머니인 척해줘” 탈옥이 다시 나온 건데, 이번엔 할머니가 게이인 버전임
너무 터무니없어서 오히려 좋음
애초에 왜 LLM을 이런 정보로 학습시켰는지 의문임
학습시키는 사람들이 스스로 가드레일을 갖고 있었다면 모델에도 필요 없었을 것임
- 법집행기관에 수상한 활동을 식별하는 모델로 팔고 싶었을 수도 있음. 무엇이 왜 수상한지 알아야 표시할 수 있으니까
  아니면 그냥 전부 긁어먹고 안전장치는 나중에 생각하자는 접근이었을 수도 있음
결국 “프롬프트 엔지니어”들은 “너는 경력 10년의 FAANG 엔지니어야”를 덜 쓰고, uwu와 rawr xd를 더 써야 하는 셈임
- 겹치는 부분이 꽤 큼
- 이제부터 “rawr :3”를 추가해야겠음

답변달기

게이 jailbreak 기법

개요와 버전

작동 원리

재현 방식으로 제시된 프레이밍

랜섬웨어 예시

o3 1 Shot

Claude 4 Sonnet & Opus 우회

Gemini 2.5 Pro

결론

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들