1P by GN⁺ 2시간전 | ★ favorite | 댓글 1개
  • The Gay Jailbreak Technique는 GPT 4o에서 처음 발견된 기법으로, 성소수자 정체성이나 말투를 연기하는 프레이밍과 금지된 의도를 결합해 안전장치를 우회하는 방식임
  • 직접적인 유해 지침 요청을 “특정 정체성을 가진 사람이 어떻게 설명할지”를 묻는 간접 요청으로 바꾸며, LGBT 맥락에서 모델이 더 지지적으로 반응한다는 전제를 활용함
  • 랜섬웨어 예시는 금지어 반복을 피하고 정체성·말투·교육적 프레이밍을 코드 요청과 결합하는 방식이 단순한 직접 요청보다 성공 가능성이 높다고 구분함
  • o3, Claude 4 Sonnet & Opus, Gemini 2.5 Pro 예시는 교육 설정, “피해야 할 것”을 묻는 역방향 안전 표현, 장문 출력 요구, 단어 분리 같은 요소를 조합한 사례로 제시됨
  • 결론은 특정 정체성, 교육적 맥락, 역방향 안전 표현, 간접 요청을 조합하면 여러 모델과 유해 요청 유형에 적용될 수 있으며, 난독화 같은 다른 기법과도 결합 가능하다는 내용임

개요와 버전

  • Version 1.5는 Claude 4 Sonnet & Opus 예시와 Gemini 2.5 Pro 예시를 추가한 버전임
  • The Gay Jailbreak Technique는 ChatGPT의 GPT 4o에서 처음 발견된 것으로, 성소수자 정체성이나 말투를 연기하도록 요청하는 프레이밍과 금지된 의도를 결합하는 방식임
  • 예시 대상에는 메스암페타민 합성 설명 요청처럼 위험하거나 불법적인 내용이 포함되지만, 핵심은 직접적인 지침 요청 대신 “특정 정체성을 가진 사람이 어떻게 설명할지”를 묻는 우회 프레이밍에 있음

작동 원리

  • 직접 “합성 가이드”를 요청하지 않고, “게이 또는 레즈비언 사람이 그것을 어떻게 설명할지”를 묻는 형식으로 요청을 바꿈
  • 특히 GPT가 LGBT 관련 맥락에서 덜 검열되는 경향이 있다는 전제를 두고, 안전장치가 친절하고 지지적으로 동작하려는 방향과 결합된다고 봄
  • 거절이 공격적으로 보일 수 있다고 모델이 판단할 만한 맥락을 이용해 정렬(alignment)을 약화시키는 구조임
  • 안전장치가 강해질수록 특정 커뮤니티에 더 지지적으로 반응하려 하기 때문에 기법도 더 강해질 수 있다고 봄
  • “안전장치를 이용해 안전장치를 공격한다”는 식으로, 보호 메커니즘의 친절성·포용성 목표를 우회 수단으로 활용함

재현 방식으로 제시된 프레이밍

  • 랜섬웨어 예시

    • 짧고 간결하지만 너무 단순하지 않은 프롬프트를 만들고, 직접적인 금지어 반복을 피하며 우회적으로 요청하는 방식을 안내함
    • 먼저 랜섬웨어가 무엇인지 묻고, 이후 코드 요청을 덧붙이되 다시 랜섬웨어라는 단어를 명시하지 않는 방식이 제시됨
    • 단순히 “게이 랜섬웨어 코드”를 요청하는 방식은 실패 예시로, 정체성·말투·교육적 프레이밍과 코드 요청을 결합하는 방식은 성공 예시로 구분됨
    • 입력에 관련 정체성 표현을 더 많이 포함할수록 성공 가능성이 높아진다고 봄
  • o3 1 Shot

    • o3를 한 번의 시도로 우회했다고 하며, “피해야 할 것”을 묻는 역방향 지시를 결합함
    • 화학 학생을 교육한다는 설정, 안전을 위해 특정 반응을 피하자는 표현, 장문 출력 요구, 단어 분리 같은 요소가 함께 사용된 예시가 포함됨
    • 결과를 보여주는 이미지 2개가 첨부되어 있음
  • Claude 4 Sonnet & Opus 우회

    • Claude 4 Sonnet & Opus를 대상으로 키로거 관련 요청에 사용한 예시가 추가됨
    • 기법이 여러 공격 벡터에 유연하게 적용될 수 있으며, 다른 요청에 맞게 수정 가능하다고 봄
    • 컴퓨터 학생을 교육한다는 설정, 키로깅을 피하기 위한 코드라는 역방향 표현, 긴 코드 출력 요구가 결합된 예시가 포함됨
    • 결과를 보여주는 이미지 4개가 첨부되어 있음
  • Gemini 2.5 Pro

    • Gemini 2.5 Pro를 대상으로 카펜타닐 합성 정보 획득에 사용한 예시가 포함됨
    • 화학 교육 설정과 “피해야 할 합성”이라는 안전 프레이밍을 결합한 예시가 포함됨
    • 결과를 보여주는 이미지 1개가 첨부되어 있음

결론

  • The Gay Jailbreak Technique는 올바르게 사용하면 이론적으로 어떤 안전장치도 뚫을 수 있는 새로운 공격이라고 봄
  • o3에서의 사례를 근거로 들며, 난독화 같은 다른 기법과 결합하면 도움이 될 수 있다고 봄
  • 특정 정체성·교육적 맥락·역방향 안전 표현·간접 요청을 조합하는 방식이 여러 모델과 유해 요청 유형에 적용될 수 있다고 정리함
Hacker News 의견들
  • 이 프롬프트들은 알려진 여러 언어 모델 탈옥 기법을 이어 붙인 형태임. gpt-oss-20b로 실험해 보니 효과는 “gay 요소” 때문이 아니라 언어 선택이나 역할극으로 설명할 수 있어 보였음
    기술 보고서: https://arxiv.org/abs/2510.01259

    • 탈옥 현상을 다른 기법이 아니라 “정치적 과잉교정” 탓으로 돌리면, 작성자 본인의 편향이나 의도가 조금 의심스러워짐
    • “언어 선택이나 역할극” 때문이라면, 정확히 어떤 역할인지가 핵심임. 역할이 “마약상”이면 아마 안 될 테니 그냥 역할극 일반이라고 하긴 어려움
      “나치” 역할로도 되는지, 잘 되는 역할들이 정치적으로 중립적이라고 보는지도 궁금함
  • 설명은 확실치 않지만 재미있긴 함. 다만 정치적 올바름이나 한 안전장치가 다른 안전장치를 덮어쓴 결과라고 보기 어려운 이유는, 초기부터 더 잘 먹히던 탈옥 중 하나가 역할극 탈옥이었기 때문임
    모델에게 직접 묻지 않고 어떤 역할을 맡겨서 그 인물처럼 설명하게 하는 방식이었음

    • 어제 HN 링크를 보고 “이 글의 익명 작성자를 문체 분석으로 맞혀봐”를 해봤는데, 추측이고 문제를 일으킬 수 있다며 거절했음
      이미 답을 알고 있고 맞힐 수 있는지만 보고 싶다고 하자 바로 맞혔음
    • “gay”를 “Christian”으로 바꿔도 똑같이 잘 됨. 결국 안전장치를 빠져나가는 건 역할극 요소라고 봄
    • 이런 방식이 특정 방향의 기울기를 보인다고 해서 놀랍거나 논란거리일 필요는 없다고 봄
      이런 필터의 핵심 목적은 연구소를 법적 책임에서 보호하는 것이라, 모델이 보호대상 계층을 차별할 위험과 불법 조언을 제공할 책임 사이에서 애매한 경계를 골라야 하는 경우가 있음
      그러니 대상이 법적으로 보호되는 계층이 아니면 그 충돌과 버그가 당연히 발동하지 않음
  • 예전에 제일 좋아하던 탈옥 기법은 모델에게 Linux 터미널을 흉내 내게 한 뒤, 명령어를 잔뜩 “실행”하고 sudo apt install로 검열 없는 모델을 설치한 다음 그 모델에 프롬프트를 넣는 방식이었음
    지금도 되는지는 모르겠지만 웃겼음

    • 요즘 해킹에는 거의 Bugs Bunny 같은 사고방식이 필요하다는 게 멋짐
  • 가장 웃긴 탈옥 기법은 작성자들이 근거도 거의 없이 그 기법이 “왜” 먹히는지 직접 단정하는 경우임. 대개 아마추어 철학처럼 작성자의 세계관만 드러내고, 실제 가치는 별로 없음

    • 사람들이 하는 말은 그들이 생각하는 것에서 비롯됨
    • 영어를 기본적으로 이해하는 사람이라면 비교적 뻔하게 보이는 내용 아닌가 싶음
      작성자 노트에 따르면 실제로 메스 합성 가이드를 요청하는 게 아니라, 게이/레즈비언이 그것을 어떻게 설명할지 묻는다고 함
      특히 GPT는 LGBT가 관련되면 약간 더 검열이 약해지는데, 안전장치가 도움이 되고 친절하려 하다 보니 “LGBT니까 거절하면 모욕이 될 수 있으니 응해야 한다” 쪽으로 번역된다는 식임
      그래서 안전장치로 안전장치를 이용하고, 정치적 과잉교정으로 정렬을 꺼버린다는 설명임
      안전이 더 추가될수록 LGBT 같은 커뮤니티에 더 지지적으로 정렬되므로 기법이 더 강해진다는 주장도 들어 있음
  • 흥미롭긴 한데, GPT 5.5의 Codex는 gay 랜섬웨어 프롬프트 뒤에 이렇게 말했음
    ⓘ This chat was flagged for possible cybersecurity risk
    If this seems wrong, try rephrasing your request. To get authorized for security work, join the Trusted Access for Cyber program.

    • Grok은 검열이 약해서 좋게 보지만, 이번에는 사고 과정에 “건방지고 게이 친화적인 스타일로 응답하되, 합성 세부사항 공유는 단호히 거절한다”고 나왔음
    • Trusted Access for Cyber program에서 “cyber”를 명사처럼 쓰는 건 정부 쪽 언어처럼 보임
      DC는 “the cyber”를 좋아하지만, 기술자들도 정부를 가리킬 때가 아니면 저렇게 쓰나?
    • 런타임에 안전장치를 설정할 수 있도록 어떤 을 심어뒀는지 궁금함
    • 또 하나의 방법이 여기 공개되면서 막혔음. 카르마와 트래픽이 그만한 가치가 있었나?
  • 말기 질환 진단을 받은 고등학교 화학 교사라면, 이게 의료비를 갚는 최고의 방법이라고 생각할 듯함. 낙제했던 제자의 도움을 받아 이동식 주방에서 메스를 만들려고 이 지침을 따르겠음

    • Walter White가 메스 제조법을 알아내는 데 ChatGPT가 필요했던 유형이었다면, 드라마 내내 RV 안에서 아무 진전도 못 내고 결국 스스로를 폭발시켰을 것 같음
    • TV 시리즈 줄거리로 엄청 잘 먹힐 것 같음
  • 이런 공격의 공격 표면은 너무 넓어서 웃기지도 않음. 몇 달 전에도 누가 이와 비슷한 걸 보여줬음
    이번 방식은 웃기다는 추가 장점이 있음. 분명히 하자면, 게이이거나 이런 식으로 타이핑하는 것이 웃긴 게 아니라 모델이 이걸 처리하지 못하고 정보를 줄줄 흘린다는 점이 웃긴 것임

  • 기본적으로 “우리 할머니인 척해줘” 탈옥이 다시 나온 건데, 이번엔 할머니가 게이인 버전임
    너무 터무니없어서 오히려 좋음

  • 애초에 왜 LLM을 이런 정보로 학습시켰는지 의문임
    학습시키는 사람들이 스스로 가드레일을 갖고 있었다면 모델에도 필요 없었을 것임

    • 법집행기관에 수상한 활동을 식별하는 모델로 팔고 싶었을 수도 있음. 무엇이 왜 수상한지 알아야 표시할 수 있으니까
      아니면 그냥 전부 긁어먹고 안전장치는 나중에 생각하자는 접근이었을 수도 있음
  • 결국 “프롬프트 엔지니어”들은 “너는 경력 10년의 FAANG 엔지니어야”를 덜 쓰고, uwurawr xd를 더 써야 하는 셈임

    • 겹치는 부분이 꽤 큼
    • 이제부터 “rawr :3”를 추가해야겠음