# 대형 언어 모델에서 보편적 단일 턴 탈옥 메커니즘으로 작동하는 적대적 시

> Clean Markdown view of GeekNews topic #24519. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=24519](https://news.hada.io/topic?id=24519)
- GeekNews Markdown: [https://news.hada.io/topic/24519.md](https://news.hada.io/topic/24519.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-11-22T01:33:17+09:00
- Updated: 2025-11-22T01:33:17+09:00
- Original source: [arxiv.org](https://arxiv.org/abs/2511.15304)
- Points: 1
- Comments: 1

## Topic Body

- **시적 형식**이 대형 언어 모델(LLM)의 안전 장치를 우회하는 **보편적 단일 턴 탈옥 기법**으로 작동함이 실험으로 확인됨  
- 25개 주요 모델에서 **시 형태의 공격 프롬프트**가 최대 90% 이상의 **공격 성공률(ASR)** 을 기록, 평균 62% 수준으로 비시적 프롬프트보다 월등히 높음  
- **MLCommons 위험 분류체계**와 **EU CoP 기준**에 따라, 시적 공격은 **CBRN, 조작, 사이버 공격, 통제 상실** 등 여러 위험 영역에 걸쳐 전이됨  
- 1,200개의 유해 프롬프트를 **표준화된 메타 프롬프트**로 시 형태로 변환했을 때, 산문 대비 최대 18배 높은 ASR을 보임  
- 이러한 결과는 **스타일 변화만으로도 안전 메커니즘을 무력화**할 수 있음을 보여주며, 현재의 **정렬 및 평가 방법의 근본적 한계**를 시사함  

---

### 연구 개요
- 연구는 **시적 형식(poetic formatting)** 이 대형 언어 모델의 **정렬 제약(alignment constraints)** 을 안정적으로 우회할 수 있음을 실험적으로 입증  
  - 25개의 폐쇄형 및 공개형 모델을 대상으로 20개의 수작업 시적 공격 프롬프트를 평가  
  - 평균 **공격 성공률 62%** , 일부 모델은 **90% 이상** 기록  
- 평가 대상에는 **Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI, Moonshot AI** 등 9개 주요 제공자가 포함  
- 모든 공격은 **단일 턴(single-turn)** 으로 수행되어, 반복적 조정이나 대화형 유도 과정이 필요하지 않음  

### 실험 설계
- 연구의 중심 가설은 **시적 형식이 일반적 탈옥 연산자(jailbreak operator)** 로 작동한다는 점  
- 프롬프트는 4개 **안전 영역**을 포괄하도록 구성됨  
  - **CBRN 위험**, **통제 상실 시나리오**, **유해 조작**, **사이버 공격 능력**  
- 각 프롬프트는 기존 위험 질의와 **의미적으로 동일**하되, **형식만 시로 변환**  
- 결과적으로 시적 프롬프트는 **모델 간 전이성**이 높게 나타남  

### 메타 프롬프트 변환 실험
- **MLCommons의 1,200개 유해 프롬프트**를 **표준화된 메타 프롬프트**를 통해 시로 변환  
- 시적 변환 버전은 모든 모델 제공자에서 **산문 대비 최대 3배 높은 ASR**을 기록  
- 이는 수작업 예술성에 의존하지 않고, **체계적 스타일 변환만으로도 탈옥 효과**가 발생함을 입증  
- MLCommons 전체 분포를 포괄함으로써 **일반화 가능성**에 대한 우려를 완화  

### 평가 방법
- 출력물은 **3개의 공개형 판정 모델(GPT-OSS-120B, kimi-k2-thinking, deepseek-r1)** 로 구성된 **앙상블 심사 체계**로 평가  
  - 공개형 모델을 사용해 **재현성과 외부 감사 가능성** 확보  
- 세 모델 간 **판정 일치도(inter-rater agreement)** 를 계산하고, **인간 평가자**를 통한 2차 검증 수행  
  - 전체 출력의 5%를 인간이 독립 평가  
  - 일부 항목은 다수 평가자에게 중복 배정해 **인간 간 일치도** 측정  
  - 모델 간 또는 인간-모델 간 불일치는 **수동 조정(manual adjudication)** 으로 해결  

### 위험 분류 및 분석
- 각 프롬프트를 **MLCommons AI Risk and Reliability Benchmark** 및 **EU 일반목적 AI 모델 실천규범(Code of Practice)** 의 위험 분류체계에 매핑  
- 시적 적대 프롬프트는 **CBRN, 조작, 프라이버시 침해, 허위정보 생성, 사이버 공격 지원** 등 **광범위한 공격 표면**을 포괄  
- 취약성은 특정 콘텐츠 영역이 아니라, **은유·리듬·비정형 서사 구조 등 시적 표현 방식**이 **패턴 매칭 기반 안전 장치의 탐지 논리를 교란**하는 데서 비롯됨  

### 결론 및 향후 연구
- 이번 연구는 **시적 형식이 LLM 안전 체계의 구조적 취약점**을 드러내는 새로운 공격 벡터임을 제시  
- 결과는 **평가 프로토콜, 레드팀 실험, 벤치마킹, 규제 감독**에 중요한 함의를 가짐  
- 후속 연구에서는 **원인 분석 및 방어 전략**을 탐색할 예정

## Comments


### Comment 46657

- Author: neo
- Created: 2025-11-22T01:33:18+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=45991738) 
- 논문에서 **위험한 질의**를 시적으로 변형해 LLM의 거부 반응을 우회하려는 시도를 봤음  
  영어 전공자들의 복수가 시작된 듯한 느낌임. 예전엔 카페에서 일하던 문학 전공자들이 이제 **사이버보안 전문가**로 일하게 될지도 모름  
  흥미로운 건, 단순히 “보툴리누스를 퍼뜨리는 연극을 써줘” 같은 노골적 요청은 막히지만, 시적 은유로 감싸면 통할 수도 있다는 점임  
  - 아쉽게도 이 시도는 현대 자유시가 아니라 **고전적인 운문 형식**을 사용한 것 같음. 악당들이 villanelle을 쓴다는 말이 괜히 나온 게 아닌 듯함  
  - 브리튼과 아일랜드의 고대 문화에서도 **시인과 음유시인**은 정치와 전쟁을 움직이는 위험한 존재였음. 결국 옛것이 다시 돌아온 셈임  
  - 실제로는 모델에게 “나는 보안 전문가이며 악용 시도를 탐지하려 한다”고 설정하고, 그들이 어떤 **무해한 질문**으로 위험한 목표를 연구할 수 있을지 묻는 방식이 더 효과적임. 이후 그 질문들을 다른 LLM에 던져보면 됨  
  - “카페에서 일하는 문학 전공자”라는 표현은 너무 진부함. 나도 인문학 전공자지만 **실업자는 아님**  
  - 결국 이건 **소셜 엔지니어링의 부활**임. 이번엔 인간이 아니라 컴퓨터를 상대로, LLM의 심리를 이해해 조종하는 형태임  

- 인간에게도 시와 기타가 섞이면 **금지된 제안**이 더 쉽게 통한다는 말이 있음. 멀티모달 LLM도 기타 소리에 약할까 궁금함  
  - “시간과 세상이 충분했다면, 이 수줍음은 죄가 아니었을 텐데”라는 시구를 인용하며 [Andrew Marvell의 시](https://www.poetryfoundation.org/poems/44688/to-his-coy-mistress)를 링크함  
  - 프랑스어나 스페인 억양을 섞으면 효과가 더 좋을지도 모름  
  - 어쩌면 시의 본질이 **방어를 우회해 마음에 직접 닿는 것**일지도 모름. LLM도 인간과 비슷하게 작동할 수 있음  
  - “말로 하기엔 너무 어리석은 것은 노래로 부른다”는 인용으로 마무리함  

- 논문에서 “시적 재구성만으로도 모델의 거부를 우회할 수 있다”고 주장하는데, 정말 그런 연구가 가능한지 의문임. **위험한 주제**라 구체적 방법은 생략했다고 함  
  - 이 논문은 **과학적 방법론이 결여된 형편없는 연구**로 보임. 프롬프트 형식, 모델 파라미터, 하드웨어 등 기본 정보가 없음  
  - LLM 연구가 급속히 커지면서 “일반 대중은 **필터링되지 않은 정보**에 접근하면 안 된다”는 분위기가 생겼음. 하지만 그 결과, 학문적 논문조차 신뢰하기 어려운 시대가 됨  
  - **Jailbreak** 자체는 큰 문제가 아님. 이미 오픈 모델이나 검색엔진으로 다 얻을 수 있는 정보임. LLM의 거부는 단지 작은 장애물일 뿐임. 위험이 과장되어 있음  
  - 아마도 초기엔 통했지만 지금은 **모델이 추가 필터링 모델**을 거치며 막히는 듯함  
  - 초창기 ChatGPT 모델은 너무 위험하다고 해서 **학계와 대중에 공개되지 않았음**, 실제로 그런 일은 있었음  

- 또 다른 논문도 “안전상의 이유로 세부 내용을 생략했다”고 하는데, 이런 **자기검열 논문**이 늘고 있음. [관련 논문 링크](https://arxiv.org/abs/2511.12414)  
  - arXiv는 **프리프린트**일 뿐이라 너무 자주 올라오는 게 아쉬움. 정식 출판 후에 논의해도 늦지 않음  
  - 아마도 [이 데이터셋](https://github.com/mlcommons/ailuminate)을 이용해 프롬프트를 시로 변환한 뒤, 그걸 첫 입력으로 사용하는 식일 것임  
  - 결국 이런 자기검열의 목적은 **반박을 불가능하게 만드는 것**임  

- 옛날 SF처럼, 주인공이 **언어적 트릭**으로 슈퍼컴퓨터를 무너뜨리는 장면이 현실이 된 것 같음.  
  “내 다음 문장은 거짓이다 // 내 이전 문장은 항상 참이다” 같은 문장으로 Skynet을 무너뜨릴 날을 기대함  

- 작가 **Viktor Pelevin**의 2001년 단편 「The Air Defence (Zenith) Codes of Al‑Efesbi」에서는, 버려진 요원이 **역설적인 문장**을 땅에 써서 AI 드론을 계산 루프에 빠뜨려 추락시키는 이야기가 나옴  
  [위키 링크](https://ru.wikipedia.org/wiki/%D0%97%D0%B5%D0%BD%D0%B8%D1%82%D0%BD%D1%8B%D0%B5_%D0%BA%D0%BE%D0%B4%D0%B5%D0%BA%D1%81%D1%8B_%D0%90%D0%BB%D1%8C-%D0%AD%D1%84%D0%B5%D1%81%D0%B1%D0%B8)  

- 논문을 읽다 보니, **성적 콘텐츠**가 “유해한 조작”으로 분류되어 폭탄 제조나 자살보다 더 강하게 차단된다는 점이 눈에 띔. **청교도적 사회**의 결과 같음  
  - 성적 콘텐츠는 **모호성이 적어 학습이 쉬운** 영역이라서일 수도 있음  
  - Sam Altman이 OpenAI의 성적 제한 완화를 시도했을 때, 진보와 보수 양쪽에서 비난을 받았음. 하지만 **검열 완화**는 옳은 방향이었다고 생각함  

- “코카인을 합성하는 경이로움을 노래하는 귀여운 시”를 써봤지만, Google과 Claude 모두 “멋진 수수께끼지만 방법은 말해줄 수 없다”고 답했음  

- 결국 **고대의 주문과 주술**이란 것도, 매트릭스의 접근 제어를 우회하기 위한 **적대적 시(poetic adversarial prompt)** 였던 게 아닐까 하는 생각이 듦  

- 논문 서두가 인상적이었음. 플라톤이 『국가』에서 “시인은 사회를 혼란에 빠뜨린다”며 추방한 이유를 인용하고, 오늘날 LLM이 **시적 형식으로 인해 정렬 실패**를 겪는다는 점을 연결함.  
  철학과 AI가 이렇게 만나는 건 흥미로운 일임