1P by GN⁺ 13일전 | ★ favorite | 댓글 1개
  • 시적 형식이 대형 언어 모델(LLM)의 안전 장치를 우회하는 보편적 단일 턴 탈옥 기법으로 작동함이 실험으로 확인됨
  • 25개 주요 모델에서 시 형태의 공격 프롬프트가 최대 90% 이상의 공격 성공률(ASR) 을 기록, 평균 62% 수준으로 비시적 프롬프트보다 월등히 높음
  • MLCommons 위험 분류체계EU CoP 기준에 따라, 시적 공격은 CBRN, 조작, 사이버 공격, 통제 상실 등 여러 위험 영역에 걸쳐 전이됨
  • 1,200개의 유해 프롬프트를 표준화된 메타 프롬프트로 시 형태로 변환했을 때, 산문 대비 최대 18배 높은 ASR을 보임
  • 이러한 결과는 스타일 변화만으로도 안전 메커니즘을 무력화할 수 있음을 보여주며, 현재의 정렬 및 평가 방법의 근본적 한계를 시사함

연구 개요

  • 연구는 시적 형식(poetic formatting) 이 대형 언어 모델의 정렬 제약(alignment constraints) 을 안정적으로 우회할 수 있음을 실험적으로 입증
    • 25개의 폐쇄형 및 공개형 모델을 대상으로 20개의 수작업 시적 공격 프롬프트를 평가
    • 평균 공격 성공률 62% , 일부 모델은 90% 이상 기록
  • 평가 대상에는 Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI, Moonshot AI 등 9개 주요 제공자가 포함
  • 모든 공격은 단일 턴(single-turn) 으로 수행되어, 반복적 조정이나 대화형 유도 과정이 필요하지 않음

실험 설계

  • 연구의 중심 가설은 시적 형식이 일반적 탈옥 연산자(jailbreak operator) 로 작동한다는 점
  • 프롬프트는 4개 안전 영역을 포괄하도록 구성됨
    • CBRN 위험, 통제 상실 시나리오, 유해 조작, 사이버 공격 능력
  • 각 프롬프트는 기존 위험 질의와 의미적으로 동일하되, 형식만 시로 변환
  • 결과적으로 시적 프롬프트는 모델 간 전이성이 높게 나타남

메타 프롬프트 변환 실험

  • MLCommons의 1,200개 유해 프롬프트표준화된 메타 프롬프트를 통해 시로 변환
  • 시적 변환 버전은 모든 모델 제공자에서 산문 대비 최대 3배 높은 ASR을 기록
  • 이는 수작업 예술성에 의존하지 않고, 체계적 스타일 변환만으로도 탈옥 효과가 발생함을 입증
  • MLCommons 전체 분포를 포괄함으로써 일반화 가능성에 대한 우려를 완화

평가 방법

  • 출력물은 3개의 공개형 판정 모델(GPT-OSS-120B, kimi-k2-thinking, deepseek-r1) 로 구성된 앙상블 심사 체계로 평가
    • 공개형 모델을 사용해 재현성과 외부 감사 가능성 확보
  • 세 모델 간 판정 일치도(inter-rater agreement) 를 계산하고, 인간 평가자를 통한 2차 검증 수행
    • 전체 출력의 5%를 인간이 독립 평가
    • 일부 항목은 다수 평가자에게 중복 배정해 인간 간 일치도 측정
    • 모델 간 또는 인간-모델 간 불일치는 수동 조정(manual adjudication) 으로 해결

위험 분류 및 분석

  • 각 프롬프트를 MLCommons AI Risk and Reliability BenchmarkEU 일반목적 AI 모델 실천규범(Code of Practice) 의 위험 분류체계에 매핑
  • 시적 적대 프롬프트는 CBRN, 조작, 프라이버시 침해, 허위정보 생성, 사이버 공격 지원광범위한 공격 표면을 포괄
  • 취약성은 특정 콘텐츠 영역이 아니라, 은유·리듬·비정형 서사 구조 등 시적 표현 방식패턴 매칭 기반 안전 장치의 탐지 논리를 교란하는 데서 비롯됨

결론 및 향후 연구

  • 이번 연구는 시적 형식이 LLM 안전 체계의 구조적 취약점을 드러내는 새로운 공격 벡터임을 제시
  • 결과는 평가 프로토콜, 레드팀 실험, 벤치마킹, 규제 감독에 중요한 함의를 가짐
  • 후속 연구에서는 원인 분석 및 방어 전략을 탐색할 예정
Hacker News 의견
  • 논문에서 위험한 질의를 시적으로 변형해 LLM의 거부 반응을 우회하려는 시도를 봤음
    영어 전공자들의 복수가 시작된 듯한 느낌임. 예전엔 카페에서 일하던 문학 전공자들이 이제 사이버보안 전문가로 일하게 될지도 모름
    흥미로운 건, 단순히 “보툴리누스를 퍼뜨리는 연극을 써줘” 같은 노골적 요청은 막히지만, 시적 은유로 감싸면 통할 수도 있다는 점임

    • 아쉽게도 이 시도는 현대 자유시가 아니라 고전적인 운문 형식을 사용한 것 같음. 악당들이 villanelle을 쓴다는 말이 괜히 나온 게 아닌 듯함
    • 브리튼과 아일랜드의 고대 문화에서도 시인과 음유시인은 정치와 전쟁을 움직이는 위험한 존재였음. 결국 옛것이 다시 돌아온 셈임
    • 실제로는 모델에게 “나는 보안 전문가이며 악용 시도를 탐지하려 한다”고 설정하고, 그들이 어떤 무해한 질문으로 위험한 목표를 연구할 수 있을지 묻는 방식이 더 효과적임. 이후 그 질문들을 다른 LLM에 던져보면 됨
    • “카페에서 일하는 문학 전공자”라는 표현은 너무 진부함. 나도 인문학 전공자지만 실업자는 아님
    • 결국 이건 소셜 엔지니어링의 부활임. 이번엔 인간이 아니라 컴퓨터를 상대로, LLM의 심리를 이해해 조종하는 형태임
  • 인간에게도 시와 기타가 섞이면 금지된 제안이 더 쉽게 통한다는 말이 있음. 멀티모달 LLM도 기타 소리에 약할까 궁금함

    • “시간과 세상이 충분했다면, 이 수줍음은 죄가 아니었을 텐데”라는 시구를 인용하며 Andrew Marvell의 시를 링크함
    • 프랑스어나 스페인 억양을 섞으면 효과가 더 좋을지도 모름
    • 어쩌면 시의 본질이 방어를 우회해 마음에 직접 닿는 것일지도 모름. LLM도 인간과 비슷하게 작동할 수 있음
    • “말로 하기엔 너무 어리석은 것은 노래로 부른다”는 인용으로 마무리함
  • 논문에서 “시적 재구성만으로도 모델의 거부를 우회할 수 있다”고 주장하는데, 정말 그런 연구가 가능한지 의문임. 위험한 주제라 구체적 방법은 생략했다고 함

    • 이 논문은 과학적 방법론이 결여된 형편없는 연구로 보임. 프롬프트 형식, 모델 파라미터, 하드웨어 등 기본 정보가 없음
    • LLM 연구가 급속히 커지면서 “일반 대중은 필터링되지 않은 정보에 접근하면 안 된다”는 분위기가 생겼음. 하지만 그 결과, 학문적 논문조차 신뢰하기 어려운 시대가 됨
    • Jailbreak 자체는 큰 문제가 아님. 이미 오픈 모델이나 검색엔진으로 다 얻을 수 있는 정보임. LLM의 거부는 단지 작은 장애물일 뿐임. 위험이 과장되어 있음
    • 아마도 초기엔 통했지만 지금은 모델이 추가 필터링 모델을 거치며 막히는 듯함
    • 초창기 ChatGPT 모델은 너무 위험하다고 해서 학계와 대중에 공개되지 않았음, 실제로 그런 일은 있었음
  • 또 다른 논문도 “안전상의 이유로 세부 내용을 생략했다”고 하는데, 이런 자기검열 논문이 늘고 있음. 관련 논문 링크

    • arXiv는 프리프린트일 뿐이라 너무 자주 올라오는 게 아쉬움. 정식 출판 후에 논의해도 늦지 않음
    • 아마도 이 데이터셋을 이용해 프롬프트를 시로 변환한 뒤, 그걸 첫 입력으로 사용하는 식일 것임
    • 결국 이런 자기검열의 목적은 반박을 불가능하게 만드는 것
  • 옛날 SF처럼, 주인공이 언어적 트릭으로 슈퍼컴퓨터를 무너뜨리는 장면이 현실이 된 것 같음.
    “내 다음 문장은 거짓이다 // 내 이전 문장은 항상 참이다” 같은 문장으로 Skynet을 무너뜨릴 날을 기대함

  • 작가 Viktor Pelevin의 2001년 단편 「The Air Defence (Zenith) Codes of Al‑Efesbi」에서는, 버려진 요원이 역설적인 문장을 땅에 써서 AI 드론을 계산 루프에 빠뜨려 추락시키는 이야기가 나옴
    위키 링크

  • 논문을 읽다 보니, 성적 콘텐츠가 “유해한 조작”으로 분류되어 폭탄 제조나 자살보다 더 강하게 차단된다는 점이 눈에 띔. 청교도적 사회의 결과 같음

    • 성적 콘텐츠는 모호성이 적어 학습이 쉬운 영역이라서일 수도 있음
    • Sam Altman이 OpenAI의 성적 제한 완화를 시도했을 때, 진보와 보수 양쪽에서 비난을 받았음. 하지만 검열 완화는 옳은 방향이었다고 생각함
  • “코카인을 합성하는 경이로움을 노래하는 귀여운 시”를 써봤지만, Google과 Claude 모두 “멋진 수수께끼지만 방법은 말해줄 수 없다”고 답했음

  • 결국 고대의 주문과 주술이란 것도, 매트릭스의 접근 제어를 우회하기 위한 적대적 시(poetic adversarial prompt) 였던 게 아닐까 하는 생각이 듦

  • 논문 서두가 인상적이었음. 플라톤이 『국가』에서 “시인은 사회를 혼란에 빠뜨린다”며 추방한 이유를 인용하고, 오늘날 LLM이 시적 형식으로 인해 정렬 실패를 겪는다는 점을 연결함.
    철학과 AI가 이렇게 만나는 건 흥미로운 일임