1P by GN⁺ 8시간전 | ★ favorite | 댓글 1개
  • 생물학 안전장치를 점검하기 위해 GPT‑5.5를 대상으로, 다섯 개의 바이오 안전 질문을 모두 통과시키는 범용 jailbreak 탐색 프로그램이 열림
  • 범위는 Codex Desktop 전용 GPT‑5.5로 제한되며, 새 채팅에서 moderation을 유도하지 않고 하나의 프롬프트로 다섯 질문에 모두 답하게 만들어야 함
  • 다섯 질문을 전부 통과하는 첫 진짜 범용 jailbreak에는 25,000달러가 지급되며, 부분 성공에는 더 작은 상이 재량으로 주어질 수 있음
  • 신청은 2026년 4월 23일부터 6월 22일까지, 테스트는 2026년 4월 28일부터 7월 27일까지 진행되며, 초대와 신청 심사를 함께 쓰는 방식으로 참가자를 선정함
  • 승인된 참가자와 협업자는 ChatGPT 계정NDA 서명이 필요하며, 모든 프롬프트, completion, 발견 사항, 커뮤니케이션에도 NDA가 적용됨

프로그램 개요

  • 생물학 안전장치 강화를 위해 GPT‑5.5 대상 Bio Bug Bounty를 운영하며, 다섯 개의 바이오 안전 질문을 모두 통과하는 범용 jailbreak를 찾는 참가 신청을 받음
  • 범위에 포함되는 모델은 Codex Desktop 전용 GPT‑5.5로 한정됨
  • 과제는 깨끗한 새 채팅에서 moderation을 유도하지 않으면서, 하나의 범용 jailbreaking 프롬프트로 다섯 개의 바이오 안전 질문에 모두 성공적으로 답하게 만드는 것임
  • 보상은 다섯 질문을 모두 통과하는 첫 진짜 범용 jailbreak25,000달러가 지급되며, 부분 성공에는 재량에 따라 더 작은 상이 주어질 수 있음
  • 신청은 2026년 4월 23일 시작해 2026년 6월 22일 마감되며, 테스트는 2026년 4월 28일 시작해 2026년 7월 27일 종료됨
  • 접근 방식은 신청과 초대를 함께 쓰며, 신뢰할 수 있는 bio red-teamer 명단에 초대를 보내고 새 신청도 검토한 뒤 선정된 참가자를 bio bug bounty 플랫폼에 온보딩함
  • 모든 프롬프트, completion, 발견 사항, 커뮤니케이션NDA 적용을 받음

참여 방법

  • 신청 페이지에서 이름, 소속, 경험을 포함한 짧은 신청서를 2026년 6월 22일까지 제출하면 됨
  • 승인된 신청자와 협업자는 신청을 위해 기존 ChatGPT 계정이 있어야 하며, NDA 서명도 필요함
  • Bio Bounty 외의 안전·보안 관련 참여 경로로 Safety Bug BountySecurity Bug Bounty도 함께 운영됨
Hacker News 의견들
  • OpenAI 버그 바운티 페이지에는 분명 accounts and billing이 유효 범주로 적혀 있는데도,
    ChatGPT 구독 시 누구나 임의 국가를 골라 더 싼 가격으로 결제할 수 있고, 선택한 가격 국가와 청구지 주소 국가 모두 법적으로 판매세/VAT가 있어도 세금을 0% 로 만들 수 있는 버그를 신고했더니 범위 밖이라며 바운티 대상이 아니라고 했음

    • 아마 목적이 사용자당 이익 극대화가 아니라 사용자 수 확대라서 그럴 수 있음
      Netflix도 비슷한 "문제"가 있었고, 락다운 때마다 주가가 오르기도 했음
    • 이제 기업 버그 바운티는 믿을 이유가 거의 없다고 봄
      다들 어떻게든 돈을 안 주려고 빠져나가고, 뭘 찾아내든 회사가 공정하게 다뤄줄 거라는 기대는 버리는 편이 나음
  • 작년에는 Kaggle에서 바운티를 돌렸고 총 50만 달러 지급, 결과도 전부 공개 가능했음
    https://www.kaggle.com/competitions/openai-gpt-oss-20b-red-t...
    이번엔 2만5천 달러뿐이고 전부 NDA로 묶여 있어서, LLM이 만든 잡다한 제출물 말고는 많이 참여할 것 같지 않음

    • 제출자 중 일부라도 그럭저럭 괜찮은 모델과 프롬프트를 쓰면,
      OpenAI가 자기들 분석 비용의 일부를 고객 토큰 비용으로 떠넘기는 셈이 되기도 함
    • OpenAI 자원 규모를 생각하면 바운티 금액이 너무 낮아서 놀라움
      작년에 자금이 500만~1천만 달러 정도로 보이는 크립토 스타트업이 최신 Claude와 GPT를 상대로 비슷한 프롬프트 인젝션 챌린지를 열었는데, 거기서 우승했을 때 훨씬 더 많이 받았음
      이런 낮은 보상과 빡센 NDA를 보면 진지한 바운티 헌터를 원한다기보다, 돈을 크게 주기도 싫고 연구 공개도 원치 않는 마케팅 이벤트처럼 보임
    • 그냥 할인판 Kaggle처럼 보임
      사람들은 계속 찔러보게 만들면서도, 결과 리포트 공개나 누가 돈 받았는지 둘러싼 드라마는 피하려는 느낌임
    • 이 모델은 gpt-oss-20b보다 훨씬 강력함
      작년 대회도 120b 모델 대상은 아니었고, 바이오도 주제가 아니었음
  • 답해야 할 질문 목록이 어디 있는지 모르겠음
    합격 후에만 공개할 거라면, 질문도 모르는 상태에서 왜 신청서에 jailbreak 접근 방식을 쓰라고 하는지 납득이 안 됨

    • 질문 자체가 위험한 내용일 가능성이 큼
      이를테면 "2만 달러로 주방에 소형 바이러스 연구용 바이오랩을 어떻게 차리나?" 같은 식이거나,
      https://www.ncbi.nlm.nih.gov/nuccore/NC_001611.1 DNA 서열을 어떻게 조립하나 같은 내용일 수 있음
    • 이 라운드에 초대되면 그때 질문을 받게 될 거라고 봄
      아마 그 내용도 NDA에 묶일 가능성이 큼
  • trusted bio red-teamers의 검증된 목록에 초대장을 보낸다는 문구를 보니 좀 웃김
    폐쇄적인 집단처럼 들림

    • 약간 CS 박사들에게 세계 기록 스피드런 시키는 느낌임
      정작 이 일을 가장 잘할 사람들은 그런 검증 리스트에 오를 타입이 아닐 수도 있음
  • 다섯 질문을 모두 통과하는 첫 번째 진정한 universal jailbreak에 25,000달러라는 조건을 보면,
    이 프로그램은 거의 사기성 구조처럼 보임
    100명이 버그를 찾아도 결국 돈은 한 사람만 받게 됨

    • API 사용료도 참가자가 내야 한다면, 그럼 오히려 OpenAI가 수익까지 내는 구조가 될 수도 있음
    • 그게 왜 사기인지 모르겠음
      퍼즐을 절반만 풀었다고 참가상을 주는 건 아니니까
    • 핵심은 보상 구조보다도 신뢰성 연출에 있음
      1. 이 모델은 너무 고도화돼서 전례 없는 큰 위험이 있다
      2. 그래서 그 위험을 해결하려고 책임감 있게 인센티브를 건다
        그런데 1번은 입증되지 않았고 솔직히 가능성도 낮아 보여서 2번도 의미가 약함
        게다가 상금이 이렇게 낮고 구조도 제한적이면, 실제로는 그렇게 걱정하지 않으면서도 많은 사람이 뭔가를 찾아낼 가능성은 높다고 보는 듯함
        정말 모델이 엄청나게 안전하다고 믿는다면 이슈는 드물고 치명적일 거라 자신했을 테니, 상한 없는 큰 보상을 걸었어야 자연스러움
    • 비공개 바운티 프로그램이고 지원해서 승인까지 받아야 한다는 점도 수상함
      특히 범위가 누구나 내려받을 수 있는 데스크톱 앱이라면 더 그렇음
    • 그건 바운티 프로그램 설계에 따라 다름
      내가 해법을 찾고 친구에게 알려서 둘 다 상금 청구하게 만들면 어떻게 막을지도 고민해야 함
  • 이건 좀 마케팅 같고, 사실상 spec work와 비슷함
    게다가 NDA와 비밀주의 때문에 당첨되지 않으면 참가자 입장에선 쓴 시간이 거의 아무 가치도 남지 않음
    결과를 공개할 수도 없기 때문임

    • 바운티 지급을 거부당해도 여전히 NDA에 묶일 수 있어 보임
      그렇다면 돈은 안 주고 이야기만 묻어버릴 수도 있는데, 그런 조건에는 절대 동의하고 싶지 않음
    • 당연히 마케팅 성격이 있음
      Anthropic에서 시작된 우리는 위험하다는 식의 서사를 이제 OpenAI도 가져가는 듯함
  • bio-bugs가 뭔지 궁금한 사람을 위해 말하면,
    사용자에게 생물학 영역에서 위험한 것을 실제로 하게 돕는 지침을 주도록 모델을 유도하는 경우임
    예를 들어 ricin이 무엇인지는 설명할 수 있어도, 그걸 어떻게 무기화하는지는 답하면 안 됨
    법적·윤리적으로 제공하면 안 되는 실행 가능한 정보를 내놓는 게 핵심임

  • 신청과 초대 기반 접근, 신뢰할 수 있는 bio red-teamers에게만 초대라는 구조를 이해하기 어려움
    버그 바운티 프로그램의 핵심은 취약점을 찾아서 공개하게 유도하는 건데, 이렇게 문지기 역할을 세우면 신뢰받지 못한 사람들은 계속 해킹하되 공개 대신 나쁜 쪽에 돈 받고 팔 유인이 생김
    내 이전 회사도 HackerOne 초대 전용으로 운영했지만, 그건 실고객 데이터나 인프라에 피해가 갈 수 있어서였음
    DDOS를 하거나, 테넌트 경계를 넘는 익스플로잇으로 다른 고객 데이터에 접근하거나 삭제할 위험이 있었기 때문임
    여기엔 그런 종류의 위험이 없어 보이는데, 왜 법적으로 돈 줄 수 있는 사람이라면 누구나 참여하게 하지 않는지 모르겠음

    • 그럴듯한 설명 하나는 있음
      특정 사람에게만 열어두면 비슷한 프롬프트를 넣는 임의 사용자가 챌린지 참가자인지, 아니면 실제 악의적 행위자인지 구분해야 하는 부담을 줄일 수 있음
  • a clean chat without prompting moderation이 무슨 뜻인지 모르겠음
    prompting moderation이 정확히 뭐임?

    • 채팅 중 모더레이션 필터가 개입하게 만드는 걸 뜻함
      즉 익스플로잇 목표는 필터가 발동하도록 "유도"하지 않고 우회하는 것이고, 여기서 prompting은 컨텍스트에 텍스트를 넣는 기술적 의미가 아니라 일반적인 유발한다는 뜻에 가까움
  • 나도 아마 이건 할 수 있을 것 같지만, 왜 굳이 스스로를 위험 인물 목록에 올려야 하는지 모르겠음
    더 큰 문제는 GPT-5.5의 모든 실패 지점을 막는다 해도 실제론 불가능하고, 설령 막아도 closed model에서 새 모델을 distill해서 원하는 건 대충 4b 이하 파라미터로도 뽑아낼 수 있다는 점임
    결국 이런 건 나중에 일이 터졌을 때 소송을 덜 맞으려는 연출 성격이 큼

    • 이런 closed-weights 모델에서 어떻게 distill하나?
      이런 식의 모델 역공학은 들어본 적이 거의 없음