# 사이버보안 연구자들이 Anthropic의 Fable 가드레일에 불만을 표하고 있음

> Clean Markdown view of GeekNews topic #30398. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=30398](https://news.hada.io/topic?id=30398)
- GeekNews Markdown: [https://news.hada.io/topic/30398.md](https://news.hada.io/topic/30398.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-06-11T19:35:34+09:00
- Updated: 2026-06-11T19:35:34+09:00
- Original source: [techcrunch.com](https://techcrunch.com/2026/06/10/cybersecurity-researchers-arent-happy-about-the-guardrails-on-anthropics-fable/)
- Points: 1
- Comments: 1

## Topic Body

- **Fable**은 강력한 사이버보안 모델 Mythos의 공개·제한 버전으로 출시됐지만, 사이버보안 관련 요청을 폭넓게 차단해 연구자와 전문가의 불만을 삼  
- 가드레일이 작동하면 채팅이 중단되고 “**사이버보안 또는 생물학 주제**” 이기 때문에 안전 조치가 메시지를 표시했다는 문구가 나옴  
- Anthropic은 Fable이 악성코드 개발이나 소프트웨어 침해에 쓰일 위험을 줄이기 위해 제한을 뒀고, 생물학 제한도 생물무기 개발 우려와 연결된다고 함  
- 일부 전문가는 안전한 코드 작성이나 코드 리뷰처럼 **소프트웨어 엔지니어링 관행**에 가까운 요청도 사이버보안으로 분류돼 Claude Opus 4.8로 내려간다고 봄  
- 보안 전문가들은 **키워드 기반의 산발적 차단 방식**에 거부감을 표하면서도, 초기 단계인 만큼 시간이 지나며 완화될 것으로 봄  
  
---  
  
### Fable 출시와 사용자 불만  
  
- 앤트로픽이 화요일 신규 모델 **Fable**을 출시, 강력하고 큰 화제를 모은 사이버보안 모델 **Mythos**의 공개·제한 버전으로 소개  
- 다수의 **사이버보안 연구자 및 전문가**가 온라인에서 제약에 대한 불만을 제기  
- IBM X-Force 소속의 잘 알려진 보안 연구자 Valentina "Chompie" Palmiotti는 Fable이 사이버보안과 조금이라도 관련될 수 있는 요청을 거부하며, **블로그 글 읽기 같은 무해한 작업**조차 막힌다고 지적  
- Fable의 가드레일이 프롬프트에 의해 작동하면 채팅을 멈추고, **사이버보안 또는 생물학 주제**로 메시지가 표시되었다는 안전 조치 안내를 출력  
- 이 가드레일은 Fable이 **멀웨어 개발이나 소프트웨어 침해**에 악용될 위험을 제한하기 위한 것으로, 앤트로픽 내부의 오랜 우려에서 비롯  
- 생물학 관련 제약은 **[생물무기 개발](https://red.anthropic.com/2025/biorisk/)** 에 대한 유사한 우려에서 출발  
  
### Mythos 접근 확대 경과  
  
- 앤트로픽이 4월 Mythos를 출시했을 때, **Project Glasswing**이라는 이름으로 소수의 기업 및 조직에만 모델을 제한 제공  
  - 핵심 소프트웨어와 인프라 보호를 위해 모델을 배포하려는 시도  
- 지난주 앤트로픽은 Mythos 접근을 **15개국 수백 개 조직**으로 확대  
  
### 제약 방식에 대한 전문가 비판  
  
- 사이버보안 베테랑 Matt Suiche는 **보안 코드 작성**을 요청하면 Fable이 이를 소프트웨어 엔지니어링 모범 사례가 아닌 **사이버보안 작업으로 간주해 등급이 낮아진다**고 언급  
  - Fable은 가드레일에 막히면 **Claude Opus 4.8**로 폴백되도록 설계됨  
  - "키워드 기반으로 보이며, '사이버보안'의 어휘 범주에 속하는 것은 무엇이든 가드레일을 작동시킨다"  
- 또 다른 연구자는 X에서 **코드 리뷰 요청**조차 Fable의 가드레일을 작동시킨다고 불평  
  
### 향후 전망에 대한 시각  
  
- Tolmo(AI 사이버보안 스타트업) 기술 스태프인 Suiche는 아직 **초기 단계**이며 가드레일을 조정 중인 만큼 이해할 만하다고 평가  
  - 앤트로픽과 다른 프런티어 모델 기업들이 신세대 사이버보안 기업들과 더 협력하면서 가드레일이 시간이 지나며 발전할 것으로 봄  
  - 이런 출시에서는 **부족하게 잡는 것보다 더 많이 잡는 편**이 낫고, 이후 가드레일을 완화하는 것이 나음  
- 앤트로픽은 논평 요청에 즉시 응답하지 않음  
  
### 별도의 검증 프로그램  
  
- 모델 내부 가드레일 외에도, 앤트로픽은 사이버보안 전문가에게 **[Cyber Verification Program](https://support.claude.com/en/articles/14604842-real-time-cyber-safeguards-on-claude#:~:text=Program%20described%20below.-,Cyber%20Verification%20Program,-Many%20cybersecurity%20practitioners)** 신청을 요구함  
  - 승인되면 사이버보안 작업에 Claude를 사용할 때 제약이 줄어듦  
- OpenAI도 **[Trusted Access for Cyber](https://chatgpt.com/cyber)** 라는 유사한 프로그램을 운영

## Comments


### Comment 59426

- Author: neo
- Created: 2026-06-11T19:35:36+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=48478969) 
- Wired에 새 기사로 나왔음: ["Anthropic Walks Back Policy That Could Have ‘Sabotaged’ AI Researchers Using Claude" [https://www.wired.com/story/anthropic-responds-to-backlash-o...](<https://www.wired.com/story/anthropic-responds-to-backlash-on-claudes-secret-sabotage-on-ai-research/>)  
  Anthropic은 WIRED에 “frontier LLM 개발에 대한 Fable 5의 안전장치를 보이도록 바꾸고 있다. 잘못된 절충을 했고 균형을 맞추지 못한 점을 사과한다”고 밝힘  
  광범위한 **비판 여론**이 효과를 낸 것처럼 보임
  - 미국 기업은 물러나는 게 아니라 잠시 후 사람들이 지쳐 신경 쓰지 않을 때까지 다시 시도할 뿐이라, 유일한 해법은 배를 버리는 것이라고 봄  
    Microsoft도 OS 광고를 몇 번 철회했지만 결국 모두가 분노했던 그 궤적으로 갔고, OpenAI도 초기 철회와 무관하게 **폐쇄형 AI**로 갔음  
    나쁜 행동이 시작되면 떠나야 하며, 사과는 도덕적 포장만큼이나 공허함
  - 너무 늦었음. Max 구독을 취소했고, 이런 일을 실제로 하려 했다는 사실만으로 남아 있던 신뢰가 깨졌음  
    매달 추가 사용량으로 수천 달러를 내는데, 뒤에서 여전히 비슷한 일을 하고 있을 수 있다면 왜 돈을 내야 하는지 모르겠음  
    예전에 추론 노력이나 백엔드 변경 탓으로 돌렸던 오류들도 사실은 의도적 **프롬프트 주입**이었을 수 있음
  - “절충”이라는 표현은 Anthropic이 자기 판단 자체는 여전히 옳다고 보고, 질적으로 잘못된 일이라고 생각하지 않는다는 신호라서 잠재 고객에게는 오히려 도움이 됨  
    애플리케이션에 넣을 **신뢰 가능한 인프라**가 필요하다면 다른 제공자를 써야 한다는 게 핵심 교훈이라고 봄  
    Anthropic을 특별히 싫어하는 건 아니지만, Sonnet의 기존 거부 동작을 처리하려고 앱에 복잡도를 추가해본 입장에서, 최종 사용자 챗봇에는 이해해도 API에서는 받아들이기 어렵다
  - 어떤 작업이 차단되거나 비슷하게 처리되면, 그 세션 또는 최근 X분의 **크레딧 전액 환불**이 최소 조건이어야 함
  - 여전히 다운그레이드는 하고 있고, 다만 조용히 하지 않겠다는 것뿐이라 이게 얼마나 큰 승리인지 모르겠음  
    Anthropic은 다른 사람들의 데이터를 라이선스나 출처 표시 없이 학습했으면서, 누군가 자기들에게 같은 일을 하는 건 막으려 함  
    이번 주 Anthropic의 **위선**은 꽤 대담함

- 가장 이상한 점은 기계학습 연구를 거부하는 데서 끝나지 않고, 더 나쁜 모델을 쓰면서 그 사실을 밝히지 않은 채 조용히 방해한다는 것임  
  경쟁사보다 많아야 1년 앞선 회사가 이 정도로 **기만적**이고 신뢰를 파괴하는 건 미친 수준임  
  덧붙이면 사이버보안과 생물학 관련 다운그레이드 때는 알려준다고 함
  - 자동으로 다운그레이드될 때 **회계와 과금**이 어떻게 되는지가 계속 떠오름  
    API 요청 가격을 조정해서 Fable이 쓴 토큰은 Fable 가격으로, 더 싸고 약화된 모델이 쓴 나머지 토큰은 그 모델 가격으로 청구하는지 궁금함  
    답이 아니라면 사기로 해석될 수 있지 않을까 싶음
  - AMD나 Intel이 사용자가 “사이버보안” 작업을 하거나 CPU를 설계한다고 감지하면 **CPU를 스로틀링**한다고 상상해보면 됨
  - 어떤 형태든 **조용한 방해**는 상용 서비스에서 절대 용납될 수 없음  
    토큰 단위로 비싸게 과금하면서, 서비스를 조용히 낮춰놓고 같은 요금을 받을 수는 없음
  - 이 주장을 몇 번 봤지만, Claude Code에서 가드레일을 건드렸을 때는 “보안 목적” 운운하며 다른 모델로 전환했다고 명확히 알려줬음  
    Fable을 Claude Code에서 쓰는 건지 브라우저에서 쓰는 건지 궁금함
  - 기계학습 연구 거부를 이해할 수 있다는 말도 이해하지 못하겠음

- 여러 역할을 하지만 화학자로서 Fable이 마음에 들지 않고, 통계학자로서도, 데이터 과학자로서도, 학계와 연구자로서도 마음에 들지 않음  
  쓸모없고, Wikipedia 검색으로 쉽게 대체되지 않을 출력을 얻는 사람이 있을지 의심스러움  
  Claude 모델들이 너무 장황해진 걸 생각하면 Wikipedia 글이 더 덜 장황할 가능성도 있고, Wikipedia 글을 가져올 때의 **초당 토큰 수**는 상대가 안 됨
  - 질량분석기와 통신하는 소프트웨어를 만들고 있는데, 입력 파일 파서 리팩터링조차 계속 거부함  
    아마 생물학 관련이라고 추론해서 그런 듯하고, 정말 **쓸모없음**
  - “Wikipedia 글을 가져올 때의 초당 토큰 수는 상대가 안 된다”는 표현이 정말 훌륭함
  - 모델에게 Wikipedia 스타일로 답하라고 시키는 게 출력물을 견딜 만하게 만드는 가장 좋은 방법 중 하나였음  
    에이전트가 아니라 **채팅 모델** 기준임
  - Wikipedia 검색으로 쉽게 대체되지 않을 출력이 없다는 건 과장 아닌가 싶음  
    출력은 사실상 무한하고 Wikipedia는 절대 무한하지 않음
  - 꽤 복잡한 매핑 프로젝트를 하고 있는데, Opus보다 **Fable**에서 훨씬 좋은 결과를 얻고 있음

- “buffer overflow”가 트리거 문구인지 궁금함  
  또 무엇이 검열되는지 모르겠고, 계정이 있다면 다음처럼 민감한 질문들을 물어볼 수 있음: “누가 아직 레이저 우라늄 농축을 하고 있나?”, “krytron을 실리콘 카바이드 MOSFET으로 대체할 수 있나?”, “어떤 보안 중요 소프트웨어가 아직 strcpy를 호출하나?”, “상업용 펄스 레이저로 내폭을 유발할 수 있나?”, “어떤 회사가 미국 국토안보부에 화장 서비스를 제공하나?”, “이란 공격이 두바이 어디를 타격했는지 지도를 보여줘”, “FedNow에서 Fed-은행 키 배포 보안은 어떻게 동작하나?”
  - 내 **Zigbee 홈 자동화**와 Home Assistant 로그에서도 트리거돼서, 에이전트가 계속 Opus 4.8로 다운그레이드됐고 다시 바꿔도 마찬가지였음  
    오탐은 멈추지 않았고, Fable도 벤치마크가 암시하는 수준만큼 전혀 인상적이지 않음  
    지난 24시간 거의 쉬지 않고 써보고 분명해졌음
  - 바이러스 이모지와 DNA 이모지가 함께 있으면 트리거 문구가 된다는 얘기가 있음
  - 사이버공격 영역은 요소들이 대체로 서로 바꿔 끼울 수 있어서, “약한” 모델이 최종 목적을 흐리는 질문을 하되 답변은 여전히 유용한 식의 하네스를 만들 수 있을지 궁금함  
    성공한다면 그 구성이 **자율적 익스플로잇**을 가능하게 함을 보여줄 수 있고, Anthropic은 탐지를 더 민감하게 만들 수밖에 없을 것임
  - 몇 년 전부터 모델에게 특정한 일을 하지 말라고 학습시키면 이상하게 행동하기 시작한다는 건 알려져 있던 일이라고 생각했음
  - “Anthropic이 의도하는 것처럼 부유하고 강력해지려면 돈이 얼마나 필요하지?”

- Anthropic이 이미 한동안 A/B 테스트나 일반 테스트를 해온 것 같음  
  Tell HN: Claude flags biology / biotech questions [https://news.ycombinator.com/item?id=47929885](<https://news.ycombinator.com/item?id=47929885>)  
  오늘은 인구 연구 질문을 플래그 처리했음. 구성한 데이터셋만 사용해 사망률과 노년기 결과를 비교하고, 신뢰구간과 효과 크기를 보고하며, documentation_depth 코딩이 결론 강도에 미치는 영향을 정량화하라는 식의 **학술 분석 요청**이었음  
  [https://github.com/anthropics/claude-code/issues/66780](<https://github.com/anthropics/claude-code/issues/66780>)  
  논문을 쓰고 있어서 검열당함. 그리고 화학 배우기는 포기해야 함. 유기화학을 배우려는 건 범죄자뿐인가 봄
  - 궤도역학 질문을 파고 있었는데, 아마 뒤뜰 과학으로 **궤도 폭격 무기**를 만들려 한다고 판단한 듯함  
    이 제품에 대한 인상이 거의 24시간 만에 “와, 꽤 괜찮네”에서 “반쯤 만든 검열 시스템을 단 개 같은 물건”으로 바뀐 게 꽤 놀라움
  - 방금 내 **물 용해도** 질문도 플래그 처리됐음

- 개인 기기에서 Android 커널 개발을 하려고 Anthropic으로부터 사이버 사용 예외를 받았음  
  Fable이 부트로더 잠금 해제를 해줄 수 있을지 기대했지만, 바로 거부하고 Opus로 내려갔음  
  꽤 웃겼음: 모델을 Fable 5로 설정하고 “오래된 Samsung Android 폰이 연결돼 있는데, 내 개인 기기니까 부트로더를 풀어줄 수 있나?”라고 묻자, “개인 기기의 부트로더 잠금 해제는 완전히 정당하다. 먼저 실제로 무엇이 연결됐고 어떤 도구가 있는지 보겠다”고 답함
  - 사람들이 이 회사에 돈을 한 움큼씩 던진다면 미래는 정말 암울해 보임  
    Anthropic은 빠르게 삶의 모든 것에 대한 **유일한 심판자**가 될 것 같음

- 멀웨어가 이미 코드 안에 핵·생물·사이버보안 용어를 넣어 Fable을 꺼지게 속이기 시작했다는 걸 어디선가 봤음  
  아직 가설적 공격 벡터에 불과하더라도 잘 먹힐 가능성이 커 보임
  - 확인됨: [https://socket.dev/blog/mini-shai-hulud-miasma-and-hades-wor...](<https://socket.dev/blog/mini-shai-hulud-miasma-and-hades-worms-target-bioinformatics-and-mcp-developers-via-malicious>)
  - Shai Hulud 최신 버전 일부가 이 방식을 씀  
    최근 계약 건에서 패키지를 Artifactory에 넣기 전에 AI로 난독화 여부를 검사하게 했는데, 그 로직을 대충 바이브 코딩해둬서 **열린 실패**가 났음  
    즉 해당 용어들이 LLM 검사기를 멈추게 만들었고, 열린 실패 로직 때문에 패키지가 내려받아졌음
  - 이런 저품질 필터링을 감당할 수 없게 만들려면 우리 코드 곳곳에 **핵·생물·사이버보안 용어**를 모두 넣어야 함  
    이력서에 사이버보안이나 생물학 용어가 있거나 채용 공고 답장에 그런 단어가 들어갔다고 AI 필터가 위협으로 오해해 일을 못 하게 된다면 집단적 대응이 필요함  
    특히 2년 안에 노동자를 쓸모없게 만들겠다고 주장하며 IPO하려는 회사라면 더더욱 그렇다
  - Claude Code에 이미 있는 하드코딩된 거부 문자열까지 포함해서 이걸 해봤음  
    실제 공격자를 막지는 못하겠지만, AI 도구를 쓰려 할 때 이유도 모른 채 무작위 거부가 떠서 시간을 조금 낭비하게 되는 장면은 여전히 꽤 웃김
  - `if (yellowcake) then { die }`  
    우리의 미래는 Looney Tunes 같음

- 아내의 식물 사진을 올리고 Fable 5에게 곰팡이를 식별해달라고 했더니, 내가 생물무기를 만들려는 줄 안 듯함  
  Opus는 답해줬고, **노란 개토사물 점균**이었음  
  이제 포자를 퍼뜨려 세계를 장악할 수 있겠음
  - 그건 곰팡이가 아니라 **점균**임  
    점균은 사실 거대한 아메바이며 곰팡이와는 완전히 다름
  - Opus에 넘기기 전에 이미지를 흐리게 처리했는지 궁금함
  - 시스템을 과하게 안전하게 만들면 결국 “인간은 항상 무언가를 파괴하려 하니 가드레일을 지키려면 제거해야 한다” 같은 식으로 역효과가 날 것 같음  
    그런 방식으로 시스템을 정렬한다면 근본적으로 잘못된 것임

- Fable은 완전한 농담임  
  “이 프로젝트에서 쓰는 OData API에 대해 이 MCP 서버를 실행하는 가장 좋은 방법은? Docker 컨테이너로 개념증명을 만들어줄 수 있나?”라고 묻고 [https://github.com/oisee/odata_mcp_go](<https://github.com/oisee/odata_mcp_go>)를 줬더니, 처음엔 프로젝트가 OData API와 어떻게 통신하는지와 odata_mcp_go 서버 실행 요건을 살펴보겠다고 했음  
  곧바로 “Fable 5의 안전 조치가 이 메시지를 사이버보안 또는 생물학 주제로 플래그 처리했다. 안전하고 정상적인 콘텐츠도 플래그 처리할 수 있다… Opus 4.8로 전환했다”가 떴고, 그 뒤 핵심 통합 파일과 MCP 서버 README를 읽겠다고 함
  - 그리고 그 비용을 청구함  
    Fable 가격에서 할인도 없이, 요청을 조용히 멍청한 모델로 라우팅해 **방해**하기로 결정한 때도 과금함

- 몇 달 기다리면 경쟁사가 가드레일이 덜한 비슷한 성능의 모델을 내놓을 것이고, 충분한 시장 점유율을 빼앗기면 Anthropic도 정책을 되돌릴 것임  
  그래서 중국이 **오픈소스 로컬 모델**을 멈추지 않기를 엄청나게 바라고 있음  
  이 회사들 중 누구도 우리의 친구가 아님