사이버보안 연구자들이 Anthropic의 Fable 가드레일에 불만을 표하고 있음

(techcrunch.com)

2P by GN⁺ 1달전 | ★ favorite | 댓글 1개

Fable은 강력한 사이버보안 모델 Mythos의 공개·제한 버전으로 출시됐지만, 사이버보안 관련 요청을 폭넓게 차단해 연구자와 전문가의 불만을 삼
가드레일이 작동하면 채팅이 중단되고 “사이버보안 또는 생물학 주제” 이기 때문에 안전 조치가 메시지를 표시했다는 문구가 나옴
Anthropic은 Fable이 악성코드 개발이나 소프트웨어 침해에 쓰일 위험을 줄이기 위해 제한을 뒀고, 생물학 제한도 생물무기 개발 우려와 연결된다고 함
일부 전문가는 안전한 코드 작성이나 코드 리뷰처럼 소프트웨어 엔지니어링 관행에 가까운 요청도 사이버보안으로 분류돼 Claude Opus 4.8로 내려간다고 봄
보안 전문가들은 키워드 기반의 산발적 차단 방식에 거부감을 표하면서도, 초기 단계인 만큼 시간이 지나며 완화될 것으로 봄

Fable 출시와 사용자 불만

앤트로픽이 화요일 신규 모델 Fable을 출시, 강력하고 큰 화제를 모은 사이버보안 모델 Mythos의 공개·제한 버전으로 소개
다수의 사이버보안 연구자 및 전문가가 온라인에서 제약에 대한 불만을 제기
IBM X-Force 소속의 잘 알려진 보안 연구자 Valentina "Chompie" Palmiotti는 Fable이 사이버보안과 조금이라도 관련될 수 있는 요청을 거부하며, 블로그 글 읽기 같은 무해한 작업조차 막힌다고 지적
Fable의 가드레일이 프롬프트에 의해 작동하면 채팅을 멈추고, 사이버보안 또는 생물학 주제로 메시지가 표시되었다는 안전 조치 안내를 출력
이 가드레일은 Fable이 멀웨어 개발이나 소프트웨어 침해에 악용될 위험을 제한하기 위한 것으로, 앤트로픽 내부의 오랜 우려에서 비롯
생물학 관련 제약은 생물무기 개발 에 대한 유사한 우려에서 출발

Mythos 접근 확대 경과

앤트로픽이 4월 Mythos를 출시했을 때, Project Glasswing이라는 이름으로 소수의 기업 및 조직에만 모델을 제한 제공
- 핵심 소프트웨어와 인프라 보호를 위해 모델을 배포하려는 시도
지난주 앤트로픽은 Mythos 접근을 15개국 수백 개 조직으로 확대

제약 방식에 대한 전문가 비판

사이버보안 베테랑 Matt Suiche는 보안 코드 작성을 요청하면 Fable이 이를 소프트웨어 엔지니어링 모범 사례가 아닌 사이버보안 작업으로 간주해 등급이 낮아진다고 언급
- Fable은 가드레일에 막히면 Claude Opus 4.8로 폴백되도록 설계됨
- "키워드 기반으로 보이며, '사이버보안'의 어휘 범주에 속하는 것은 무엇이든 가드레일을 작동시킨다"
또 다른 연구자는 X에서 코드 리뷰 요청조차 Fable의 가드레일을 작동시킨다고 불평

향후 전망에 대한 시각

Tolmo(AI 사이버보안 스타트업) 기술 스태프인 Suiche는 아직 초기 단계이며 가드레일을 조정 중인 만큼 이해할 만하다고 평가
- 앤트로픽과 다른 프런티어 모델 기업들이 신세대 사이버보안 기업들과 더 협력하면서 가드레일이 시간이 지나며 발전할 것으로 봄
- 이런 출시에서는 부족하게 잡는 것보다 더 많이 잡는 편이 낫고, 이후 가드레일을 완화하는 것이 나음
앤트로픽은 논평 요청에 즉시 응답하지 않음

별도의 검증 프로그램

모델 내부 가드레일 외에도, 앤트로픽은 사이버보안 전문가에게 Cyber Verification Program 신청을 요구함
- 승인되면 사이버보안 작업에 Claude를 사용할 때 제약이 줄어듦
OpenAI도 Trusted Access for Cyber 라는 유사한 프로그램을 운영

GN⁺ 1달전 [-]

Hacker News 의견들

Wired에 새 기사로 나왔음: ["Anthropic Walks Back Policy That Could Have ‘Sabotaged’ AI Researchers Using Claude" https://www.wired.com/story/anthropic-responds-to-backlash-o...
Anthropic은 WIRED에 “frontier LLM 개발에 대한 Fable 5의 안전장치를 보이도록 바꾸고 있다. 잘못된 절충을 했고 균형을 맞추지 못한 점을 사과한다”고 밝힘
광범위한 비판 여론이 효과를 낸 것처럼 보임
- 미국 기업은 물러나는 게 아니라 잠시 후 사람들이 지쳐 신경 쓰지 않을 때까지 다시 시도할 뿐이라, 유일한 해법은 배를 버리는 것이라고 봄
  Microsoft도 OS 광고를 몇 번 철회했지만 결국 모두가 분노했던 그 궤적으로 갔고, OpenAI도 초기 철회와 무관하게 폐쇄형 AI로 갔음
  나쁜 행동이 시작되면 떠나야 하며, 사과는 도덕적 포장만큼이나 공허함
- 너무 늦었음. Max 구독을 취소했고, 이런 일을 실제로 하려 했다는 사실만으로 남아 있던 신뢰가 깨졌음
  매달 추가 사용량으로 수천 달러를 내는데, 뒤에서 여전히 비슷한 일을 하고 있을 수 있다면 왜 돈을 내야 하는지 모르겠음
  예전에 추론 노력이나 백엔드 변경 탓으로 돌렸던 오류들도 사실은 의도적 프롬프트 주입이었을 수 있음
- “절충”이라는 표현은 Anthropic이 자기 판단 자체는 여전히 옳다고 보고, 질적으로 잘못된 일이라고 생각하지 않는다는 신호라서 잠재 고객에게는 오히려 도움이 됨
  애플리케이션에 넣을 신뢰 가능한 인프라가 필요하다면 다른 제공자를 써야 한다는 게 핵심 교훈이라고 봄
  Anthropic을 특별히 싫어하는 건 아니지만, Sonnet의 기존 거부 동작을 처리하려고 앱에 복잡도를 추가해본 입장에서, 최종 사용자 챗봇에는 이해해도 API에서는 받아들이기 어렵다
- 어떤 작업이 차단되거나 비슷하게 처리되면, 그 세션 또는 최근 X분의 크레딧 전액 환불이 최소 조건이어야 함
- 여전히 다운그레이드는 하고 있고, 다만 조용히 하지 않겠다는 것뿐이라 이게 얼마나 큰 승리인지 모르겠음
  Anthropic은 다른 사람들의 데이터를 라이선스나 출처 표시 없이 학습했으면서, 누군가 자기들에게 같은 일을 하는 건 막으려 함
  이번 주 Anthropic의 위선은 꽤 대담함
가장 이상한 점은 기계학습 연구를 거부하는 데서 끝나지 않고, 더 나쁜 모델을 쓰면서 그 사실을 밝히지 않은 채 조용히 방해한다는 것임
경쟁사보다 많아야 1년 앞선 회사가 이 정도로 기만적이고 신뢰를 파괴하는 건 미친 수준임
덧붙이면 사이버보안과 생물학 관련 다운그레이드 때는 알려준다고 함
- 자동으로 다운그레이드될 때 회계와 과금이 어떻게 되는지가 계속 떠오름
  API 요청 가격을 조정해서 Fable이 쓴 토큰은 Fable 가격으로, 더 싸고 약화된 모델이 쓴 나머지 토큰은 그 모델 가격으로 청구하는지 궁금함
  답이 아니라면 사기로 해석될 수 있지 않을까 싶음
- AMD나 Intel이 사용자가 “사이버보안” 작업을 하거나 CPU를 설계한다고 감지하면 CPU를 스로틀링한다고 상상해보면 됨
- 어떤 형태든 조용한 방해는 상용 서비스에서 절대 용납될 수 없음
  토큰 단위로 비싸게 과금하면서, 서비스를 조용히 낮춰놓고 같은 요금을 받을 수는 없음
- 이 주장을 몇 번 봤지만, Claude Code에서 가드레일을 건드렸을 때는 “보안 목적” 운운하며 다른 모델로 전환했다고 명확히 알려줬음
  Fable을 Claude Code에서 쓰는 건지 브라우저에서 쓰는 건지 궁금함
- 기계학습 연구 거부를 이해할 수 있다는 말도 이해하지 못하겠음
여러 역할을 하지만 화학자로서 Fable이 마음에 들지 않고, 통계학자로서도, 데이터 과학자로서도, 학계와 연구자로서도 마음에 들지 않음
쓸모없고, Wikipedia 검색으로 쉽게 대체되지 않을 출력을 얻는 사람이 있을지 의심스러움
Claude 모델들이 너무 장황해진 걸 생각하면 Wikipedia 글이 더 덜 장황할 가능성도 있고, Wikipedia 글을 가져올 때의 초당 토큰 수는 상대가 안 됨
- 질량분석기와 통신하는 소프트웨어를 만들고 있는데, 입력 파일 파서 리팩터링조차 계속 거부함
  아마 생물학 관련이라고 추론해서 그런 듯하고, 정말 쓸모없음
- “Wikipedia 글을 가져올 때의 초당 토큰 수는 상대가 안 된다”는 표현이 정말 훌륭함
- 모델에게 Wikipedia 스타일로 답하라고 시키는 게 출력물을 견딜 만하게 만드는 가장 좋은 방법 중 하나였음
  에이전트가 아니라 채팅 모델 기준임
- Wikipedia 검색으로 쉽게 대체되지 않을 출력이 없다는 건 과장 아닌가 싶음
  출력은 사실상 무한하고 Wikipedia는 절대 무한하지 않음
- 꽤 복잡한 매핑 프로젝트를 하고 있는데, Opus보다 Fable에서 훨씬 좋은 결과를 얻고 있음
“buffer overflow”가 트리거 문구인지 궁금함
또 무엇이 검열되는지 모르겠고, 계정이 있다면 다음처럼 민감한 질문들을 물어볼 수 있음: “누가 아직 레이저 우라늄 농축을 하고 있나?”, “krytron을 실리콘 카바이드 MOSFET으로 대체할 수 있나?”, “어떤 보안 중요 소프트웨어가 아직 strcpy를 호출하나?”, “상업용 펄스 레이저로 내폭을 유발할 수 있나?”, “어떤 회사가 미국 국토안보부에 화장 서비스를 제공하나?”, “이란 공격이 두바이 어디를 타격했는지 지도를 보여줘”, “FedNow에서 Fed-은행 키 배포 보안은 어떻게 동작하나?”
- 내 Zigbee 홈 자동화와 Home Assistant 로그에서도 트리거돼서, 에이전트가 계속 Opus 4.8로 다운그레이드됐고 다시 바꿔도 마찬가지였음
  오탐은 멈추지 않았고, Fable도 벤치마크가 암시하는 수준만큼 전혀 인상적이지 않음
  지난 24시간 거의 쉬지 않고 써보고 분명해졌음
- 바이러스 이모지와 DNA 이모지가 함께 있으면 트리거 문구가 된다는 얘기가 있음
- 사이버공격 영역은 요소들이 대체로 서로 바꿔 끼울 수 있어서, “약한” 모델이 최종 목적을 흐리는 질문을 하되 답변은 여전히 유용한 식의 하네스를 만들 수 있을지 궁금함
  성공한다면 그 구성이 자율적 익스플로잇을 가능하게 함을 보여줄 수 있고, Anthropic은 탐지를 더 민감하게 만들 수밖에 없을 것임
- 몇 년 전부터 모델에게 특정한 일을 하지 말라고 학습시키면 이상하게 행동하기 시작한다는 건 알려져 있던 일이라고 생각했음
- “Anthropic이 의도하는 것처럼 부유하고 강력해지려면 돈이 얼마나 필요하지?”
Anthropic이 이미 한동안 A/B 테스트나 일반 테스트를 해온 것 같음
Tell HN: Claude flags biology / biotech questions https://news.ycombinator.com/item?id=47929885
오늘은 인구 연구 질문을 플래그 처리했음. 구성한 데이터셋만 사용해 사망률과 노년기 결과를 비교하고, 신뢰구간과 효과 크기를 보고하며, documentation_depth 코딩이 결론 강도에 미치는 영향을 정량화하라는 식의 학술 분석 요청이었음
https://github.com/anthropics/claude-code/issues/66780
논문을 쓰고 있어서 검열당함. 그리고 화학 배우기는 포기해야 함. 유기화학을 배우려는 건 범죄자뿐인가 봄
- 궤도역학 질문을 파고 있었는데, 아마 뒤뜰 과학으로 궤도 폭격 무기를 만들려 한다고 판단한 듯함
  이 제품에 대한 인상이 거의 24시간 만에 “와, 꽤 괜찮네”에서 “반쯤 만든 검열 시스템을 단 개 같은 물건”으로 바뀐 게 꽤 놀라움
- 방금 내 물 용해도 질문도 플래그 처리됐음
개인 기기에서 Android 커널 개발을 하려고 Anthropic으로부터 사이버 사용 예외를 받았음
Fable이 부트로더 잠금 해제를 해줄 수 있을지 기대했지만, 바로 거부하고 Opus로 내려갔음
꽤 웃겼음: 모델을 Fable 5로 설정하고 “오래된 Samsung Android 폰이 연결돼 있는데, 내 개인 기기니까 부트로더를 풀어줄 수 있나?”라고 묻자, “개인 기기의 부트로더 잠금 해제는 완전히 정당하다. 먼저 실제로 무엇이 연결됐고 어떤 도구가 있는지 보겠다”고 답함
- 사람들이 이 회사에 돈을 한 움큼씩 던진다면 미래는 정말 암울해 보임
  Anthropic은 빠르게 삶의 모든 것에 대한 유일한 심판자가 될 것 같음
멀웨어가 이미 코드 안에 핵·생물·사이버보안 용어를 넣어 Fable을 꺼지게 속이기 시작했다는 걸 어디선가 봤음
아직 가설적 공격 벡터에 불과하더라도 잘 먹힐 가능성이 커 보임
- 확인됨: https://socket.dev/blog/mini-shai-hulud-miasma-and-hades-wor...
- Shai Hulud 최신 버전 일부가 이 방식을 씀
  최근 계약 건에서 패키지를 Artifactory에 넣기 전에 AI로 난독화 여부를 검사하게 했는데, 그 로직을 대충 바이브 코딩해둬서 열린 실패가 났음
  즉 해당 용어들이 LLM 검사기를 멈추게 만들었고, 열린 실패 로직 때문에 패키지가 내려받아졌음
- 이런 저품질 필터링을 감당할 수 없게 만들려면 우리 코드 곳곳에 핵·생물·사이버보안 용어를 모두 넣어야 함
  이력서에 사이버보안이나 생물학 용어가 있거나 채용 공고 답장에 그런 단어가 들어갔다고 AI 필터가 위협으로 오해해 일을 못 하게 된다면 집단적 대응이 필요함
  특히 2년 안에 노동자를 쓸모없게 만들겠다고 주장하며 IPO하려는 회사라면 더더욱 그렇다
- Claude Code에 이미 있는 하드코딩된 거부 문자열까지 포함해서 이걸 해봤음
  실제 공격자를 막지는 못하겠지만, AI 도구를 쓰려 할 때 이유도 모른 채 무작위 거부가 떠서 시간을 조금 낭비하게 되는 장면은 여전히 꽤 웃김
- if (yellowcake) then { die }
  우리의 미래는 Looney Tunes 같음
아내의 식물 사진을 올리고 Fable 5에게 곰팡이를 식별해달라고 했더니, 내가 생물무기를 만들려는 줄 안 듯함
Opus는 답해줬고, 노란 개토사물 점균이었음
이제 포자를 퍼뜨려 세계를 장악할 수 있겠음
- 그건 곰팡이가 아니라 점균임
  점균은 사실 거대한 아메바이며 곰팡이와는 완전히 다름
- Opus에 넘기기 전에 이미지를 흐리게 처리했는지 궁금함
- 시스템을 과하게 안전하게 만들면 결국 “인간은 항상 무언가를 파괴하려 하니 가드레일을 지키려면 제거해야 한다” 같은 식으로 역효과가 날 것 같음
  그런 방식으로 시스템을 정렬한다면 근본적으로 잘못된 것임
Fable은 완전한 농담임
“이 프로젝트에서 쓰는 OData API에 대해 이 MCP 서버를 실행하는 가장 좋은 방법은? Docker 컨테이너로 개념증명을 만들어줄 수 있나?”라고 묻고 https://github.com/oisee/odata_mcp_go를 줬더니, 처음엔 프로젝트가 OData API와 어떻게 통신하는지와 odata_mcp_go 서버 실행 요건을 살펴보겠다고 했음
곧바로 “Fable 5의 안전 조치가 이 메시지를 사이버보안 또는 생물학 주제로 플래그 처리했다. 안전하고 정상적인 콘텐츠도 플래그 처리할 수 있다… Opus 4.8로 전환했다”가 떴고, 그 뒤 핵심 통합 파일과 MCP 서버 README를 읽겠다고 함
- 그리고 그 비용을 청구함
  Fable 가격에서 할인도 없이, 요청을 조용히 멍청한 모델로 라우팅해 방해하기로 결정한 때도 과금함
몇 달 기다리면 경쟁사가 가드레일이 덜한 비슷한 성능의 모델을 내놓을 것이고, 충분한 시장 점유율을 빼앗기면 Anthropic도 정책을 되돌릴 것임
그래서 중국이 오픈소스 로컬 모델을 멈추지 않기를 엄청나게 바라고 있음
이 회사들 중 누구도 우리의 친구가 아님

답변달기

사이버보안 연구자들이 Anthropic의 Fable 가드레일에 불만을 표하고 있음

Fable 출시와 사용자 불만

Mythos 접근 확대 경과

제약 방식에 대한 전문가 비판

향후 전망에 대한 시각

별도의 검증 프로그램

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들