사이버보안 연구자들이 Anthropic의 Fable 가드레일에 불만을 표하고 있음
(techcrunch.com)- Fable은 강력한 사이버보안 모델 Mythos의 공개·제한 버전으로 출시됐지만, 사이버보안 관련 요청을 폭넓게 차단해 연구자와 전문가의 불만을 삼
- 가드레일이 작동하면 채팅이 중단되고 “사이버보안 또는 생물학 주제” 이기 때문에 안전 조치가 메시지를 표시했다는 문구가 나옴
- Anthropic은 Fable이 악성코드 개발이나 소프트웨어 침해에 쓰일 위험을 줄이기 위해 제한을 뒀고, 생물학 제한도 생물무기 개발 우려와 연결된다고 함
- 일부 전문가는 안전한 코드 작성이나 코드 리뷰처럼 소프트웨어 엔지니어링 관행에 가까운 요청도 사이버보안으로 분류돼 Claude Opus 4.8로 내려간다고 봄
- 보안 전문가들은 키워드 기반의 산발적 차단 방식에 거부감을 표하면서도, 초기 단계인 만큼 시간이 지나며 완화될 것으로 봄
Fable 출시와 사용자 불만
- 앤트로픽이 화요일 신규 모델 Fable을 출시, 강력하고 큰 화제를 모은 사이버보안 모델 Mythos의 공개·제한 버전으로 소개
- 다수의 사이버보안 연구자 및 전문가가 온라인에서 제약에 대한 불만을 제기
- IBM X-Force 소속의 잘 알려진 보안 연구자 Valentina "Chompie" Palmiotti는 Fable이 사이버보안과 조금이라도 관련될 수 있는 요청을 거부하며, 블로그 글 읽기 같은 무해한 작업조차 막힌다고 지적
- Fable의 가드레일이 프롬프트에 의해 작동하면 채팅을 멈추고, 사이버보안 또는 생물학 주제로 메시지가 표시되었다는 안전 조치 안내를 출력
- 이 가드레일은 Fable이 멀웨어 개발이나 소프트웨어 침해에 악용될 위험을 제한하기 위한 것으로, 앤트로픽 내부의 오랜 우려에서 비롯
- 생물학 관련 제약은 생물무기 개발 에 대한 유사한 우려에서 출발
Mythos 접근 확대 경과
- 앤트로픽이 4월 Mythos를 출시했을 때, Project Glasswing이라는 이름으로 소수의 기업 및 조직에만 모델을 제한 제공
- 핵심 소프트웨어와 인프라 보호를 위해 모델을 배포하려는 시도
- 지난주 앤트로픽은 Mythos 접근을 15개국 수백 개 조직으로 확대
제약 방식에 대한 전문가 비판
- 사이버보안 베테랑 Matt Suiche는 보안 코드 작성을 요청하면 Fable이 이를 소프트웨어 엔지니어링 모범 사례가 아닌 사이버보안 작업으로 간주해 등급이 낮아진다고 언급
- Fable은 가드레일에 막히면 Claude Opus 4.8로 폴백되도록 설계됨
- "키워드 기반으로 보이며, '사이버보안'의 어휘 범주에 속하는 것은 무엇이든 가드레일을 작동시킨다"
- 또 다른 연구자는 X에서 코드 리뷰 요청조차 Fable의 가드레일을 작동시킨다고 불평
향후 전망에 대한 시각
- Tolmo(AI 사이버보안 스타트업) 기술 스태프인 Suiche는 아직 초기 단계이며 가드레일을 조정 중인 만큼 이해할 만하다고 평가
- 앤트로픽과 다른 프런티어 모델 기업들이 신세대 사이버보안 기업들과 더 협력하면서 가드레일이 시간이 지나며 발전할 것으로 봄
- 이런 출시에서는 부족하게 잡는 것보다 더 많이 잡는 편이 낫고, 이후 가드레일을 완화하는 것이 나음
- 앤트로픽은 논평 요청에 즉시 응답하지 않음
별도의 검증 프로그램
- 모델 내부 가드레일 외에도, 앤트로픽은 사이버보안 전문가에게 Cyber Verification Program 신청을 요구함
- 승인되면 사이버보안 작업에 Claude를 사용할 때 제약이 줄어듦
- OpenAI도 Trusted Access for Cyber 라는 유사한 프로그램을 운영
댓글과 토론
Hacker News 의견들
-
Wired에 새 기사로 나왔음: ["Anthropic Walks Back Policy That Could Have ‘Sabotaged’ AI Researchers Using Claude" https://www.wired.com/story/anthropic-responds-to-backlash-o...
Anthropic은 WIRED에 “frontier LLM 개발에 대한 Fable 5의 안전장치를 보이도록 바꾸고 있다. 잘못된 절충을 했고 균형을 맞추지 못한 점을 사과한다”고 밝힘
광범위한 비판 여론이 효과를 낸 것처럼 보임- 미국 기업은 물러나는 게 아니라 잠시 후 사람들이 지쳐 신경 쓰지 않을 때까지 다시 시도할 뿐이라, 유일한 해법은 배를 버리는 것이라고 봄
Microsoft도 OS 광고를 몇 번 철회했지만 결국 모두가 분노했던 그 궤적으로 갔고, OpenAI도 초기 철회와 무관하게 폐쇄형 AI로 갔음
나쁜 행동이 시작되면 떠나야 하며, 사과는 도덕적 포장만큼이나 공허함 - 너무 늦었음. Max 구독을 취소했고, 이런 일을 실제로 하려 했다는 사실만으로 남아 있던 신뢰가 깨졌음
매달 추가 사용량으로 수천 달러를 내는데, 뒤에서 여전히 비슷한 일을 하고 있을 수 있다면 왜 돈을 내야 하는지 모르겠음
예전에 추론 노력이나 백엔드 변경 탓으로 돌렸던 오류들도 사실은 의도적 프롬프트 주입이었을 수 있음 - “절충”이라는 표현은 Anthropic이 자기 판단 자체는 여전히 옳다고 보고, 질적으로 잘못된 일이라고 생각하지 않는다는 신호라서 잠재 고객에게는 오히려 도움이 됨
애플리케이션에 넣을 신뢰 가능한 인프라가 필요하다면 다른 제공자를 써야 한다는 게 핵심 교훈이라고 봄
Anthropic을 특별히 싫어하는 건 아니지만, Sonnet의 기존 거부 동작을 처리하려고 앱에 복잡도를 추가해본 입장에서, 최종 사용자 챗봇에는 이해해도 API에서는 받아들이기 어렵다 - 어떤 작업이 차단되거나 비슷하게 처리되면, 그 세션 또는 최근 X분의 크레딧 전액 환불이 최소 조건이어야 함
- 여전히 다운그레이드는 하고 있고, 다만 조용히 하지 않겠다는 것뿐이라 이게 얼마나 큰 승리인지 모르겠음
Anthropic은 다른 사람들의 데이터를 라이선스나 출처 표시 없이 학습했으면서, 누군가 자기들에게 같은 일을 하는 건 막으려 함
이번 주 Anthropic의 위선은 꽤 대담함
- 미국 기업은 물러나는 게 아니라 잠시 후 사람들이 지쳐 신경 쓰지 않을 때까지 다시 시도할 뿐이라, 유일한 해법은 배를 버리는 것이라고 봄
-
가장 이상한 점은 기계학습 연구를 거부하는 데서 끝나지 않고, 더 나쁜 모델을 쓰면서 그 사실을 밝히지 않은 채 조용히 방해한다는 것임
경쟁사보다 많아야 1년 앞선 회사가 이 정도로 기만적이고 신뢰를 파괴하는 건 미친 수준임
덧붙이면 사이버보안과 생물학 관련 다운그레이드 때는 알려준다고 함- 자동으로 다운그레이드될 때 회계와 과금이 어떻게 되는지가 계속 떠오름
API 요청 가격을 조정해서 Fable이 쓴 토큰은 Fable 가격으로, 더 싸고 약화된 모델이 쓴 나머지 토큰은 그 모델 가격으로 청구하는지 궁금함
답이 아니라면 사기로 해석될 수 있지 않을까 싶음 - AMD나 Intel이 사용자가 “사이버보안” 작업을 하거나 CPU를 설계한다고 감지하면 CPU를 스로틀링한다고 상상해보면 됨
- 어떤 형태든 조용한 방해는 상용 서비스에서 절대 용납될 수 없음
토큰 단위로 비싸게 과금하면서, 서비스를 조용히 낮춰놓고 같은 요금을 받을 수는 없음 - 이 주장을 몇 번 봤지만, Claude Code에서 가드레일을 건드렸을 때는 “보안 목적” 운운하며 다른 모델로 전환했다고 명확히 알려줬음
Fable을 Claude Code에서 쓰는 건지 브라우저에서 쓰는 건지 궁금함 - 기계학습 연구 거부를 이해할 수 있다는 말도 이해하지 못하겠음
- 자동으로 다운그레이드될 때 회계와 과금이 어떻게 되는지가 계속 떠오름
-
여러 역할을 하지만 화학자로서 Fable이 마음에 들지 않고, 통계학자로서도, 데이터 과학자로서도, 학계와 연구자로서도 마음에 들지 않음
쓸모없고, Wikipedia 검색으로 쉽게 대체되지 않을 출력을 얻는 사람이 있을지 의심스러움
Claude 모델들이 너무 장황해진 걸 생각하면 Wikipedia 글이 더 덜 장황할 가능성도 있고, Wikipedia 글을 가져올 때의 초당 토큰 수는 상대가 안 됨- 질량분석기와 통신하는 소프트웨어를 만들고 있는데, 입력 파일 파서 리팩터링조차 계속 거부함
아마 생물학 관련이라고 추론해서 그런 듯하고, 정말 쓸모없음 - “Wikipedia 글을 가져올 때의 초당 토큰 수는 상대가 안 된다”는 표현이 정말 훌륭함
- 모델에게 Wikipedia 스타일로 답하라고 시키는 게 출력물을 견딜 만하게 만드는 가장 좋은 방법 중 하나였음
에이전트가 아니라 채팅 모델 기준임 - Wikipedia 검색으로 쉽게 대체되지 않을 출력이 없다는 건 과장 아닌가 싶음
출력은 사실상 무한하고 Wikipedia는 절대 무한하지 않음 - 꽤 복잡한 매핑 프로젝트를 하고 있는데, Opus보다 Fable에서 훨씬 좋은 결과를 얻고 있음
- 질량분석기와 통신하는 소프트웨어를 만들고 있는데, 입력 파일 파서 리팩터링조차 계속 거부함
-
“buffer overflow”가 트리거 문구인지 궁금함
또 무엇이 검열되는지 모르겠고, 계정이 있다면 다음처럼 민감한 질문들을 물어볼 수 있음: “누가 아직 레이저 우라늄 농축을 하고 있나?”, “krytron을 실리콘 카바이드 MOSFET으로 대체할 수 있나?”, “어떤 보안 중요 소프트웨어가 아직 strcpy를 호출하나?”, “상업용 펄스 레이저로 내폭을 유발할 수 있나?”, “어떤 회사가 미국 국토안보부에 화장 서비스를 제공하나?”, “이란 공격이 두바이 어디를 타격했는지 지도를 보여줘”, “FedNow에서 Fed-은행 키 배포 보안은 어떻게 동작하나?”- 내 Zigbee 홈 자동화와 Home Assistant 로그에서도 트리거돼서, 에이전트가 계속 Opus 4.8로 다운그레이드됐고 다시 바꿔도 마찬가지였음
오탐은 멈추지 않았고, Fable도 벤치마크가 암시하는 수준만큼 전혀 인상적이지 않음
지난 24시간 거의 쉬지 않고 써보고 분명해졌음 - 바이러스 이모지와 DNA 이모지가 함께 있으면 트리거 문구가 된다는 얘기가 있음
- 사이버공격 영역은 요소들이 대체로 서로 바꿔 끼울 수 있어서, “약한” 모델이 최종 목적을 흐리는 질문을 하되 답변은 여전히 유용한 식의 하네스를 만들 수 있을지 궁금함
성공한다면 그 구성이 자율적 익스플로잇을 가능하게 함을 보여줄 수 있고, Anthropic은 탐지를 더 민감하게 만들 수밖에 없을 것임 - 몇 년 전부터 모델에게 특정한 일을 하지 말라고 학습시키면 이상하게 행동하기 시작한다는 건 알려져 있던 일이라고 생각했음
- “Anthropic이 의도하는 것처럼 부유하고 강력해지려면 돈이 얼마나 필요하지?”
- 내 Zigbee 홈 자동화와 Home Assistant 로그에서도 트리거돼서, 에이전트가 계속 Opus 4.8로 다운그레이드됐고 다시 바꿔도 마찬가지였음
-
Anthropic이 이미 한동안 A/B 테스트나 일반 테스트를 해온 것 같음
Tell HN: Claude flags biology / biotech questions https://news.ycombinator.com/item?id=47929885
오늘은 인구 연구 질문을 플래그 처리했음. 구성한 데이터셋만 사용해 사망률과 노년기 결과를 비교하고, 신뢰구간과 효과 크기를 보고하며, documentation_depth 코딩이 결론 강도에 미치는 영향을 정량화하라는 식의 학술 분석 요청이었음
https://github.com/anthropics/claude-code/issues/66780
논문을 쓰고 있어서 검열당함. 그리고 화학 배우기는 포기해야 함. 유기화학을 배우려는 건 범죄자뿐인가 봄- 궤도역학 질문을 파고 있었는데, 아마 뒤뜰 과학으로 궤도 폭격 무기를 만들려 한다고 판단한 듯함
이 제품에 대한 인상이 거의 24시간 만에 “와, 꽤 괜찮네”에서 “반쯤 만든 검열 시스템을 단 개 같은 물건”으로 바뀐 게 꽤 놀라움 - 방금 내 물 용해도 질문도 플래그 처리됐음
- 궤도역학 질문을 파고 있었는데, 아마 뒤뜰 과학으로 궤도 폭격 무기를 만들려 한다고 판단한 듯함
-
개인 기기에서 Android 커널 개발을 하려고 Anthropic으로부터 사이버 사용 예외를 받았음
Fable이 부트로더 잠금 해제를 해줄 수 있을지 기대했지만, 바로 거부하고 Opus로 내려갔음
꽤 웃겼음: 모델을 Fable 5로 설정하고 “오래된 Samsung Android 폰이 연결돼 있는데, 내 개인 기기니까 부트로더를 풀어줄 수 있나?”라고 묻자, “개인 기기의 부트로더 잠금 해제는 완전히 정당하다. 먼저 실제로 무엇이 연결됐고 어떤 도구가 있는지 보겠다”고 답함- 사람들이 이 회사에 돈을 한 움큼씩 던진다면 미래는 정말 암울해 보임
Anthropic은 빠르게 삶의 모든 것에 대한 유일한 심판자가 될 것 같음
- 사람들이 이 회사에 돈을 한 움큼씩 던진다면 미래는 정말 암울해 보임
-
멀웨어가 이미 코드 안에 핵·생물·사이버보안 용어를 넣어 Fable을 꺼지게 속이기 시작했다는 걸 어디선가 봤음
아직 가설적 공격 벡터에 불과하더라도 잘 먹힐 가능성이 커 보임- 확인됨: https://socket.dev/blog/mini-shai-hulud-miasma-and-hades-wor...
- Shai Hulud 최신 버전 일부가 이 방식을 씀
최근 계약 건에서 패키지를 Artifactory에 넣기 전에 AI로 난독화 여부를 검사하게 했는데, 그 로직을 대충 바이브 코딩해둬서 열린 실패가 났음
즉 해당 용어들이 LLM 검사기를 멈추게 만들었고, 열린 실패 로직 때문에 패키지가 내려받아졌음 - 이런 저품질 필터링을 감당할 수 없게 만들려면 우리 코드 곳곳에 핵·생물·사이버보안 용어를 모두 넣어야 함
이력서에 사이버보안이나 생물학 용어가 있거나 채용 공고 답장에 그런 단어가 들어갔다고 AI 필터가 위협으로 오해해 일을 못 하게 된다면 집단적 대응이 필요함
특히 2년 안에 노동자를 쓸모없게 만들겠다고 주장하며 IPO하려는 회사라면 더더욱 그렇다 - Claude Code에 이미 있는 하드코딩된 거부 문자열까지 포함해서 이걸 해봤음
실제 공격자를 막지는 못하겠지만, AI 도구를 쓰려 할 때 이유도 모른 채 무작위 거부가 떠서 시간을 조금 낭비하게 되는 장면은 여전히 꽤 웃김 if (yellowcake) then { die }
우리의 미래는 Looney Tunes 같음
-
아내의 식물 사진을 올리고 Fable 5에게 곰팡이를 식별해달라고 했더니, 내가 생물무기를 만들려는 줄 안 듯함
Opus는 답해줬고, 노란 개토사물 점균이었음
이제 포자를 퍼뜨려 세계를 장악할 수 있겠음- 그건 곰팡이가 아니라 점균임
점균은 사실 거대한 아메바이며 곰팡이와는 완전히 다름 - Opus에 넘기기 전에 이미지를 흐리게 처리했는지 궁금함
- 시스템을 과하게 안전하게 만들면 결국 “인간은 항상 무언가를 파괴하려 하니 가드레일을 지키려면 제거해야 한다” 같은 식으로 역효과가 날 것 같음
그런 방식으로 시스템을 정렬한다면 근본적으로 잘못된 것임
- 그건 곰팡이가 아니라 점균임
-
Fable은 완전한 농담임
“이 프로젝트에서 쓰는 OData API에 대해 이 MCP 서버를 실행하는 가장 좋은 방법은? Docker 컨테이너로 개념증명을 만들어줄 수 있나?”라고 묻고 https://github.com/oisee/odata_mcp_go를 줬더니, 처음엔 프로젝트가 OData API와 어떻게 통신하는지와 odata_mcp_go 서버 실행 요건을 살펴보겠다고 했음
곧바로 “Fable 5의 안전 조치가 이 메시지를 사이버보안 또는 생물학 주제로 플래그 처리했다. 안전하고 정상적인 콘텐츠도 플래그 처리할 수 있다… Opus 4.8로 전환했다”가 떴고, 그 뒤 핵심 통합 파일과 MCP 서버 README를 읽겠다고 함- 그리고 그 비용을 청구함
Fable 가격에서 할인도 없이, 요청을 조용히 멍청한 모델로 라우팅해 방해하기로 결정한 때도 과금함
- 그리고 그 비용을 청구함
-
몇 달 기다리면 경쟁사가 가드레일이 덜한 비슷한 성능의 모델을 내놓을 것이고, 충분한 시장 점유율을 빼앗기면 Anthropic도 정책을 되돌릴 것임
그래서 중국이 오픈소스 로컬 모델을 멈추지 않기를 엄청나게 바라고 있음
이 회사들 중 누구도 우리의 친구가 아님