1P by boradi | ★ favorite | 댓글과 토론
  • Anthropic이 며칠 단위의 장기, 비동기 작업을 위한 5세대 모델을 출시함. Fable 5는 Mythos급 모델을 일반 사용자용으로 안전하게 만든 버전이고, Mythos 5는 같은 모델에서 일부 안전장치를 푼 버전임
  • Mythos급은 Opus급보다 위에 있는 새 모델 티어. 첫 모델인 Mythos Preview가 4월 Project Glasswing으로 공개됐고, 오늘 Fable 5와 Mythos 5가 그 뒤를 이음
  • 이름 유래: Fable은 라틴어 fabula(“이야기되는 것”)에서 왔고 그리스어 mythos와 동족어. 두 모델을 구분하는 건 안전장치 자체이며 그래서 이름을 다르게 붙임
  • 가격은 입력 100만 토큰당 10달러, 출력 50달러로 Mythos Preview의 절반 이하. API 모델명은 claude-fable-5

성능

  • 작업이 길고 복잡할수록 우위가 커진다는 게 핵심 메시지
  • 코딩: Stripe 사전 테스트에서 5천만 라인 Ruby 코드베이스의 전체 마이그레이션을 하루 만에 수행(팀이 손으로 하면 두 달 이상). 직접 테스트를 작성하고 비전으로 결과물을 원본 디자인과 대조 검증. Cognition의 FrontierCode 평가에서 medium effort에서도 프런티어 모델 중 최고점
  • 에이전트: Claude Code 같은 환경에서 수일간 자율 작동하며 계획 수립, 서브에이전트 위임, 자기 검증까지 수행
  • 비전: 스크린샷만으로 웹앱 소스코드 재구성, 비전 전용 최소 하니스로 포켓몬 파이어레드 클리어(이전 모델은 복잡한 보조 하니스 필요)
  • 메모리: Slay the Spire에서 파일 기반 지속 메모리 제공 시 Opus 4.8 대비 성능 3배 향상, 최종장 도달 빈도도 3배
  • 지식작업: Hebbia 금융 벤치마크에서 전 모델 중 최고점, IMC의 트레이딩 분석 평가를 거의 전 영역에서 통과

벤치마크

  • SWE-Bench Pro 80.3%(Opus 4.8은 69.2%, GPT 5.5는 58.6%), GDPval-AA 1932, OSWorld 85.0% 등 코딩, 지식작업, 비전, 컴퓨터 유즈 전반에서 우위 주장
  • 주의: 표의 일부 수치는 Mythos 5와 Fable 5 중 높은 값이며, 별표 항목(생물학, 사이버보안 등)은 안전장치 fallback으로 Opus 4.8에 가까운 성능이라는 주석이 달려 있음

Mythos 5의 과학 성과

  • 단백질 설계 과정을 약 10배 가속, 14개 타깃 중 9개에서 유력 후보 확보. 결합 부위 선택, 도구 실행, 실패 복구까지 사람 보조 없이 수행
  • 블라인드 비교에서 과학자들이 분자생물학 가설을 약 80% 선호. 한 가설(대장균 단백질의 새 메커니즘)이 독립적으로 같은 문제를 연구하던 랩에서 입증됨
  • 1주일 넘는 자율 작업으로 138종 동물의 수백만 세포 데이터를 모아 커스텀 ML 모델 설계 및 훈련, Science 게재 최신 모델을 100배 작은 크기로 능가
  • 정렬 평가: Mythos 5의 오정렬 행동 수준은 낮고 Opus 4.8과 유사하다고 보고

안전장치

  • 분류기가 막는 영역은 세 가지: 사이버보안, 생물학과 화학, 디스틸레이션(권위주의 국가의 경쟁 모델 학습용 능력 추출 시도). 해당 요청은 자동으로 Opus 4.8로 우회되며 사용자에게 통보됨(우회 시 Fable 요금 미청구)
  • 세션의 95% 이상은 fallback 없음, 안전장치는 평균 5% 미만 세션에서 작동. 단 안전장치를 보수적으로 튜닝해 무해한 요청도 가끔 걸린다고 인정하며 false positive를 줄여갈 계획
  • 외부 버그바운티 1,000시간 이상에서 유니버설 탈옥 미발견. 다만 UK AISI가 짧은 초기 테스트에서 근접한 진전을 보임. 한 외부 파트너 테스트에선 사이버 공격 관련 유해 단일턴 요청을 30종 공개 탈옥 기법을 써도 0건 응답
  • AAV(유전자 치료 전달체) 설계 평가에서 Mythos급이 전용 단백질 언어모델을 생물학적 추론만으로 능가. 이중용도 위험의 근거로 제시함
  • 사용 시 안전 모니터링 목적의 30일 데이터 보존 필수. 1st party와 3rd party 모든 트래픽에 적용되며, 모델 학습이나 비안전 목적엔 미사용, 인간 접근 로깅 및 30일 후 삭제

가격 및 출시

  • Enterprise(소비량 기반) 플랜과 Claude Platform, AWS, GCP, Microsoft Foundry에서 제공
  • 구독 플랜은 단계적 롤아웃: 6월 9일부터 6월 22일까지 Pro, Max, Team, 좌석형 Enterprise에 무료 포함. 6월 23일부터 제거되어 usage credit 필요. 용량 확보 시 기본 구성으로 복원 예정. API와 소비량 기반 Enterprise는 오늘부터 완전 이용 가능
  • Mythos 5는 오늘부터 기존 Mythos Preview 사용자(Glasswing 파트너 등)가 업그레이드 가능. 대부분 경우 Preview와 비슷하거나 약간 더 강하면서 비용은 크게 저렴. 세계 최강 사이버보안 능력 주장
  • 생물학 trusted access program도 별도 개설 예정(Fable 5에서 생물학과 화학 안전장치만 해제, 사이버 안전장치는 유지)

댓글과 토론