Fable 5로 루프 설계하기

Anthropic 내부 작업 방식을 바꾼 Mythos-class 모델 Claude Fable 5를 잘 활용하기 위한 두 가지 핵심 기법으로 self-correction loop와 memory 제시
잘 설계된 goal·rubric이 환경에 피드백을 주입해, Claude가 실행→피드백 수집→자가 수정을 목표 충족까지 반복하는 구조
Parameter Golf ML 엔지니어링 과제에서 Fable 5가 Opus 4.7 대비 학습 파이프라인을 약 6배 더 개선
세션을 가로지르는 outer loop인 memory를 통해, Claude가 세션 중 기록한 내용을 이후 세션에서 재사용
직접 프롬프팅·조종보다 모델이 스스로 수정·문맥 관리하는 루프 설계가 효과적이라는 점이 핵심

Self-correction loop (자가 수정 루프)

평가 기준 위에서 모델이 hillclimb하도록 두는 방식이 작업 성능 개선의 일반적 레시피
- bcherny는 "자신의 일은 루프를 작성하는 것"이라고 언급
- Claude Code의 /goal, Claude Managed Agent의 Outcomes가 이 레시피를 특정 작업에 적용하는 primitive
잘 설계된 goal 또는 rubric은 Claude가 실행되는 환경에 피드백을 추가, 실행·피드백 수집·자가 수정 후 goal/rubric 충족까지 진행

Parameter Golf는 16MB artifact에 들어가는 최고 성능 모델을 8xH100에서 10분 이내로 학습시키는 오픈소스 ML 엔지니어링 챌린지
- 단일 train_gpt.py 파일 편집, 학습 실행, 로그 폴링, 점수 확인, 다음 실험 결정 능력을 시험
- karpathy의 autoresearch 프로젝트와 유사
Claude Managed Agents(CMA) 를 사용해 Fable 5와 Opus 4.7 비교
- CMA는 agent harness와 호스팅 sandbox를 제공, Fable 5의 장시간 작업에 적합
- Parameter Golf에는 8xH100 GPU를 self-hosted sandbox로 제공

모델이 자기 출력에 대한 self-critique에서 문제를 보인다는 점 확인 (Prithvi Rajasekaran이 엔지니어링 블로그에서 서술)
verifier sub-agent가 self-critique보다 우수, 독립된 context window에서 채점이 이뤄지기 때문
- CMA의 Outcomes가 grader sub-agent를 자동 생성해 처리
9개의 체크 가능한 기준(baseline 실행, 실험 20회 수행 등)을 담은 rubric 제공, 최대 8시간 실행
- Outcomes grader가 모든 실험 기준 충족을 확인한 뒤에야 Claude의 작업 종료 허용

Fable 5가 Opus 4.7 대비 학습 파이프라인을 약 6배 더 개선
- 실험을 구조적(아키텍처 변경)과 스칼라(상수 조정)로 구분 시, Fable 5는 더 큰 구조적 변경에 베팅하고 회복력 발휘 (quantization regression을 뚫고 최대 성과 달성)
Opus 4.7은 첫 실험에서 작은 성과 후 대부분 동일 템플릿 반복: 스칼라 조정·측정·긍정 시 유지

세션을 가로지르는 outer loop로서, 세션 중 작성한 memory를 이후 세션에서 검색·재사용
pgasawa 팀이 Continual Learning Bench 1.0 공개
- 온라인 환경에서 AI 시스템이 개선되는 정도를 측정하는 최초의 현실적 벤치마크
- 기존 벤치마크는 모델을 stateless로 가정, 각 예제 독립 처리

벤치마크 과제 중 하나로 Fable 5·Opus 4.7·Sonnet 4.6 비교
- SQL database 접근권을 가지고 순차 질문에 답하는 과제, 각 질문은 별도 agent 세션이며 memory 제공
CMA의 memory 사용, 세션 간 공유 가능한 mounted filesystem을 각 agent에 제공

효과적 memory 활용은 fail(틀린 점 기록)·investigate(원인 파악)·verify(검증된 사실화)·distill(일반 규칙화)·consult(규칙 참조) 의 진행을 통해 강화
Sonnet 4.6은 1단계 근처에서 멈춤
- 저장소는 실패 노트와 미해결 추측의 목록("maybe prc instead of prc_usd?"), 이전 노트를 거의 참조하지 않음
- 성능 개선을 위해 과제별 memory 지침 필요
Opus 4.7은 3단계 근처에서 멈춤
- 불확실성을 표시한 schema reference 생성("possibly prc in cents? Verify."), 검증 커버리지는 7~33%로 낮음 (median 약 17%)
Fable 5는 진행을 완료하는 경향
- 최강 실행에서 검증 커버리지 최대 73%(30개 중 22개), 학습 내용을 향후 과제에 도움 되는 일반 규칙으로 distill

Fable 5를 직접 프롬프팅·조종하기보다, 환경 피드백(/goal, Outcomes)에 반응해 자가 수정하고 memory로 스스로 문맥을 관리하도록 루프를 설계하는 방식이 더 효과적
도전적 과제에서 자가 수정·memory 루프를 활용해 Fable 5를 직접 테스트해 볼 것을 권장