# Fable 5로 루프 설계하기

> Clean Markdown view of GeekNews topic #30390. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=30390](https://news.hada.io/topic?id=30390)
- GeekNews Markdown: [https://news.hada.io/topic/30390.md](https://news.hada.io/topic/30390.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-06-11T13:48:01+09:00
- Updated: 2026-06-11T13:48:01+09:00
- Original source: [x.com/RLanceMartin](https://x.com/RLanceMartin/status/2064397389189071163)
- Points: 7
- Comments: 0

## Topic Body

- Anthropic 내부 작업 방식을 바꾼 **Mythos-class 모델 Claude Fable 5**를 잘 활용하기 위한 두 가지 핵심 기법으로 **self-correction loop**와 **memory** 제시  
- 잘 설계된 goal·rubric이 환경에 피드백을 주입해, Claude가 실행→피드백 수집→자가 수정을 **목표 충족까지 반복**하는 구조  
- **Parameter Golf** ML 엔지니어링 과제에서 Fable 5가 Opus 4.7 대비 학습 파이프라인을 **약 6배** 더 개선  
- 세션을 가로지르는 **outer loop인 memory**를 통해, Claude가 세션 중 기록한 내용을 이후 세션에서 재사용  
- 직접 프롬프팅·조종보다 **모델이 스스로 수정·문맥 관리하는 루프 설계**가 효과적이라는 점이 핵심  
  
---  
  
### Self-correction loop (자가 수정 루프)  
  
- 평가 기준 위에서 모델이 hillclimb하도록 두는 방식이 작업 성능 개선의 일반적 레시피  
  - bcherny는 "자신의 일은 **루프를 작성하는 것**"이라고 언급  
  - Claude Code의 **/goal**, Claude Managed Agent의 **Outcomes**가 이 레시피를 특정 작업에 적용하는 primitive  
- 잘 설계된 goal 또는 rubric은 Claude가 실행되는 환경에 피드백을 추가, 실행·피드백 수집·자가 수정 후 goal/rubric 충족까지 진행  
  
#### Parameter Golf 테스트  
- **Parameter Golf**는 16MB artifact에 들어가는 최고 성능 모델을 8xH100에서 10분 이내로 학습시키는 오픈소스 ML 엔지니어링 챌린지  
  - 단일 train_gpt.py 파일 편집, 학습 실행, 로그 폴링, 점수 확인, 다음 실험 결정 능력을 시험  
  - karpathy의 autoresearch 프로젝트와 유사  
- **Claude Managed Agents(CMA)** 를 사용해 Fable 5와 Opus 4.7 비교  
  - CMA는 agent harness와 호스팅 sandbox를 제공, Fable 5의 장시간 작업에 적합  
  - Parameter Golf에는 8xH100 GPU를 self-hosted sandbox로 제공  
  
#### 채점 주체의 중요성  
- 모델이 **자기 출력에 대한 self-critique**에서 문제를 보인다는 점 확인 (Prithvi Rajasekaran이 엔지니어링 블로그에서 서술)  
- **verifier sub-agent**가 self-critique보다 우수, 독립된 context window에서 채점이 이뤄지기 때문  
  - CMA의 Outcomes가 grader sub-agent를 자동 생성해 처리  
- 9개의 체크 가능한 기준(baseline 실행, 실험 20회 수행 등)을 담은 rubric 제공, 최대 8시간 실행  
  - Outcomes grader가 모든 실험 기준 충족을 확인한 뒤에야 Claude의 작업 종료 허용  
  
#### 결과 비교  
- Fable 5가 Opus 4.7 대비 학습 파이프라인을 **약 6배** 더 개선  
  - 실험을 구조적(아키텍처 변경)과 스칼라(상수 조정)로 구분 시, Fable 5는 **더 큰 구조적 변경에 베팅**하고 회복력 발휘 (quantization regression을 뚫고 최대 성과 달성)  
- Opus 4.7은 첫 실험에서 작은 성과 후 대부분 동일 템플릿 반복: **스칼라 조정·측정·긍정 시 유지**  
  
### Memory (메모리)  
  
- 세션을 가로지르는 **outer loop**로서, 세션 중 작성한 memory를 이후 세션에서 검색·재사용  
- pgasawa 팀이 **Continual Learning Bench 1.0** 공개  
  - 온라인 환경에서 AI 시스템이 개선되는 정도를 측정하는 최초의 현실적 벤치마크  
  - 기존 벤치마크는 모델을 stateless로 가정, 각 예제 독립 처리  
  
#### 테스트 구성  
- 벤치마크 과제 중 하나로 Fable 5·Opus 4.7·Sonnet 4.6 비교  
  - SQL database 접근권을 가지고 순차 질문에 답하는 과제, 각 질문은 별도 agent 세션이며 memory 제공  
- CMA의 **memory** 사용, 세션 간 공유 가능한 mounted filesystem을 각 agent에 제공  
  
#### 효과적 memory 사용의 단계  
- 효과적 memory 활용은 **fail(틀린 점 기록)·investigate(원인 파악)·verify(검증된 사실화)·distill(일반 규칙화)·consult(규칙 참조)** 의 진행을 통해 강화  
- **Sonnet 4.6**은 1단계 근처에서 멈춤  
  - 저장소는 실패 노트와 미해결 추측의 목록("maybe prc instead of prc_usd?"), 이전 노트를 거의 참조하지 않음  
  - 성능 개선을 위해 과제별 memory 지침 필요  
- **Opus 4.7**은 3단계 근처에서 멈춤  
  - 불확실성을 표시한 schema reference 생성("possibly prc in cents? Verify."), 검증 커버리지는 7~33%로 낮음 (median 약 17%)  
- **Fable 5**는 진행을 완료하는 경향  
  - 최강 실행에서 검증 커버리지 최대 73%(30개 중 22개), 학습 내용을 향후 과제에 도움 되는 일반 규칙으로 distill  
  
### 종합  
- Fable 5를 직접 프롬프팅·조종하기보다, 환경 피드백(/goal, Outcomes)에 반응해 자가 수정하고 memory로 스스로 문맥을 관리하도록 **루프를 설계하는 방식**이 더 효과적  
- 도전적 과제에서 자가 수정·memory 루프를 활용해 Fable 5를 직접 테스트해 볼 것을 권장

## Comments


_No public comments on this page._