4P by tomlee 9시간전 | ★ favorite | 댓글과 토론

AI 에이전트에 메모리를 어떻게 줄 것인가에 대한 실제 실험 결과입니다.

동일한 AI 에이전트(Claude)에 4가지 메모리 구성을 주고, 실제 소프트웨어 프로젝트에 대해 같은 20개 질문을 던졌습니다.

결과 (5점 만점):

• 하이브리드 (경험+합성): 4.95
• 경험적 메모리 (날것의 로그): 4.55
• 베이스라인 (메모리 없음): 3.30
• 합성 메모리 (정리된 요약): 2.65
가장 놀라운 발견: 정성스럽게 정리한 합성 메모리가 메모리가 아예 없는 것보다 낮았습니다.

"과잉확신 효과"라고 이름 붙였는데 — 깔끔하게 요약된 지식이 에이전트에게 근거 없는 확신을 주고, 모르는 것을 모른다고 인정하는 능력을 떨어뜨립니다. 반면 날것의 경험적 기록은 불확실성의 흔적을 보존해서 에이전트가 더 정직한 추론을 합니다.

논문(프리프린트): https://doi.org/10.5281/zenodo.18802214
실험 데이터(공개): https://github.com/clawsouls/experiential-memory-dataset