좋은 질문입니다. 사실 저희 실험의 "하이브리드" 조건이 정확히 그 방향이었습니다 — 정리된 요약에 날것의 경험 로그를 함께 제공하는 구성이요.
결과적으로 하이브리드가 4.95/5.0으로 가장 높았습니다. 요약만 주면 2.65인데, 거기에 "실패했다", "원인 불명" 같은 과정 기록을 붙이니 오히려 요약의 약점이 보완되더라고요.
그래서 결론은 "요약 자체가 나쁜 게 아니라, 과정과 불확실성을 함께 담아야 한다"입니다.
하지만 N=1 이라서 다양한 사용자층으로 범용적 으로 쓰일 내용인지는 후속연구가 필요합니다.
맞습니다. 저도 처음에 합성 메모리가 최소한 베이스라인보다는 나을 거라 예상했는데, 결과를 보고 놀랐습니다.
분석해보니 핵심은 "불확실성 보존" 이었습니다. 날것의 로그에는 "이거 해봤는데 안 됐다", "원인 모르겠다" 같은 흔적이 남아있어서 에이전트가 모르는 건 모른다고 답하는데, 요약본은 그런 맥락이 다 지워지면서 오히려 틀린 답을 확신있게 내놓더라고요.