이건 그냥 subagent 개념처럼 보임
즉, 다른 LLM을 불러 파일을 읽고 필요한 정보를 추출하게 해서 메인 컨텍스트를 복잡하게 만들지 않으려는 방식임
아이디어는 괜찮지만 완전히 새로운 건 아님
나는 인간처럼 의인화된 subagent보다는 컨텍스트 관리 수단으로 보고 있음
현재 Scope 프로젝트에서 관찰 가능한 subagent들이 작업을 재귀적으로 분해하도록 실험 중임
다만 이 계획 단계 평가를 어떻게 개선할지 모르겠음
마크다운 파일로 휴리스틱을 기록하지만 구조가 느슨해서 측정이 어려움
관련 문헌이나 프로젝트를 아는 사람이 있다면 알려주면 좋겠음
논문에서는 이렇게 말함
RLM은 에이전트도 요약도 아님
여러 LM 호출을 하나의 시스템에서 사용하는 건 새로운 개념이 아니며, 이는 대부분의 agentic scaffold가 하는 일임
가장 유사한 예로 ROMA agent가 문제를 분해해 여러 sub-agent로 해결하는 방식을 들 수 있음
또 Cursor나 Claude Code 같은 코드 어시스턴트도 컨텍스트가 길어질수록 요약하거나 가지치기함
이런 접근은 보통 작업 단위로 분해하지만, RLM은 컨텍스트 단위 분해를 강조하며 그 선택은 LM이 스스로 결정해야 한다고 봄
제목만 보면 전체 연산이 differentiable하고 하나의 모델로 학습된 것처럼 들리지만, 실제로는 단순히 모델을 반복 호출하는 수준으로 보임
subagent가 또 다른 subagent를 무한히 호출할 수 없다면 그건 재귀적이라 할 수 없음
동일한 컨텍스트(파일 시스템이나 REPL 변수)에 접근하고 조작하는 sub-agent 개념을 말하는 것 같음
핵심 통찰은 긴 프롬프트를 신경망(Transformer)에 직접 넣지 말고, LLM이 상징적으로 상호작용할 수 있는 환경의 일부로 다뤄야 한다는 것임
그런데 이게 근본적으로 RAG와 어떻게 다른지 궁금함
그림 4를 보면, 차이는 사람이 아닌 LLM이 직접 retrieval 메커니즘을 구현한다는 점 같음
내가 보기엔 두 가지 차이가 있음
1️⃣ RAG는 workflow에 가깝고, 이건 좀 더 agentic함
2️⃣ 재귀적 구조를 가짐
workflow에서는 사람이 단계별로 흐름을 짜지만, agentic 접근에서는 에이전트가 스스로 무엇을 검색하고 몇 번 호출할지, 언제 답변할지를 결정함
예를 들어 Claude Code나 Codex가 코드베이스를 탐색하며 파일을 읽고 ripgrep을 돌리는 식임
이런 재귀적 시도는 예전에도 있었지만 (예: babyagi, 2023년경) 당시 모델 성능이 부족해서 많은 glue code가 필요했음
이제는 모델이 충분히 강력해져서 이런 구조가 실제로 작동함
“T̶u̶r̶t̶l̶e̶s̶ LLMs all the way down”이라는 농담처럼, 끝없이 LLM이 LLM을 호출하는 구조를 암시함
“attention is all you need”를 반복적으로 적용하는 셈이며, 결국 우리가 추구해야 할 건 정밀도(precision) 임
Hacker News 의견들
이건 그냥 subagent 개념처럼 보임
즉, 다른 LLM을 불러 파일을 읽고 필요한 정보를 추출하게 해서 메인 컨텍스트를 복잡하게 만들지 않으려는 방식임
아이디어는 괜찮지만 완전히 새로운 건 아님
현재 Scope 프로젝트에서 관찰 가능한 subagent들이 작업을 재귀적으로 분해하도록 실험 중임
다만 이 계획 단계 평가를 어떻게 개선할지 모르겠음
마크다운 파일로 휴리스틱을 기록하지만 구조가 느슨해서 측정이 어려움
관련 문헌이나 프로젝트를 아는 사람이 있다면 알려주면 좋겠음
RLM은 에이전트도 요약도 아님
여러 LM 호출을 하나의 시스템에서 사용하는 건 새로운 개념이 아니며, 이는 대부분의 agentic scaffold가 하는 일임
가장 유사한 예로 ROMA agent가 문제를 분해해 여러 sub-agent로 해결하는 방식을 들 수 있음
또 Cursor나 Claude Code 같은 코드 어시스턴트도 컨텍스트가 길어질수록 요약하거나 가지치기함
이런 접근은 보통 작업 단위로 분해하지만, RLM은 컨텍스트 단위 분해를 강조하며 그 선택은 LM이 스스로 결정해야 한다고 봄
핵심 통찰은 긴 프롬프트를 신경망(Transformer)에 직접 넣지 말고, LLM이 상징적으로 상호작용할 수 있는 환경의 일부로 다뤄야 한다는 것임
그런데 이게 근본적으로 RAG와 어떻게 다른지 궁금함
그림 4를 보면, 차이는 사람이 아닌 LLM이 직접 retrieval 메커니즘을 구현한다는 점 같음
1️⃣ RAG는 workflow에 가깝고, 이건 좀 더 agentic함
2️⃣ 재귀적 구조를 가짐
workflow에서는 사람이 단계별로 흐름을 짜지만, agentic 접근에서는 에이전트가 스스로 무엇을 검색하고 몇 번 호출할지, 언제 답변할지를 결정함
예를 들어 Claude Code나 Codex가 코드베이스를 탐색하며 파일을 읽고 ripgrep을 돌리는 식임
이런 재귀적 시도는 예전에도 있었지만 (예: babyagi, 2023년경) 당시 모델 성능이 부족해서 많은 glue code가 필요했음
이제는 모델이 충분히 강력해져서 이런 구조가 실제로 작동함
“T̶u̶r̶t̶l̶e̶s̶ LLMs all the way down”이라는 농담처럼, 끝없이 LLM이 LLM을 호출하는 구조를 암시함
더 읽기 쉬운 버전의 글이 있음: alexzhang13 블로그 글
2026년에 바라는 점은 Anthropic이나 OpenAI가 CLI 플러그인 제작자에게 “compaction이 어떻게 실행되는지”를 공개하는 것임
이 기술은 Claude Code에 내장된 기능을 대체할 수도 있지만, 현재는 적절한 hook이나 기능이 노출되어 있지 않음
나는 Gemini 소스를 봤는데, 컨텍스트 윈도우가 가득 차면 전체를 요약하는 단순한 프롬프트 구조였음
이 논문과 유사해 보임: arXiv:2510.14826