[2025/12/15 ~ 21] 이번 주에 살펴볼 만한 AI/ML 논문 모음
(discuss.pytorch.kr)[2025/12/15 ~ 21] 이번 주에 살펴볼 만한 AI/ML 논문 모음
PyTorchKR🔥🇰🇷 🤔💭
1️⃣ 에이전트 적응의 중요성: 이번 주에 선정된 논문들은 에이전트 기반 AI 시스템의 성능과 신뢰성을 높이기 위해 적응(adaptation)의 필요성을 강조하고 있습니다. 에이전트와 도구의 적응을 통합한 체계적인 프레임워크가 제안되었으며, 이를 통해 다양한 적응 전략의 설계 공간을 명확히 하고, 실용적인 가이드를 제공합니다.
2️⃣ 메모리 시스템의 발전: 에이전트 메모리는 AI 시스템의 핵심 기능으로 자리 잡고 있으며, 다양한 형태와 기능의 메모리 시스템이 연구되고 있습니다. 기존의 메모리 분류 방식이 현대 에이전트 메모리의 다양성을 포착하기에 부족함을 인식하고, 메모리의 형태, 기능, 동역학을 통합적으로 분석하여 새로운 연구 방향을 제시하고 있습니다.
3️⃣ 효율적인 모델 전환 및 최적화: 최근 논문들은 오토회귀 언어 모델(AR)에서 디퓨전 언어 모델(dLM)로의 전환을 통해 속도와 정확성을 동시에 향상시키는 방법을 모색하고 있습니다. 특히, 다양한 주의 패턴과 훈련 전략을 비교하고, 효율적인 전환을 위한 원칙과 방법론을 제안하여 모델의 성능을 극대화하는 방향으로 연구가 진행되고 있습니다.
에이전틱 AI의 적응 / Adaptation of Agentic AI
논문 소개
최첨단 에이전틱 AI 시스템은 파운데이션 모델을 기반으로 하여 점점 더 복잡하고 전문화된 작업을 수행할 수 있는 능력을 갖추고 있다. 이러한 시스템의 성능, 신뢰성 및 일반화를 향상시키기 위해 적응은 핵심 메커니즘으로 자리잡고 있다. 본 연구에서는 에이전트 적응과 도구 적응을 아우르는 체계적인 프레임워크를 제시하며, 이를 통해 다양한 적응 전략의 설계 공간을 명확히 하고 전략 간의 트레이드오프를 명시한다. 프레임워크는 도구 실행 신호 및 에이전트 출력 신호 형태의 적응으로 세분화되며, 비평 에이전트 및 감독 에이전트 형태의 도구 적응으로도 나뉜다.
이 연구는 각 범주에서 대표적인 접근 방식을 검토하고, 그 강점과 한계를 분석하며, 주요 개방 과제와 미래의 기회를 강조한다. 특히, 초기 A1 유형 방법들은 감독된 파인튜닝(Supervised Fine-Tuning) 및 직접 선호 최적화(Direct Preference Optimization)에 중점을 두고 있으며, 이러한 방법들은 도구 사용과 관련된 모델 응답을 수집하여 학습 신호를 얻는 방식으로 발전해왔다. Toolformer와 같은 초기 모델은 자기 감독 학습 신호를 활용하여 도구 사용을 개선하려 했으나, 실제 환경에서의 적용에는 한계가 있었다.
이러한 한계를 극복하기 위해 TRICE와 ToolAlpaca와 같은 후속 모델들은 실행 피드백을 통한 강화 학습을 도입하여 도구 사용 능력을 직접 개선하는 방향으로 나아갔다. TP-LLaMA는 실패한 경로를 활용하여 모델이 실패로부터 학습할 수 있도록 하는 새로운 접근 방식을 제시하며, Gorilla는 대규모 머신러닝 API 집합에서 올바른 API 호출을 생성하기 위한 구조적 올바름을 강조한다. CodeAct는 실행 가능한 코드 환경과의 직접 상호작용을 통해 학습하는 패러다임을 제안하여, 검증 가능한 결과에 기반한 학습 목표 설정을 가능하게 한다.
마지막으로, RLVR(검증 가능한 보상) 기반 방법은 모델이 도구 및 환경과의 온라인 상호작용을 통해 직접 학습하도록 하여, 적응을 동적이고 맥락 인식 가능하게 만든다. 이러한 연구는 에이전틱 AI 시스템의 발전에 기여하며, 향후 연구 및 실무에서의 적용 가능성을 제시하는 중요한 기초를 제공한다.
논문 초록(Abstract)
최첨단 에이전트 AI 시스템은 계획, 추론 및 외부 도구와의 상호작용을 통해 점점 더 복잡하고 전문화된 작업을 수행할 수 있도록 조정할 수 있는 파운데이션 모델에 기반하고 있습니다. 이러한 시스템이 능력과 범위가 확장됨에 따라, 적응은 성능, 신뢰성 및 일반화를 개선하기 위한 중심 메커니즘이 됩니다. 본 논문에서는 급속히 확장되고 있는 연구 분야를 에이전트 적응과 도구 적응 모두를 아우르는 체계적인 프레임워크로 통합합니다. 우리는 이를 도구 실행 신호 기반의 에이전트 적응과 에이전트 출력 신호 기반의 에이전트 적응, 그리고 에이전트 비의존형과 에이전트 감독형 도구 적응으로 세분화합니다. 이 프레임워크가 에이전트 AI에서 적응 전략의 설계 공간을 명확히 하고, 그 상충 관계를 명시하며, 시스템 설계 중 전략 선택 또는 전환에 대한 실용적인 지침을 제공하는 데 도움이 됨을 보여줍니다. 이어서 각 범주에서 대표적인 접근 방식을 검토하고, 그 강점과 한계를 분석하며, 주요 개방 과제와 미래 기회를 강조합니다. 전반적으로 본 논문은 더 능력 있고, 효율적이며, 신뢰할 수 있는 에이전트 AI 시스템을 구축하고자 하는 연구자와 실무자를 위한 개념적 기초와 실용적인 로드맵을 제공하는 것을 목표로 합니다.
Cutting-edge agentic AI systems are built on foundation models that can be adapted to plan, reason, and interact with external tools to perform increasingly complex and specialized tasks. As these systems grow in capability and scope, adaptation becomes a central mechanism for improving performance, reliability, and generalization. In this paper, we unify the rapidly expanding research landscape into a systematic framework that spans both agent adaptations and tool adaptations. We further decompose these into tool-execution-signaled and agent-output-signaled forms of agent adaptation, as well as agent-agnostic and agent-supervised forms of tool adaptation. We demonstrate that this framework helps clarify the design space of adaptation strategies in agentic AI, makes their trade-offs explicit, and provides practical guidance for selecting or switching among strategies during system design. We then review the representative approaches in each category, analyze their strengths and limitations, and highlight key open challenges and future opportunities. Overall, this paper aims to offer a conceptual foundation and practical roadmap for researchers and practitioners seeking to build more capable, efficient, and reliable agentic AI systems.
논문 링크
https://arxiv.org/abs/2512.16301
더 읽어보기
https://github.com/pat-jj/Awesome-Adaptation-of-Agentic-AI
AI 에이전트 시대의 기억 / Memory in the Age of AI Agents
논문 소개
에이전트 메모리는 현대 인공지능(AI) 시스템에서 필수적인 요소로 자리잡고 있으며, 본 연구는 이러한 메모리의 복잡성과 다양성을 체계적으로 정리하고 분석하는 것을 목표로 한다. 기존의 연구들은 에이전트 메모리의 동기, 구현 방식, 평가 프로토콜에서 큰 차이를 보이며, 이로 인해 개념적 명확성이 결여된 상태이다. 따라서 본 논문은 에이전트 메모리의 범위를 명확히 정의하고, 대규모 언어 모델(LLM) 메모리, 검색-증강 생성(RAG), 컨텍스트 엔지니어링 등과의 차별성을 강조한다.
연구는 에이전트 메모리를 형태, 기능, 동역학의 세 가지 관점에서 분석한다. 형태적 관점에서는 토큰 수준, 파라메트릭, 잠재 메모리의 세 가지 주요 형태를 제시하며, 각 형태의 특성과 작동 방식을 설명한다. 기능적 관점에서는 사실적, 경험적, 작업 메모리로 구분하여 각 메모리가 수행하는 역할을 명확히 한다. 동역학적 관점에서는 메모리가 형성되고 진화하며 검색되는 과정을 탐구하여, 에이전트가 환경과 상호작용하는 동안 메모리가 어떻게 작동하는지를 분석한다.
이 연구는 또한 실용적 개발을 지원하기 위해 메모리 벤치마크와 오픈 소스 프레임워크에 대한 포괄적인 요약을 제공하며, 메모리 자동화, 강화학습 통합, 멀티모달 메모리, 다중 에이전트 메모리 등 새로운 연구 전선에 대한 전망을 제시한다. 이러한 접근은 에이전트 메모리 시스템의 설계에서 메모리를 1급 원시 개념으로 재고할 수 있는 기초를 마련하며, 향후 연구의 방향성을 제시한다.
결과적으로, 본 논문은 에이전트 메모리 연구의 현재 상황을 종합적으로 정리하고, 향후 연구에 대한 통찰을 제공함으로써 AI 에이전트의 메모리 시스템을 발전시키는 데 기여할 것으로 기대된다.
논문 초록(Abstract)
메모리는 파운데이션 모델 기반 에이전트의 핵심 능력으로 부상하였으며, 앞으로도 계속해서 중요한 역할을 할 것입니다. 에이전트 메모리에 대한 연구가 빠르게 확장되고 전례 없는 주목을 받고 있는 가운데, 이 분야는 점점 더 분열되고 있습니다. 에이전트 메모리라는 범주에 속하는 기존 연구들은 동기, 구현, 평가 프로토콜에서 상당한 차이를 보이며, 느슨하게 정의된 메모리 용어의 확산은 개념적 명확성을 더욱 모호하게 만들었습니다. 전통적인 분류법인 장기/단기 메모리는 현대 에이전트 메모리 시스템의 다양성을 포착하기에 부족함이 입증되었습니다. 본 연구는 현재 에이전트 메모리 연구의 최신 지형을 제공하는 것을 목표로 합니다. 우리는 에이전트 메모리의 범위를 명확히 구분하고 이를 LLM 메모리, 검색-증강 생성(RAG), 맥락 엔지니어링과 같은 관련 개념과 구별하는 것에서 시작합니다. 이후 우리는 형태, 기능, 역학이라는 통합된 관점을 통해 에이전트 메모리를 살펴봅니다. 형태의 관점에서 우리는 에이전트 메모리의 세 가지 주요 실현 방식인 토큰 수준, 매개변수적, 잠재적 메모리를 식별합니다. 기능의 관점에서 우리는 사실적, 경험적, 작업 메모리를 구별하는 보다 세분화된 분류법을 제안합니다. 역학의 관점에서 우리는 메모리가 어떻게 형성되고, 진화하며, 시간이 지남에 따라 어떻게 검색되는지를 분석합니다. 실용적인 개발을 지원하기 위해 우리는 메모리 벤치마크와 오픈 소스 프레임워크에 대한 종합적인 요약을 작성합니다. 통합을 넘어, 우리는 메모리 자동화, 강화학습 통합, 멀티모달 메모리, 다중 에이전트 메모리, 신뢰성 문제 등 새로운 연구 경계에 대한 미래 지향적인 관점을 설명합니다. 본 서베이가 기존 연구에 대한 참고자료로서 뿐만 아니라, 미래의 에이전틱 인텔리전스 설계에서 메모리를 1급 원시 개념으로 재고하는 데 필요한 개념적 기초로 작용하기를 희망합니다.
Memory has emerged, and will continue to remain, a core capability of foundation model-based agents. As research on agent memory rapidly expands and attracts unprecedented attention, the field has also become increasingly fragmented. Existing works that fall under the umbrella of agent memory often differ substantially in their motivations, implementations, and evaluation protocols, while the proliferation of loosely defined memory terminologies has further obscured conceptual clarity. Traditional taxonomies such as long/short-term memory have proven insufficient to capture the diversity of contemporary agent memory systems. This work aims to provide an up-to-date landscape of current agent memory research. We begin by clearly delineating the scope of agent memory and distinguishing it from related concepts such as LLM memory, retrieval augmented generation (RAG), and context engineering. We then examine agent memory through the unified lenses of forms, functions, and dynamics. From the perspective of forms, we identify three dominant realizations of agent memory, namely token-level, parametric, and latent memory. From the perspective of functions, we propose a finer-grained taxonomy that distinguishes factual, experiential, and working memory. From the perspective of dynamics, we analyze how memory is formed, evolved, and retrieved over time. To support practical development, we compile a comprehensive summary of memory benchmarks and open-source frameworks. Beyond consolidation, we articulate a forward-looking perspective on emerging research frontiers, including memory automation, reinforcement learning integration, multimodal memory, multi-agent memory, and trustworthiness issues. We hope this survey serves not only as a reference for existing work, but also as a conceptual foundation for rethinking memory as a first-class primitive in the design of future agentic intelligence.
논문 링크
https://arxiv.org/abs/2512.13564
더 읽어보기
https://github.com/Shichun-Liu/Agent-Memory-Paper-List
대규모 언어 모델 기반 에이전트의 세부 균형 / Detailed balance in large language model-driven agents
논문 소개
대규모 언어 모델(LLM) 기반 에이전트는 복잡한 문제를 해결하는 데 있어 혁신적인 접근 방식을 제공하고 있으며, 이러한 시스템의 경험적 성공에도 불구하고 이론적 프레임워크가 부족한 상황이다. 본 연구는 최소 작용 원리에 기반하여 LLM의 생성 방향성을 추정하는 새로운 방법론을 제안한다. 이 방법론은 LLM이 생성한 상태 간의 전이 확률을 실험적으로 측정함으로써, LLM 생성 전이에서 발견된 세부 균형을 통계적으로 입증한다. 이러한 발견은 LLM이 특정 규칙 세트나 전략을 학습하는 것이 아니라, 다양한 LLM 아키텍처와 프롬프트 템플릿을 초월할 수 있는 잠재 함수의 클래스를 암묵적으로 학습함으로써 이루어질 수 있음을 시사한다.
이 연구는 LLM 생성 동역학에서의 거시적 물리 법칙을 최초로 발견한 사례로, 복잡한 인공지능(AI) 시스템의 거시적 동역학 이론을 확립하려는 시도를 담고 있다. 이를 통해 AI 에이전트 연구가 단순한 엔지니어링 관행의 집합에서 예측 가능하고 정량화 가능한 과학으로 발전할 수 있는 기초를 마련하고자 한다. LLM의 생성 과정에서 발생하는 전이의 동역학을 이해하는 것은 이러한 시스템의 작동 원리를 규명하는 데 필수적이다.
본 연구는 LLM의 생성 동역학을 설명할 수 있는 새로운 이론적 프레임워크를 제안하며, 이를 통해 AI 연구의 새로운 방향성을 제시한다. 실험적 접근을 통해 수집된 데이터는 LLM의 동작 원리를 이해하는 데 중요한 기여를 하며, 향후 연구에 대한 기초 자료로 활용될 수 있다. 이러한 연구 결과는 LLM 기반 에이전트의 설계 및 활용에 있어 중요한 통찰을 제공하며, AI 기술의 발전에 기여할 것으로 기대된다.
논문 초록(Abstract)
대규모 언어 모델(LLM) 기반 에이전트는 복잡한 문제를 해결하기 위한 강력한 새로운 패러다임으로 떠오르고 있습니다. 이러한 실천의 경험적 성공에도 불구하고, 이들의 거시적 동력을 이해하고 통합할 수 있는 이론적 프레임워크는 여전히 부족합니다. 본 논문에서는 최소 작용 원리에 기반하여 에이전트 내에 내재된 LLM의 기본 생성 방향성을 추정하는 방법을 제안합니다. LLM이 생성한 상태 간의 전이 확률을 실험적으로 측정함으로써, 우리는 LLM이 생성한 전이에서 세밀한 균형을 통계적으로 발견하였으며, 이는 LLM 생성이 일반적으로 규칙 집합과 전략을 학습하는 방식이 아니라, 다양한 LLM 아키텍처와 프롬프트 템플릿을 초월할 수 있는 기본 잠재 함수의 클래스를 암묵적으로 학습함으로써 이루어질 수 있음을 시사합니다. 우리가 아는 한, 이는 특정 모델 세부 사항에 의존하지 않는 LLM 생성 동역학에서의 거시적 물리 법칙을 최초로 발견한 것입니다. 이 연구는 복잡한 AI 시스템의 거시적 동역학 이론을 확립하려는 시도로, AI 에이전트 연구를 엔지니어링 관행의 집합에서 예측 가능하고 정량화 가능한 효과적인 측정에 기반한 과학으로 발전시키는 것을 목표로 합니다.
Large language model (LLM)-driven agents are emerging as a powerful new paradigm for solving complex problems. Despite the empirical success of these practices, a theoretical framework to understand and unify their macroscopic dynamics remains lacking. This Letter proposes a method based on the least action principle to estimate the underlying generative directionality of LLMs embedded within agents. By experimentally measuring the transition probabilities between LLM-generated states, we statistically discover a detailed balance in LLM-generated transitions, indicating that LLM generation may not be achieved by generally learning rule sets and strategies, but rather by implicitly learning a class of underlying potential functions that may transcend different LLM architectures and prompt templates. To our knowledge, this is the first discovery of a macroscopic physical law in LLM generative dynamics that does not depend on specific model details. This work is an attempt to establish a macroscopic dynamics theory of complex AI systems, aiming to elevate the study of AI agents from a collection of engineering practices to a science built on effective measurements that are predictable and quantifiable.
논문 링크
https://arxiv.org/abs/2512.10047
효율적인 DLM: 자가 회귀에서 디퓨전 언어 모델로, 그리고 속도에서 그 이상으로 / Efficient-DLM: From Autoregressive to Diffusion Language Models, and Beyond in Speed
논문 소개
디퓨전 언어 모델(Diffusion Language Models, dLM)은 병렬 비자기 회귀 생성이 가능한 유망한 패러다임으로 떠오르고 있지만, 자가 회귀 언어 모델(Autoregressive Language Models, AR)과 비교할 때 학습 효율성이 떨어지는 문제가 있다. 이러한 문제를 해결하기 위해, AR 모델을 효율적인 dLM으로 변환하는 방법론이 제안되었다. 연구자들은 기존 AR-to-dLM 변환 방법의 한계를 분석하고, AR 모델의 사전 학습된 가중치 분포를 유지하는 것이 효과적인 변환에 필수적임을 발견하였다.
이를 바탕으로, 블록 단위의 어텐션 패턴을 유지하는 연속 사전 학습 방식을 도입하였다. 이 방식은 각 블록 내에서 양방향 모델링을 가능하게 하여, AR 모델의 가중치 분포를 보다 잘 보존할 수 있도록 하였다. 또한, KV 캐싱을 가능하게 하여 정확성과 효율성을 동시에 향상시키는 이점을 제공한다. 훈련 시 마스크 토큰 분포의 차이를 줄이기 위해 위치 의존적인 토큰 마스킹 전략도 제안되었으며, 이는 훈련 과정에서 후속 토큰에 더 높은 마스킹 확률을 부여하여 테스트 시 행동을 더 잘 모방할 수 있도록 한다.
이러한 방법론을 통해 dLM의 어텐션 패턴, 훈련 동역학 및 설계 선택에 대한 광범위한 연구가 수행되었으며, 이는 AR에서 dLM으로의 확장 가능한 변환에 대한 실행 가능한 통찰을 제공한다. 최종적으로, Efficient-DLM 패밀리는 최신 AR 모델 및 dLM을 초월하는 성능을 보여주며, 특히 Efficient-DLM 8B는 Dream 7B 및 Qwen3 4B에 비해 각각 +5.4% 및 +2.7% 높은 정확도와 4.5배 및 2.7배 높은 처리량을 달성하였다. 이러한 연구는 AR 모델에서 dLM으로의 효과적인 변환을 위한 새로운 방법론을 제시하며, 학습 효율성과 모델 성능을 모두 향상시키는 데 기여하고 있다.
논문 초록(Abstract)
디퓨전 언어 모델(dLMs)은 병렬 비자기 회귀 생성이 가능한 유망한 패러다임으로 떠올랐지만, 처음부터 학습할 경우 자가 회귀(AR) 언어 모델에 비해 학습 효율성이 떨어집니다. 이를 해결하기 위해, 우리는 사전 학습된 AR 모델을 효율적인 dLM으로 변환하는 AR-to-dLM 변환을 연구하여 속도를 높이면서 AR 모델의 작업 정확도를 유지합니다. 우리는 기존 AR-to-dLM 방법의 어텐션 패턴과 목표의 한계를 식별하고, 보다 효과적인 AR-to-dLM 변환을 위한 원칙과 방법론을 제안합니다. 구체적으로, 우리는 먼저 다양한 어텐션 패턴을 체계적으로 비교하고, 사전 학습된 AR 가중치 분포를 유지하는 것이 효과적인 AR-to-dLM 변환에 중요하다는 것을 발견합니다. 따라서 우리는 블록 간 인과성을 유지하면서 각 블록 내에서 양방향 모델링을 가능하게 하는 블록 단위 어텐션 패턴을 가진 연속 사전 학습 방식을 도입합니다. 이 접근 방식은 완전 양방향 모델링보다 사전 학습된 AR 모델의 가중치 분포를 더 잘 보존할 수 있으며, KV 캐싱을 가능하게 하는 알려진 이점과 함께 정확도와 효율성 모두에서 윈-윈 결과를 가져옵니다. 둘째, 마스크 토큰 분포의 훈련-테스트 간 차이를 완화하기 위해, 우리는 훈련 중 후속 토큰에 더 높은 마스킹 확률을 부여하여 테스트 시 행동을 더 잘 모방하는 위치 의존적 토큰 마스킹 전략을 제안합니다. 이 프레임워크를 활용하여, 우리는 dLM의 어텐션 패턴, 훈련 역학 및 기타 설계 선택에 대한 광범위한 연구를 수행하여 확장 가능한 AR-to-dLM 변환에 대한 실행 가능한 통찰을 제공합니다. 이러한 연구는 Efficient-DLM 패밀리로 이어지며, 이는 최첨단 AR 모델 및 dLM을 능가합니다. 예를 들어, 우리의 Efficient-DLM 8B는 Dream 7B 및 Qwen3 4B에 비해 각각 +5.4%/+2.7% 더 높은 정확도와 4.5x/2.7x 더 높은 처리량을 달성합니다.
Diffusion language models (dLMs) have emerged as a promising paradigm that enables parallel, non-autoregressive generation, but their learning efficiency lags behind that of autoregressive (AR) language models when trained from scratch. To this end, we study AR-to-dLM conversion to transform pretrained AR models into efficient dLMs that excel in speed while preserving AR models' task accuracy. We achieve this by identifying limitations in the attention patterns and objectives of existing AR-to-dLM methods and then proposing principles and methodologies for more effective AR-to-dLM conversion. Specifically, we first systematically compare different attention patterns and find that maintaining pretrained AR weight distributions is critical for effective AR-to-dLM conversion. As such, we introduce a continuous pretraining scheme with a block-wise attention pattern, which remains causal across blocks while enabling bidirectional modeling within each block. We find that this approach can better preserve pretrained AR models' weight distributions than fully bidirectional modeling, in addition to its known benefit of enabling KV caching, and leads to a win-win in accuracy and efficiency. Second, to mitigate the training-test gap in mask token distributions (uniform vs. highly left-to-right), we propose a position-dependent token masking strategy that assigns higher masking probabilities to later tokens during training to better mimic test-time behavior. Leveraging this framework, we conduct extensive studies of dLMs' attention patterns, training dynamics, and other design choices, providing actionable insights into scalable AR-to-dLM conversion. These studies lead to the Efficient-DLM family, which outperforms state-of-the-art AR models and dLMs, e.g., our Efficient-DLM 8B achieves +5.4%/+2.7% higher accuracy with 4.5x/2.7x higher throughput compared to Dream 7B and Qwen3 4B, respectively.
논문 링크
https://arxiv.org/abs/2512.14067
모든 것은 맥락이다: 맥락 공학을 위한 에이전틱 파일 시스템 추상화 / Everything is Context: Agentic File System Abstraction for Context Engineering
논문 소개
Generative AI (GenAI)의 발전은 소프트웨어 시스템 설계에 혁신적인 변화를 가져왔으며, 특히 파운데이션 모델을 통해 아키텍처와 운영의 재정의가 이루어지고 있습니다. 현재의 주요 도전 과제는 모델의 파인튜닝을 넘어, 외부 지식, 메모리, 도구 및 인간 입력을 효과적으로 캡처하고 구조화하는 '컨텍스트 엔지니어링'으로 이동하고 있습니다. 기존의 프롬프트 엔지니어링이나 검색-증강 생성(RAG)과 같은 접근 방식은 단편적이며, 이로 인해 생성된 컨텍스트 아티팩트는 종종 일시적이고 검증할 수 없는 문제를 초래합니다.
이 연구는 Unix의 "모든 것은 파일이다"라는 철학에서 영감을 받아, 컨텍스트 엔지니어링을 위한 파일 시스템 추상화를 제안합니다. 이 추상화는 이질적인 컨텍스트 아티팩트를 관리하기 위한 지속적이고 관리되는 인프라를 제공하며, 이를 통해 일관된 마운팅, 메타데이터 및 접근 제어를 가능하게 합니다. AIGNE 프레임워크 내에서 구현된 이 아키텍처는 컨텍스트 생성기, 로더, 평가기로 구성된 검증 가능한 컨텍스트 엔지니어링 파이프라인을 통해, 토큰 제약 하에 컨텍스트를 조립하고 전달하며 검증하는 기능을 수행합니다.
GenAI가 의사 결정 지원의 적극적인 협력자로 자리 잡으면서, 인간은 큐레이터, 검증자 및 공동 추론자로서 중심적인 역할을 하게 됩니다. 이 연구는 메모리를 가진 에이전트와 MCP 기반의 GitHub 어시스턴트를 통해 제안된 아키텍처의 실용성을 입증하며, 개발자 및 산업 환경에서의 운영 가능성을 보여줍니다. 이러한 접근은 책임감 있고 인간 중심의 AI 협업을 위한 재사용 가능한 기반을 설정하며, 검증 가능하고 유지 관리가 용이한 GenAI 시스템을 지원하는 데 기여합니다.
결론적으로, 이 연구는 GenAI 시스템 설계에서 컨텍스트 엔지니어링의 중요성을 강조하며, 파일 시스템 기반의 추상화가 어떻게 지속적이고 투명한 컨텍스트 관리의 토대를 마련할 수 있는지를 제시합니다.
논문 초록(Abstract)
생성적 AI(GenAI)는 사전 학습된 하위 시스템으로서 파운데이션 모델을 도입하여 소프트웨어 시스템 설계를 재구성하였습니다. 새로운 도전 과제는 더 이상 모델의 파인튜닝이 아니라, 시스템이 신뢰할 수 있는 추론을 가능하게 하기 위해 외부 지식, 기억, 도구 및 인간 입력을 어떻게 캡처하고 구조화하며 관리하는지에 대한 컨텍스트 엔지니어링입니다. 프롬프트 엔지니어링, 검색-증강 생성(RAG), 도구 통합과 같은 기존의 관행은 단편적이며, 추적 가능성과 책임을 제한하는 일시적인 산물을 생성합니다. 본 논문은 '모든 것은 파일이다'라는 유닉스 개념에서 영감을 받아 컨텍스트 엔지니어링을 위한 파일 시스템 추상화를 제안합니다. 이 추상화는 균일한 마운팅, 메타데이터 및 접근 제어를 통해 이질적인 컨텍스트 산물을 관리하기 위한 지속적이고 관리되는 인프라를 제공합니다. 오픈 소스 AIGNE 프레임워크 내에서 구현된 이 아키텍처는 토큰 제약 조건 하에 컨텍스트를 조립, 전달 및 검증하는 컨텍스트 생성기, 로더 및 평가자로 구성된 검증 가능한 컨텍스트 엔지니어링 파이프라인을 실현합니다. GenAI가 의사 결정 지원의 능동적인 협력자가 됨에 따라, 인간은 큐레이터, 검증자 및 공동 추론자로서 중심적인 역할을 합니다. 제안된 아키텍처는 메모리를 가진 에이전트와 MCP 기반 GitHub 어시스턴트라는 두 가지 사례를 통해 책임 있는 인간 중심 AI 협업을 위한 재사용 가능한 기반을 구축합니다. AIGNE 프레임워크 내에서의 구현은 이 아키텍처가 개발자 및 산업 환경에서 어떻게 운영될 수 있는지를 보여주며, 검증 가능하고 유지 관리 가능하며 산업 준비가 완료된 GenAI 시스템을 지원합니다.
Generative AI (GenAI) has reshaped software system design by introducing foundation models as pre-trained subsystems that redefine architectures and operations. The emerging challenge is no longer model fine-tuning but context engineering-how systems capture, structure, and govern external knowledge, memory, tools, and human input to enable trustworthy reasoning. Existing practices such as prompt engineering, retrieval-augmented generation (RAG), and tool integration remain fragmented, producing transient artefacts that limit traceability and accountability. This paper proposes a file-system abstraction for context engineering, inspired by the Unix notion that 'everything is a file'. The abstraction offers a persistent, governed infrastructure for managing heterogeneous context artefacts through uniform mounting, metadata, and access control. Implemented within the open-source AIGNE framework, the architecture realises a verifiable context-engineering pipeline, comprising the Context Constructor, Loader, and Evaluator, that assembles, delivers, and validates context under token constraints. As GenAI becomes an active collaborator in decision support, humans play a central role as curators, verifiers, and co-reasoners. The proposed architecture establishes a reusable foundation for accountable and human-centred AI co-work, demonstrated through two exemplars: an agent with memory and an MCP-based GitHub assistant. The implementation within the AIGNE framework demonstrates how the architecture can be operationalised in developer and industrial settings, supporting verifiable, maintainable, and industry-ready GenAI systems.
논문 링크
https://arxiv.org/abs/2512.05470
에이전트 시스템의 확장 과학을 향하여 / Towards a Science of Scaling Agent Systems
논문 소개
에이전트와 언어 모델 기반 시스템은 실제 인공지능 응용 프로그램에서 점점 더 중요한 역할을 하고 있으며, 이러한 시스템의 성능을 결정하는 원칙들은 아직 충분히 탐구되지 않았습니다. 본 연구는 에이전트 시스템의 양적 스케일링 원칙을 도출하여 이와 같은 격차를 해결하고자 하며, 이를 통해 실무자들이 경험적 방법이 아닌 원칙적인 설계 선택을 할 수 있도록 지원합니다. 연구는 네 가지 다양한 벤치마크인 Finance-Agent, BrowseComp-Plus, PlanCraft, Workbench를 통해 수행되며, 다섯 가지 전형적인 아키텍처(단일, 독립형, 중앙집중형, 분산형, 하이브리드)를 세 가지 언어 모델 계열에 적용하여 180개의 구성에 대한 통제된 평가를 진행합니다.
이 연구의 핵심은 경험적 조정 메트릭을 사용하여 예측 모델을 도출하는 것입니다. 이 모델은 효율성, 오버헤드, 오류 증폭 및 중복성과 같은 다양한 요소를 고려하여 교차 검증된 R² 값 0.513을 달성합니다. 연구를 통해 세 가지 주요 효과가 확인되었습니다. 첫째, 도구-조정 트레이드오프는 고정된 계산 예산 하에서 도구 중심의 작업이 다중 에이전트 오버헤드로 인해 불균형적으로 영향을 받는다는 점입니다. 둘째, 능력 포화 현상은 단일 에이전트 성능이 약 45%를 초과할 경우 조정이 감소하거나 부정적인 수익을 초래한다는 것을 보여줍니다. 셋째, 토폴로지 의존적 오류 증폭 현상은 독립 에이전트가 오류를 17.2배 증폭시키는 반면, 중앙집중형 조정은 이를 4.4배로 제한합니다.
중앙집중형 조정은 재무 추론과 같은 병렬화 가능한 작업에서 성능을 80.9% 향상시키며, 분산형 조정은 동적 웹 탐색에서 상대적으로 우수한 성능을 보입니다. 그러나 순차적 추론 작업에서는 모든 다중 에이전트 변형이 성능을 39-70% 저하시키는 결과를 나타냅니다. 이러한 발견은 에이전트 시스템의 성능을 예측하고 최적의 조정 전략을 제시하는 데 중요한 기여를 하며, 에이전틱 작업의 특성을 기반으로 한 예측 원칙을 제공합니다. 본 연구는 에이전트 시스템의 스케일링 원칙을 정량적으로 도출함으로써, 실무자들이 보다 효과적으로 시스템을 설계하고 최적화할 수 있는 기초를 마련합니다.
논문 초록(Abstract)
에이전트, 언어 모델(LM) 기반 시스템은 추론, 계획 및 행동이 가능한 시스템으로, 실제 AI 응용 프로그램에서 지배적인 패러다임이 되고 있습니다. 이러한 광범위한 채택에도 불구하고, 이들의 성능을 결정하는 원칙은 충분히 탐구되지 않아 실무자들은 원칙적인 설계 선택보다는 휴리스틱에 의존하게 됩니다. 우리는 에이전트 시스템을 위한 정량적 스케일링 원칙을 도출하여 이 격차를 해소합니다. 우리는 Finance-Agent, BrowseComp-Plus, PlanCraft, Workbench라는 네 가지 다양한 벤치마크를 통해 이를 평가합니다. 세 가지 LLM 계열에 걸쳐 다섯 가지 전형적인 아키텍처(단일, 독립, 중앙 집중식, 분산, 하이브리드)를 구현하여, 표준화된 도구와 토큰 예산을 사용하여 180개의 구성에 걸쳐 통제된 평가를 수행합니다. 우리는 효율성, 오버헤드, 오류 증폭 및 중복을 포함한 경험적 조정 메트릭을 사용하여 예측 모델을 도출하며, 이는 교차 검증된 $R^2=0.513$ 을 달성합니다. 우리는 세 가지 주요 효과를 식별합니다: (1) 도구 조정의 트레이드오프: 고정된 계산 예산 하에서 도구 중심의 작업은 다중 에이전트 오버헤드로 인해 불균형적으로 영향을 받습니다. (2) 능력 포화: 조정은 단일 에이전트 기준이 약 45%를 초과하면 수익이 감소하거나 부정적인 결과를 초래합니다(beta=-0.408, p<0.001). (3) 토폴로지 의존적 오류 증폭: 독립 에이전트는 통제되지 않은 전파를 통해 오류를 17.2배 증폭시키는 반면, 중앙 집중식 조정은 이를 4.4배로 제한합니다. 중앙 집중식 조정은 재무 추론과 같은 병렬화 가능한 작업에서 성능을 80.9% 향상시키고, 분산 조정은 동적 웹 탐색에서 우수한 성능을 보입니다(+9.2% 대 +0.2%). 그러나 순차적 추론 작업의 경우, 모든 다중 에이전트 변형은 성능을 39-70% 저하시켰습니다. 이 프레임워크는 87%의 보류된 구성에 대한 최적의 조정 전략을 예측하며, 측정 가능한 작업 속성을 기반으로 한 에이전틱 스케일링의 예측 원칙을 제공합니다.
Agents, language model (LM)-based systems that are capable of reasoning, planning, and acting are becoming the dominant paradigm for real-world AI applications. Despite this widespread adoption, the principles that determine their performance remain underexplored, leaving practitioners to rely on heuristics rather than principled design choices. We address this gap by deriving quantitative scaling principles for agent systems. We evaluate this across four diverse benchmarks: Finance-Agent, BrowseComp-Plus, PlanCraft, and Workbench. Using five canonical architectures (Single, Independent, Centralized, Decentralized, Hybrid) instantiated across three LLM families, we perform a controlled evaluation spanning 180 configurations with standardized tools and token budgets. We derive a predictive model using empirical coordination metrics, including efficiency, overhead, error amplification, and redundancy, that achieves cross-validated $R^2=0.513$. We identify three dominant effects: (1) a tool-coordination trade-off: under fixed computational budgets, tool-heavy tasks suffer disproportionately from multi-agent overhead. (2) a capability saturation: coordination yields diminishing or negative returns (beta=-0.408, p<0.001) once single-agent baselines exceed ~45%. (3) topology-dependent error amplification: independent agents amplify errors 17.2x through unchecked propagation, while centralized coordination contains this to 4.4x. Centralized coordination improves performance by 80.9% on parallelizable tasks like financial reasoning, while decentralized coordination excels on dynamic web navigation (+9.2% vs. +0.2%). Yet for sequential reasoning tasks, all multi-agent variants degraded performance by 39-70%. The framework predicts the optimal coordination strategy for 87% of held-out configurations, providing a predictive principle of agentic scaling based on measurable task properties.
논문 링크
https://arxiv.org/abs/2512.08296
LMCache: 엔터프라이즈 규모의 LLM 추론을 위한 효율적인 KV 캐시 레이어 / LMCache: An Efficient KV Cache Layer for Enterprise-Scale LLM Inference
논문 소개
대규모 언어 모델(LLM) 추론의 효율성을 높이기 위한 새로운 접근 방식으로 LMCache가 제안되었다. 전통적으로 KV 캐시는 GPU 메모리에 저장되어 LLM의 디코딩 단계를 가속화하는 데 사용되었으나, 최근 사용자들이 저장하는 KV 캐시의 양이 GPU 메모리의 용량을 초과하고 있는 상황이다. 이러한 배경 속에서 LMCache는 KV 캐시를 GPU 외부로 이동시켜 서로 다른 쿼리와 추론 엔진 간의 재사용을 가능하게 하는 최초의 오픈 소스 솔루션으로 자리잡았다.
LMCache의 핵심 기능은 캐시 오프로드와 프리필-디코드(PD) 분산을 지원하는 것이다. 이를 통해 쿼리 간 접두사 재사용이 가능해지고, 서로 다른 GPU 간의 캐시 전송이 용이해진다. LMCache는 세 가지 주요 기여를 통해 성능을 극대화한다. 첫째, 배치 데이터 이동 작업과 계산 및 입출력(I/O) 파이프라이닝을 통해 KV 캐시 데이터 이동을 최적화하였다. 둘째, 모듈형 KV 캐시 커넥터를 도입하여 다양한 추론 엔진의 발전에 유연하게 대응할 수 있도록 하였다. 셋째, GPU, CPU, 스토리지 및 네트워크 계층 간의 캐시 조정을 위한 일급 제어 API를 제공하여 사용자에게 유연성을 부여한다.
LMCache의 성능은 vLLM과 결합하여 다중 라운드 질문 응답 및 문서 분석과 같은 다양한 작업에서 최대 15배의 처리량 향상을 보여주었다. 실제 사용 사례를 통해 원격 스토리지에서 KV 캐시를 가져오는 것이 프리필 지연을 줄이는 데 효과적임을 확인하였으며, 산업에서 널리 사용되는 컨텍스트 트렁케이션 기법이 접두사 캐시 적중률을 절반으로 감소시킬 수 있다는 중요한 통찰도 제공하였다.
결론적으로, LMCache는 LLM 추론의 효율성을 크게 향상시키는 혁신적인 솔루션으로, 기업 환경에서의 대규모 채택을 통해 다양한 산업에 기여할 것으로 기대된다. 이는 LLM 엔진을 분산 컴퓨팅 및 스토리지 생태계로 변모시키며, 향후 AI 네이티브 데이터가 LLM 추론의 기초로 자리 잡을 가능성을 시사한다.
논문 초록(Abstract)
KV 캐시는 전통적으로 대규모 언어 모델(LLM) 추론의 디코딩 단계를 가속화하기 위해 GPU 메모리에 저장되어 왔습니다. 그러나 다양한 쿼리와 추론 엔진 간의 캐시 재사용을 가능하게 하기 위해 KV 캐시를 GPU 장치 외부로 이동할 필요성이 점점 커지고 있습니다. 우리의 실제 사용 통계는 이러한 추세를 확인합니다: 시간이 지남에 따라 사용자가 저장한 총 KV 캐시는 빠르게 증가하여 GPU 메모리의 용량을 훨씬 초과했습니다. 이러한 필요성에도 불구하고 KV 캐시를 오프로드하고 전송하는 효율적인 솔루션이 부족합니다. 우리는 현대 LLM 엔진(vLLM 및 SGLang)에서 생성된 KV 캐시를 GPU 메모리 외부로 추출하고 저장하여 엔진과 쿼리 간에 공유하는 최초이자 현재까지 가장 효율적인 오픈 소스 KV 캐싱 솔루션인 LMCACHE를 제시합니다. LMCACHE는 캐시 오프로드(쿼리 간 접두사 재사용)와 프리필-디코드(PD) 분산(엔진 간/GPU 캐시 전송)을 모두 지원합니다. LMCACHE의 높은 성능과 광범위한 채택은 다음과 같은 기여에서 비롯됩니다: (1) 배치 데이터 이동 작업, 컴퓨트 및 I/O 파이프라이닝에 의해 지원되는 고도로 최적화된 KV 캐시 데이터 이동; (2) LMCACHE를 추론 엔진의 빠른 발전으로부터 분리하는 모듈형 KV 캐시 커넥터 구성 요소; (3) GPU, CPU, 스토리지 및 네트워크 계층 간의 유연한 캐시 조정을 위한 일급 제어 API. 우리의 평가는 LMCACHE와 vLLM을 결합할 경우 다중 라운드 질문 응답 및 문서 분석과 같은 작업에서 최대 15배의 처리량 향상을 달성함을 보여줍니다. 기업 환경에서 LMCACHE의 대규모 채택은 원격 스토리지에서 KV 캐시를 가져오는 것이 프리필 지연에 예외 없이 이점을 제공하며, 산업에서 널리 적용되는 기술인 컨텍스트 절단이 접두사 캐시 적중률을 절반으로 크게 줄일 수 있다는 귀중한 통찰을 제공합니다. LMCACHE의 소스 코드는 다음 링크에서 확인할 수 있습니다: https://github.com/LMCache/LMCache.
KV cache has traditionally been stored in GPU memory to accelerate the decoding phase of large language model (LLM) inference. However, it is increasingly necessary to move KV caches outside GPU devices, to enable cache reuse across different queries and inference engines. Our real-world usage statistics confirm this trend: over time, the total KV cache stored by users has grown rapidly, far exceeding the capacity of GPU memory. Despite this need, there lacks an efficient solution for offloading and transferring KV caches. We present LMCACHE, the first and so far the most efficient open-source KV caching solution, which extracts and stores KV caches generated by modern LLM engines (vLLM and SGLang) out of the GPU memory and shares them across engines and queries. LMCACHE supports both cache offloading (prefix reuse across queries) and prefill-decode (PD) disaggregation (cross-engine/GPU cache transfer). LMCACHE's high performance and wide adoption stem from the following contributions: (1) highly optimized KV cache data movement powered by batched data movement operations, compute and I/O pipelining; (2) a modular KV cache connector component, decoupling LMCACHE from the rapid evolution of inference engines; (3) a first-class control API for flexible cache orchestration across GPU, CPU, storage, and network layers. Our evaluation shows that combining LMCACHE with vLLM achieves up to 15x improvement in throughput across workloads such as multi-round question answering and document analysis. Large-scale adoption of LMCACHE in enterprise settings provides us valuable insights, for example, fetching KV cache from remote storage has unsurprisingly benefits to prefill delay, and that context truncation, which is a widely applied technique in industry, can greatly reduce prefix cache hit ratio by half. The source code of LMCACHE is at: https://github.com/LMCache/LMCache.
논문 링크
https://arxiv.org/abs/2510.09665
더 읽어보기
https://github.com/LMCache/LMCache
https://discuss.pytorch.kr/t/lmcache-llm/7179
ReFusion: 병렬 자기회귀 디코딩을 갖춘 디퓨전 대규모 언어 모델 / ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding
논문 소개
ReFusion은 병렬 자기회귀 디코딩을 활용한 혁신적인 마스크 디퓨전 모델로, 기존의 자기회귀 모델(ARMs)과 마스크 디퓨전 모델(MDMs)의 한계를 극복하기 위해 설계되었습니다. 전통적인 ARMs는 순차적 디코딩 방식으로 인해 느린 추론 속도를 경험하며, MDMs는 조건부 독립성을 가정하지만 아키텍처적 병목 현상과 비일관적인 생성 문제로 인해 효율성이 저하됩니다. ReFusion은 이러한 문제를 해결하기 위해 병렬 디코딩을 슬롯 수준으로 향상시키며, 이는 고정 길이의 연속적인 하위 시퀀스인 슬롯을 통해 이루어집니다.
ReFusion의 핵심은 "계획 및 채우기(plan-and-infill)" 디코딩 프로세스입니다. 이 과정에서 첫 번째 단계는 약한 의존성을 가진 슬롯을 식별하고, 두 번째 단계에서는 이 슬롯들을 병렬로 디코딩합니다. 이러한 슬롯 기반 설계는 Key-Value (KV) 캐시의 재사용을 가능하게 하여, 전체 컨텍스트의 KV 상태를 매번 재계산할 필요가 없도록 합니다. 결과적으로, 학습 복잡성은 토큰 조합 공간에서 슬롯 수준의 순열 공간으로 줄어들어 효율성이 크게 향상됩니다.
실험 결과, ReFusion은 이전의 MDMs에 비해 34%의 성능 향상과 평균 18배의 속도 향상을 기록하였으며, 강력한 ARMs와의 성능 격차를 줄이며 평균 2.33배의 속도 향상을 달성했습니다. 이러한 성과는 ReFusion이 기존 모델의 한계를 극복하고, 새로운 디퓨전 모델의 가능성을 제시함을 의미합니다.
ReFusion은 KV 캐시 재사용과 학습 복잡성 감소를 통해 성능과 속도 모두에서 혁신적인 기여를 하며, 향후 연구 방향에 대한 중요한 통찰을 제공합니다. 이 모델은 디퓨전 모델과 자기회귀 모델의 장점을 결합하여, 대규모 언어 모델의 발전에 기여할 것으로 기대됩니다.
논문 초록(Abstract)
자기 회귀 모델(ARMs)은 느린 순차적 추론으로 인해 제약을 받습니다. 마스크 디퓨전 모델(MDMs)은 병렬 대안을 제공하지만, 주요 단점이 있습니다: 키-값(KV) 캐싱을 배제함으로써 발생하는 높은 계산 오버헤드와, 처리 불가능한 토큰 조합 공간에서 의존성을 학습함으로써 발생하는 비일관한 생성입니다. 이러한 한계를 해결하기 위해, 우리는 ReFusion이라는 새로운 마스크 디퓨전 모델을 소개합니다. ReFusion은 각 슬롯이 고정 길이의 연속 하위 시퀀스인 더 높은 슬롯 수준으로 병렬 디코딩을 향상시켜 우수한 성능과 효율성을 달성합니다. 이는 반복적인 "계획 및 채우기" 디코딩 과정을 통해 이루어집니다: 디퓨전 기반의 계획 단계가 먼저 약하게 의존하는 슬롯 집합을 식별하고, 자기 회귀 채우기 단계가 선택된 슬롯을 병렬로 디코딩합니다. 슬롯 기반 설계는 통합된 인과적 프레임워크로 전체 KV 캐시 재사용을 동시에 가능하게 하고, 학습 복잡성을 토큰 조합 공간에서 관리 가능한 슬롯 수준의 순열 공간으로 줄입니다. 일곱 개의 다양한 벤치마크에 대한 광범위한 실험 결과, ReFusion은 이전 MDMs를 34% 성능 향상과 평균 18배 이상의 속도 향상으로 압도적으로 초월할 뿐만 아니라, 강력한 ARMs와의 성능 격차를 메우면서도 평균 2.33배의 속도 향상을 유지합니다.
Autoregressive models (ARMs) are hindered by slow sequential inference. While masked diffusion models (MDMs) offer a parallel alternative, they suffer from critical drawbacks: high computational overhead from precluding Key-Value (KV) caching, and incoherent generation arising from learning dependencies over an intractable space of token combinations. To address these limitations, we introduce ReFusion, a novel masked diffusion model that achieves superior performance and efficiency by elevating parallel decoding from the token level to a higher slot level, where each slot is a fixed-length, contiguous sub-sequence. This is achieved through an iterative ``plan-and-infill'' decoding process: a diffusion-based planning step first identifies a set of weakly dependent slots, and an autoregressive infilling step then decodes these selected slots in parallel. The slot-based design simultaneously unlocks full KV cache reuse with a unified causal framework and reduces the learning complexity from the token combination space to a manageable slot-level permutation space. Extensive experiments on seven diverse benchmarks show that ReFusion not only overwhelmingly surpasses prior MDMs with 34% performance gains and an over 18$\times$ speedup on average, but also bridges the performance gap to strong ARMs while maintaining a 2.33$\times$ average speedup.
논문 링크
https://arxiv.org/abs/2512.13586
더 읽어보기
https://github.com/ML-GSAI/ReFusion
https://huggingface.co/GSAI-ML/ReFusion
시각 토크나이저 생성을 위한 확장 가능한 사전학습 접근법 / Towards Scalable Pre-training of Visual Tokenizers for Generation
논문 소개
비주얼 토크나이저의 잠재 공간 품질은 현대 생성 모델의 성능에 중대한 영향을 미친다. 그러나 기존의 재구성 기반 학습 방식은 저수준 정보에 편향된 잠재 공간을 생성하여, 더 나은 픽셀 수준의 정확도가 반드시 더 높은 품질의 생성을 보장하지 않는 문제를 야기한다. 이러한 현상은 "사전 학습 스케일링 문제"로 정의되며, 효과적인 생성 모델을 위해서는 잠재 공간이 고수준의 의미를 간결하게 표현해야 한다는 필요성을 제기한다.
이 연구에서는 VTP(Visual Tokenizer Pre-training)라는 새로운 통합 비주얼 토크나이저 사전 학습 프레임워크를 제안한다. VTP는 이미지-텍스트 대비, 자기 지도 학습, 재구성 손실을 공동 최적화하는 혁신적인 접근 방식을 채택하여, 생성 성능을 향상시키는 데 기여한다. 대규모 연구를 통해 두 가지 주요 발견을 도출하였다. 첫째, 의미적 이해가 생성의 주요 동력이라는 점을 확인하였으며, 둘째, VTP는 계산 자원, 모델 매개변수 및 데이터 크기에 따라 생성 성능이 효과적으로 향상되는 뛰어난 스케일링 특성을 보여준다.
VTP는 ImageNet에서 78.2%의 제로샷 정확도와 0.36의 rFID를 달성하며, 기존의 고급 증류 방법에 비해 4.1배 더 빠른 수렴 속도를 기록하였다. 또한, VTP는 표준 DiT 훈련 사양을 수정하지 않고도 사전 학습에 더 많은 FLOPS를 투자함으로써 다운스트림 생성에서 65.8%의 FID 개선을 이루었다. 이러한 결과는 VTP가 전통적인 오토인코더 방식에 비해 우수한 성능을 발휘하며, 확장성 있는 모델로 자리매김할 수 있음을 보여준다.
결론적으로, VTP는 비주얼 토크나이저의 사전 학습 스케일링 문제를 해결하고, 잠재 공간의 이해와 생성 능력 간의 강한 상관관계를 확립하는 데 기여한다. 이 연구는 생성 모델의 성능 향상을 위한 새로운 방향성을 제시하며, 향후 연구에 중요한 기초 자료로 활용될 수 있을 것이다.
논문 초록(Abstract)
시각 토크나이저(예: VAE)에서 잠재 공간의 품질은 현대 생성 모델에 매우 중요합니다. 그러나 표준 재구성 기반 학습 패러다임은 저수준 정보에 치우친 잠재 공간을 생성하여 근본적인 결함을 초래합니다: 더 나은 픽셀 수준의 정확도가 더 높은 품질의 생성을 이끌지 않습니다. 이는 시각 토크나이저의 사전 학습에 많은 컴퓨팅 자원을 투입하는 것이 생성 성능 향상으로 이어지지 않는다는 것을 의미합니다. 우리는 이를 "사전 학습 스케일링 문제"로 정의하고, 효과적인 생성을 위해서는 잠재 공간이 고수준 의미를 간결하게 표현해야 한다고 제안합니다. 우리는 이미지-텍스트 대조, 자기 지도 및 재구성 손실의 공동 최적화를 선도하는 통합된 시각 토크나이저 사전 학습 프레임워크인 VTP를 제시합니다. 우리의 대규모 연구는 두 가지 주요 발견을 드러냅니다: (1) 이해가 생성의 핵심 동력이며, (2) 생성 성능이 시각 토크나이저의 사전 학습에 할당된 컴퓨팅, 매개변수 및 데이터와 효과적으로 스케일링되는 훨씬 더 나은 스케일링 특성을 가지고 있습니다. 대규모 사전 학습 후, 우리의 토크나이저는 경쟁력 있는 프로필(이미지넷에서 78.2 제로샷 정확도 및 0.36 rFID)을 제공하며, 고급 증류 방법에 비해 생성에서 4.1배 더 빠른 수렴을 보여줍니다. 더 중요한 것은, 효과적으로 스케일링된다는 것입니다: 표준 DiT 학습 사양을 수정하지 않고, VTP의 사전 학습에 더 많은 FLOPS를 투자하는 것만으로도 다운스트림 생성에서 65.8% FID 개선을 달성하며, 전통적인 오토인코더는 1/10 FLOPS에서 매우 이른 시점에 정체됩니다. 우리의 사전 학습 모델은 https://github.com/MiniMax-AI/VTP 에서 이용 가능합니다.
The quality of the latent space in visual tokenizers (e.g., VAEs) is crucial for modern generative models. However, the standard reconstruction-based training paradigm produces a latent space that is biased towards low-level information, leading to a foundation flaw: better pixel-level accuracy does not lead to higher-quality generation. This implies that pouring extensive compute into visual tokenizer pre-training translates poorly to improved performance in generation. We identify this as the
pre-training scaling problemand suggest a necessary shift: to be effective for generation, a latent space must concisely represent high-level semantics. We present VTP, a unified visual tokenizer pre-training framework, pioneering the joint optimization of image-text contrastive, self-supervised, and reconstruction losses. Our large-scale study reveals two principal findings: (1) understanding is a key driver of generation, and (2) much better scaling properties, where generative performance scales effectively with compute, parameters, and data allocated to the pretraining of the visual tokenizer. After large-scale pre-training, our tokenizer delivers a competitive profile (78.2 zero-shot accuracy and 0.36 rFID on ImageNet) and 4.1 times faster convergence on generation compared to advanced distillation methods. More importantly, it scales effectively: without modifying standard DiT training specs, solely investing more FLOPS in pretraining VTP achieves 65.8% FID improvement in downstream generation, while conventional autoencoder stagnates very early at 1/10 FLOPS. Our pre-trained models are available at https://github.com/MiniMax-AI/VTP.
논문 링크
https://arxiv.org/abs/2512.13687
더 읽어보기
https://github.com/MiniMax-AI/VTP
CLaRa: 연속 잠재 추론을 통한 검색과 생성의 통합 / CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning
논문 소개
CLaRa(Continuous Latent Reasoning)는 검색 증강 생성(Retrieval-augmented generation, RAG) 시스템의 한계를 극복하기 위해 개발된 혁신적인 프레임워크이다. 기존의 RAG 접근법은 긴 문맥을 처리하는 데 어려움을 겪고, 검색과 생성 간의 최적화가 분리되어 있어 효율성이 저하되는 문제를 안고 있다. 이러한 문제를 해결하기 위해 CLaRa는 임베딩 기반의 압축과 공유된 연속 공간에서의 공동 최적화를 통해 검색과 생성을 통합하는 새로운 방법론을 제안한다.
CLaRa의 핵심 구성 요소 중 하나인 SCP(키 보존 데이터 합성)는 질문-답변(QA) 및 패러프레이즈(supervision)를 활용하여 의미적으로 풍부하고 검색 가능한 압축 벡터를 생성한다. 이 과정은 데이터의 다양성과 품질을 유지하면서 검색의 정확도를 높이는 데 기여한다. 이후, CLaRa는 리랭커와 생성기를 단일 언어 모델링 손실을 통해 엔드 투 엔드 방식으로 학습하며, 이로 인해 두 모듈 간의 그래디언트 흐름이 최적화된다. 이러한 통합 최적화 접근법은 검색의 관련성과 생성된 답변의 품질을 일치시키는 데 중요한 역할을 한다.
실험 결과, CLaRa는 여러 질문-답변(QA) 벤치마크에서 기존의 텍스트 기반 방법들을 초과하는 최첨단의 압축 및 리랭킹 성능을 보여주었다. 특히, CLaRa는 긴 문맥을 효과적으로 처리하는 데 유리한 결과를 나타내며, 이는 CLaRa의 통합 최적화 방식이 실제로 효과적임을 입증한다. 이러한 성과는 CLaRa가 RAG 시스템의 성능을 크게 향상시킬 수 있는 잠재력을 지니고 있음을 시사한다.
CLaRa의 접근 방식은 기존 RAG 연구와 차별화되며, 검색과 생성을 직접 최적화하는 첫 번째 방법으로서, 향후 다양한 응용 분야에 적용될 수 있는 가능성을 보여준다. 이 연구는 RAG 시스템의 새로운 가능성을 제시하며, 향후 연구에 중요한 기초 자료로 활용될 것으로 기대된다.
논문 초록(Abstract)
검색-증강 생성(RAG)은 대규모 언어 모델(LLM)에 외부 지식을 강화하지만 여전히 긴 맥락과 분리된 검색-생성 최적화 문제로 어려움을 겪고 있습니다. 본 연구에서는 CLaRa(연속 잠재 추론)를 제안합니다. CLaRa는 임베딩 기반 압축과 공유된 연속 공간에서의 공동 최적화를 수행하는 통합 프레임워크입니다. 의미적으로 풍부하고 검색 가능한 압축 벡터를 얻기 위해 QA와 패러프레이즈 감독을 사용하는 키 보존 데이터 합성 프레임워크인 SCP를 도입합니다. 이후 CLaRa는 단일 언어 모델링 손실을 통해 리랭커와 생성기를 엔드 투 엔드로 훈련하며, 그래디언트는 미분 가능한 top-k 추정기를 사용하여 두 모듈을 통해 흐릅니다. 이론적으로, 이 통합 최적화는 검색 관련성과 답변 품질을 일치시킵니다. 여러 QA 벤치마크에서의 실험 결과, CLaRa는 최첨단 압축 및 리랭킹 성능을 달성하며, 종종 텍스트 기반의 파인튜닝 기준을 초월합니다.
Retrieval-augmented generation (RAG) enhances large language models (LLMs) with external knowledge but still suffers from long contexts and disjoint retrieval-generation optimization. In this work, we propose CLaRa (Continuous Latent Reasoning), a unified framework that performs embedding-based compression and joint optimization in a shared continuous space. To obtain semantically rich and retrievable compressed vectors, we introduce SCP, a key-preserving data synthesis framework using QA and paraphrase supervision. CLaRa then trains the reranker and generator end-to-end via a single language modeling loss, with gradients flowing through both modules using a differentiable top-k estimator. Theoretically, this unified optimization aligns retrieval relevance with answer quality. Experiments across multiple QA benchmarks show that CLaRa achieves state-of-the-art compression and reranking performance, often surpassing text-based fine-tuned baselines.
논문 링크
https://arxiv.org/abs/2511.18659
더 읽어보기
https://github.com/apple/ml-clara
⚠️광고⚠️: 🔥파이토치 한국 사용자 모임🇰🇷이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일💌로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)