ML 논문 모음

(discuss.pytorch.kr)

[2025/09/29 ~ 10/05] 이번 주에 살펴볼 만한 AI/ML 논문 모음

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ 정보의 진실성 및 신뢰성 향상: 여러 논문에서 정보의 정확성과 신뢰성을 높이기 위한 다양한 접근 방식이 제안되고 있습니다. 예를 들어, "Incentive-Aligned Multi-Source LLM Summaries"에서는 Truthful Text Summarization (TTS) 프레임워크를 통해 정보의 진실성을 보장하고, "AgentMaster"에서는 다중 에이전트 시스템을 활용하여 신뢰할 수 있는 정보 검색과 분석을 지원합니다.

2️⃣ 다중 에이전트 시스템의 발전: 여러 연구에서 다중 에이전트 시스템(MAS, Multi-Agent System)의 활용이 증가하고 있으며, 이는 복잡한 작업을 해결하는 데 큰 도움이 되고 있습니다. "TUMIX"와 "AgentMaster" 논문에서는 다양한 도구를 활용한 에이전트 간의 협업과 상호작용을 통해 성능을 향상시키는 방법을 제시하고 있습니다.

3️⃣ 지식 주입 및 지속적인 학습: "How to inject knowledge efficiently?"와 "Continual Learning for VLMs" 논문에서는 도메인 지식을 효과적으로 주입하고, 비정상적인 데이터에서 지속적으로 학습하는 방법에 대한 연구가 진행되고 있습니다. 이러한 연구들은 모델의 성능을 향상시키고, 기존 지식을 잃지 않도록 하는 데 중점을 두고 있습니다.

ARE: 에이전트 환경 및 평가의 확장 / ARE: Scaling Up Agent Environments and Evaluations

논문 소개

Meta Superintelligence Lab이 공개한 Meta Agents Research Environments (ARE)는 에이전트 환경의 확장 가능성을 높이고, 합성 또는 실제 애플리케이션의 통합을 지원하며, 에이전트의 조작을 실행할 수 있는 혁신적인 연구 플랫폼입니다. ARE는 복잡하고 다양한 환경을 구축하기 위한 간단한 추상화를 제공하여, 각 환경이 고유한 규칙, 도구, 콘텐츠 및 검증기를 갖추도록 함으로써 모델 개발과 실제 배포 간의 간극을 메우는 데 기여합니다.

ARE의 주요 혁신 중 하나는 Gaia2라는 벤치마크의 도입입니다. Gaia2는 에이전트의 일반적인 능력을 측정하기 위해 설계되었으며, 단순한 검색 및 실행을 넘어 에이전트가 모호성과 노이즈를 처리하고, 동적 환경에 적응하며, 다른 에이전트와 협력하고, 시간 제약 하에서 작업을 수행해야 하는 복잡한 요구 사항을 포함합니다. 특히, Gaia2는 비동기적으로 실행되며, 이는 정적 환경에서는 발견되지 않는 새로운 실패 모드를 드러내어 에이전트의 성능을 보다 정교하게 평가할 수 있게 합니다.

실험 결과는 어떤 시스템도 지능 스펙트럼 전반에서 우위를 점하지 못하며, 강력한 추론 능력이 종종 효율성의 대가를 치르게 됨을 보여줍니다. 예산 확장 곡선이 정체되는 현상은 새로운 아키텍처와 적응형 컴퓨팅 전략의 필요성을 강조합니다. 이러한 발견은 AI 연구의 방향성을 제시하며, ARE와 Gaia2의 중요성을 부각시킵니다.

ARE의 추상화는 Gaia2를 다른 환경으로 지속적으로 확장할 수 있게 하여, 연구 커뮤니티가 자신의 도메인에 맞춘 새로운 벤치마크를 신속하게 생성할 수 있도록 합니다. AI의 발전은 의미 있는 작업과 강력한 평가를 정의하는 데 점점 더 의존하게 될 것이며, 이는 ARE의 기능을 통해 가능해질 것입니다. 이러한 맥락에서 ARE는 에이전트 개발 및 평가에 필요한 도구를 제공하며, AI 연구의 최전선에서 중요한 역할을 수행할 것입니다.

논문 초록(Abstract)

우리는 메타 에이전트 연구 환경(Meta Agents Research Environments, ARE)을 소개합니다. ARE는 환경의 확장 가능한 생성, 합성 또는 실제 애플리케이션의 통합, 그리고 에이전트 오케스트레이션의 실행을 위한 연구 플랫폼입니다. ARE는 각기 다른 규칙, 도구, 콘텐츠 및 검증기를 갖춘 복잡하고 다양한 환경을 구축하기 위한 간단한 추상화를 제공하여 모델 개발과 실제 배포 간의 간극을 메우는 데 도움을 줍니다. 또한, 우리는 ARE에서 구축된 벤치마크인 가이아2(Gaia2)를 제안하며, 이는 일반 에이전트 능력을 측정하도록 설계되었습니다. 가이아2는 검색 및 실행을 넘어 에이전트가 모호성과 노이즈를 처리하고, 동적 환경에 적응하며, 다른 에이전트와 협력하고, 시간 제약 하에서 작동할 것을 요구합니다. 이전의 벤치마크와 달리 가이아2는 비동기적으로 실행되어 정적 환경에서는 보이지 않는 새로운 실패 모드를 드러냅니다. 우리의 실험 결과, 어떤 시스템도 지능 스펙트럼 전반에 걸쳐 우위를 점하지 못함을 보여줍니다: 더 강력한 추론은 종종 효율성의 대가를 치르며, 예산 스케일링 곡선은 정체되어 새로운 아키텍처와 적응형 컴퓨팅 전략의 필요성을 강조합니다. 아마도 더 중요한 것은, ARE의 추상화가 가이아2를 다른 환경으로 지속적으로 확장할 수 있게 하여, 커뮤니티가 자신의 도메인에 맞춘 새로운 벤치마크를 신속하게 생성할 수 있도록 한다는 점입니다. AI의 후반부에서, 진전은 점점 더 의미 있는 작업과 강력한 평가를 정의하는 데 의존하게 되어 최전선 능력을 발전시키는 데 기여할 것입니다.

We introduce Meta Agents Research Environments (ARE), a research platform for scalable creation of environments, integration of synthetic or real applications, and execution of agentic orchestrations. ARE provides simple abstractions to build complex and diverse environments, each with their own rules, tools, content, and verifiers, helping to bridge the gap between model development and real-world deployment. We also propose Gaia2, a benchmark built in ARE and designed to measure general agent capabilities. Beyond search and execution, Gaia2 requires agents to handle ambiguities and noise, adapt to dynamic environments, collaborate with other agents, and operate under temporal constraints. Unlike prior benchmarks, Gaia2 runs asynchronously, surfacing new failure modes that are invisible in static settings. Our experiments show that no system dominates across the intelligence spectrum: stronger reasoning often comes at the cost of efficiency, and budget scaling curves plateau, highlighting the need for new architectures and adaptive compute strategies. Perhaps more importantly, ARE abstractions enable continuous extension of Gaia2 to other environments, empowering the community to rapidly create new benchmarks tailored to their domains. In AI's second half, progress increasingly depends on defining meaningful tasks and robust evaluations to drive frontier capabilities forward.

논문 링크

https://arxiv.org/abs/2509.17158

인센티브 정렬 다중 출처 LLM 요약 / Incentive-Aligned Multi-Source LLM Summaries

논문 소개

대규모 언어 모델(LLM)은 현대의 정보 검색 및 응답 시스템에서 여러 출처의 텍스트를 통합하여 단일 응답을 생성하는 데 널리 사용되고 있다. 그러나 기존의 시스템은 출처의 정확성을 보장하는 데 한계가 있으며, 적대적인 콘텐츠에 취약한 문제를 안고 있다. 이러한 문제를 해결하기 위해 제안된 진실한 텍스트 요약(Truthful Text Summarization, TTS) 프레임워크는 사실적 강건성을 향상시키면서도 실제 레이블 없이 작동할 수 있는 혁신적인 접근 방식을 제공한다. TTS는 초안 요약을 원자적 주장으로 분해하고, 각 출처의 주장을 평가하여, 정보의 일치성을 보상하는 적응된 다중 작업 동료 예측 메커니즘을 통해 출처를 점수화한다. 신뢰할 수 없는 출처를 필터링한 후 재요약을 수행하는 이 과정은 출처의 유인을 정보의 정직성과 정렬시켜, 진실한 보고가 효용 극대화 전략이 되도록 한다.

TTS의 방법론은 정보의 진실성을 보장하기 위한 새로운 접근 방식을 제시하며, 기존의 정보 요약 및 LLM 관련 연구와의 차별성을 강조한다. 실험 결과, TTS는 사실적 정확성과 강건성을 개선하면서도 유창성을 유지하는 데 성공하였으며, 이는 정보의 확인과 정렬을 통해 조작을 억제하는 데 기여한다. 이러한 연구는 정보 요약 시스템의 신뢰성을 크게 향상시킬 수 있는 가능성을 제시하며, 향후 다양한 분야로의 적용 가능성을 탐색하는 데 중요한 기초를 마련한다. TTS는 정보의 진실성을 높이는 동시에 출처의 유인을 정렬시켜, 정보 요약 시스템의 신뢰성을 크게 향상시킬 수 있는 가능성을 제시한다.

논문 초록(Abstract)

대규모 언어 모델(LLM)은 현대의 검색 및 답변 시스템에서 여러 개의 때때로 상충하는 텍스트를 단일 응답으로 합성하는 데 점점 더 많이 사용되고 있지만, 현재의 파이프라인은 출처가 정확할 수 있도록 유도하는 인센티브가 약하고 적대적인 콘텐츠에 취약합니다. 우리는 진실한 텍스트 요약(Truthful Text Summarization, TTS)을 소개합니다. TTS는 사실적 강건성을 향상시키는 인센티브 정렬 프레임워크로, 실제 레이블 없이도 작동합니다. TTS는 (i) 초안 합성을 원자적 주장으로 분해하고, (ii) 각 출처의 주장에 대한 입장을 이끌어내며, (iii) 유익한 동의를 보상하는 적응형 다중 작업 동료 예측 메커니즘으로 출처를 점수화하고, (iv) 재요약하기 전에 신뢰할 수 없는 출처를 필터링합니다. 우리는 출처의 인센티브를 유익한 정직성과 정렬시키는 공식적인 보장을 설정하여 진실한 보고가 효용 극대화 전략이 되도록 합니다. 실험 결과 TTS는 유창성을 유지하면서 사실적 정확성과 강건성을 향상시키고, 노출을 유익한 corroboration과 정렬시키며 조작을 억제하는 것으로 나타났습니다.

Large language models (LLMs) are increasingly used in modern search and answer systems to synthesize multiple, sometimes conflicting, texts into a single response, yet current pipelines offer weak incentives for sources to be accurate and are vulnerable to adversarial content. We introduce Truthful Text Summarization (TTS), an incentive-aligned framework that improves factual robustness without ground-truth labels. TTS (i) decomposes a draft synthesis into atomic claims, (ii) elicits each source's stance on every claim, (iii) scores sources with an adapted multi-task peer-prediction mechanism that rewards informative agreement, and (iv) filters unreliable sources before re-summarizing. We establish formal guarantees that align a source's incentives with informative honesty, making truthful reporting the utility-maximizing strategy. Experiments show that TTS improves factual accuracy and robustness while preserving fluency, aligning exposure with informative corroboration and disincentivizing manipulation.

논문 링크

https://arxiv.org/abs/2509.25184

TUMIX: 도구 사용 혼합을 통한 다중 에이전트 테스트 시간 확장 / TUMIX: Multi-Agent Test-Time Scaling with Tool-Use Mixture

논문 소개

Tool-Use Mixture (TUMIX)는 여러 에이전트를 병렬로 실행하여 각기 다른 도구 사용 전략과 답변 경로를 채택하는 앙상블 프레임워크입니다. 이 방법론은 텍스트 기반 추론, 코딩, 검색의 통합을 통해 다양한 질문에 대한 효과적인 해결책을 제공하는 데 중점을 두고 있습니다. TUMIX의 에이전트들은 질문과 이전 답변을 바탕으로 반복적으로 응답을 공유하고 다듬으며, 이를 통해 더 깊은 통합과 다양한 추론 경로 탐색을 가능하게 합니다.

TUMIX는 기존의 도구 강화 및 테스트 시간 스케일링 방법에 비해 평균 3.55%의 정확도 향상을 달성하였으며, Gemini-2.5-Pro 및 Gemini-2.5-Flash 모델에서 주요 추론 벤치마크에서 우수한 성능을 보였습니다. 이러한 성과는 에이전트의 다양성과 품질이 중요한 요소임을 보여주며, LLM(대형 언어 모델)을 활용하여 에이전트 디자인을 자동으로 최적화하는 방법을 제안합니다. 이로 인해 TUMIX는 평균 1.2%의 추가적인 정확도 향상을 이끌어냈습니다.

TUMIX는 충분한 신뢰도에 도달하면 다듬기를 중단할 수 있어, 추론 비용을 49%로 줄이면서도 성능을 유지하는 혁신적인 접근 방식을 제공합니다. 추가적인 스케일링을 통해 더 높은 성능을 달성할 수 있지만, 이 경우 비용이 증가하는 점은 향후 연구에서 고려해야 할 중요한 요소입니다.

이 연구는 LLM의 도구 사용 및 추론 능력을 극대화하는 방법을 제시하며, 다양한 질문에 대한 효과적인 해결책을 제공하는 데 기여하고 있습니다. TUMIX는 기존의 방법론과 차별화된 접근을 통해 실제 애플리케이션에 더 일반화될 수 있는 가능성을 보여줍니다.

논문 초록(Abstract)

다양한 도구인 코드 인터프리터(Code Interpreter)와 검색(Search)을 통합하는 것이 ChatGPT 에이전트와 Gemini-Pro와 같은 모델에서 대규모 언어 모델(LLM)의 추론을 크게 향상시켰지만, 최적의 도구 사용에 대한 실질적인 지침은 부족하다. 핵심 과제는 다양한 질문에 대해 텍스트 추론, 코딩, 검색을 효과적으로 결합하는 것이다. 본 논문에서는 도구 사용 혼합(Tool-Use Mixture, TUMIX)을 제안하며, 이는 각기 다른 도구 사용 전략과 답변 경로를 사용하는 여러 에이전트를 병렬로 실행하는 앙상블 프레임워크이다. TUMIX의 에이전트는 질문과 이전 답변을 기반으로 응답을 반복적으로 공유하고 다듬는다. 실험 결과, TUMIX는 최첨단 도구 증강 및 테스트 시간 확장 방법에 비해 상당한 성과를 달성하였으며, Gemini-2.5-Pro와 Gemini-2.5-Flash의 주요 추론 벤치마크에서 최상의 기준선에 비해 평균 3.55%의 정확도 향상을 제공하면서 거의 동일한 추론 비용을 유지하였다. 우리는 에이전트의 다양성과 품질이 중요하며, LLM을 사용하여 에이전트 설계를 자동 최적화함으로써 향상될 수 있음을 발견하였다. 또한, TUMIX는 충분한 신뢰도에 도달하면 다듬기를 중단할 수 있어, 추론 비용의 49%만으로 성능을 유지할 수 있다. 추가적인 확장을 통해 더 높은 성능을 달성할 수 있지만, 그에 따른 비용은 증가할 것이다.

While integrating tools like Code Interpreter and Search has significantly enhanced Large Language Model (LLM) reasoning in models like ChatGPT Agent and Gemini-Pro, practical guidance on optimal tool use is lacking. The core challenge is effectively combining textual reasoning, coding, and search for diverse questions. In this paper, we propose Tool-Use Mixture (TUMIX), an ensemble framework that runs multiple agents in parallel, each employing distinct tool-use strategies and answer paths. Agents in TUMIX iteratively share and refine responses based on the question and previous answers. In experiments, TUMIX achieves significant gains over state-of-the-art tool-augmented and test-time scaling methods, delivering an average accuracy improvement of up to 3.55% over the best baseline on Gemini-2.5-Pro and Gemini-2.5-Flash across key reasoning benchmarks, with near-equal inference costs. We find that agent diversity and quality are crucial and can be enhanced by using LLMs to auto-optimize agent designs. Furthermore, TUMIX can halt refinement upon reaching sufficient confidence, preserving performance at only 49% of the inference cost. Further scaling can achieve higher performance, albeit at a greater cost.

논문 링크

https://arxiv.org/abs/2510.01279

자신의 언어로: 소형 모델을 위한 맞춤형 추론 흔적이 더 나은 추론 능력을 만든다 / In Their Own Words: Reasoning Traces Tailored for Small Models Make Them Better Reasoners

논문 소개

대규모 언어 모델에서 소규모 모델로의 추론 능력 전이는 종종 예상과는 다르게 성능 저하를 초래하는 문제를 안고 있다. 이러한 현상은 감독된 파인튜닝(Supervised Fine-Tuning, SFT) 과정에서 발생하는 분포적 불일치(Distributional Misalignment)에서 기인하며, 대규모 모델의 추론 흔적이 소규모 모델의 확률 분포와 일치하지 않는 저확률 토큰을 포함하고 있기 때문이다. 이로 인해 소규모 모델은 대규모 모델의 고급 추론 패턴을 효과적으로 학습하지 못하고, 오히려 학습 장벽에 부딪히게 된다.

이 문제를 해결하기 위해 제안된 방법론인 역 추측 디코딩(Reverse Speculative Decoding, RSD)은 교사 모델이 후보 토큰을 제안하고, 학생 모델이 자신의 확률 분포를 바탕으로 수용 여부를 결정하는 방식으로 작동한다. 이 과정에서 저확률 토큰은 필터링되어 소규모 모델이 처리할 수 있는 범위 내에서 유용한 추론 단계를 유지할 수 있도록 한다. RSD는 Qwen3-0.6B 모델에 적용되었으며, 기존의 직접 증류 방식으로 생성된 추론 흔적 데이터가 평균 성능을 20.5% 저하시킨 반면, RSD로 생성된 추론 흔적을 학습한 경우 4.9%의 유의미한 성능 향상을 보였다.

RSD의 효과는 다양한 추론 벤치마크에서 일관되게 나타났으며, 저확률 토큰이 효과적인 추론 전이의 주요 병목 현상임을 강조한다. 또한, RSD는 모델별로 최적화되어야 하며, 각 학생 모델의 고유한 내부 표현에 맞춰 분포적 정렬이 필요함을 시사한다. 이러한 연구 결과는 소규모 모델의 성능 개선에 기여할 수 있는 중요한 방법론으로 평가되며, 향후 연구에서의 적용 가능성을 제시한다.

결론적으로, RSD는 대규모 모델의 추론 능력을 소규모 모델로 효과적으로 전이할 수 있는 혁신적인 접근 방식으로, 저확률 토큰의 필터링을 통해 소규모 모델의 추론 능력을 향상시키는 데 기여한다. 이러한 연구는 소규모 모델의 성능 개선을 위한 새로운 방향성을 제시하며, 향후 AI 및 머신러닝 분야에서의 응용 가능성을 넓히는 중요한 기초 자료가 될 것이다.

논문 초록(Abstract)

더 큰 언어 모델에서 더 작은 모델로의 추론 능력 전이는 감독된 파인튜닝을 통해 종종 직관에 반하여 실패하며, 고품질 교사 시연에 접근함에도 성능이 저하됩니다. 우리는 이러한 실패가 분포 불일치에서 비롯된다는 것을 확인했습니다: 더 큰 모델의 추론 흔적에는 학생의 분포 하에서 확률이 낮은 토큰이 포함되어 있어, 더 작은 아키텍처의 내부 표현 용량을 초과하고 학습 장벽을 형성하여 유용한 안내가 아닌 방해 요소가 됩니다. 우리는 교사 모델이 후보 토큰을 제안하고 학생 모델이 자신의 확률 분포에 따라 수용 여부를 결정하여 확률이 낮은 토큰을 필터링하는 학생 친화적 추론 흔적을 생성하는 메커니즘인 역 추측 디코딩(Reverse Speculative Decoding, RSD)을 제안합니다. Qwen3-0.6B에 적용했을 때, s1K-1.1 추론 흔적 데이터의 직접 증류는 주요 추론 벤치마크에서 평균 성능을 20.5% 저하시키는 반면, RSD로 생성된 추론 흔적으로 훈련된 동일한 모델은 4.9%의 의미 있는 개선을 달성합니다. 우리의 분석은 확률이 낮은 토큰이 추론 능력 전이의 주요 병목 현상임을 보여줍니다. 그러나 교차 모델 실험은 RSD 흔적이 보편적으로 적용 가능한 것이 아니라 모델 특정적임을 입증하며, 분포 정렬이 각 학생 아키텍처의 고유한 내부 표현에 맞게 조정되어야 함을 나타냅니다.

Transferring reasoning capabilities from larger language models to smaller ones through supervised fine-tuning often fails counterintuitively, with performance degrading despite access to high-quality teacher demonstrations. We identify that this failure stems from distributional misalignment: reasoning traces from larger models contain tokens that are low probability under the student's distribution, exceeding the internal representation capacity of smaller architectures and creating learning barriers rather than helpful guidance. We propose Reverse Speculative Decoding (RSD), a mechanism for generating student-friendly reasoning traces in which the teacher model proposes candidate tokens but the student model determines acceptance based on its own probability distributions, filtering low probability tokens. When applied to Qwen3-0.6B, direct distillation of s1K-1.1 reasoning trace data degrades average performance across major reasoning benchmarks by 20.5%, while the same model trained on RSD-generated reasoning traces achieves meaningful improvements of 4.9%. Our analysis reveals that low probability tokens constitute the critical bottleneck in reasoning ability transfer. However, cross-model experiments demonstrate that RSD traces are model-specific rather than universally applicable, indicating that distributional alignment must be tailored for each student architecture's unique internal representation.

논문 링크

https://arxiv.org/abs/2509.22230

에이전트마스터: 멀티모달 정보 검색 및 분석을 위한 A2A 및 MCP 프로토콜을 활용한 다중 에이전트 대화 프레임워크 / AgentMaster: A Multi-Agent Conversational Framework Using A2A and MCP Protocols for Multimodal Information Retrieval and Analysis

논문 소개

인공지능(AI) 분야에서 Multi-Agent Systems (MAS) 의 발전은 여러 지능형 에이전트가 협력하여 복잡한 문제를 해결하는 데 중요한 역할을 하고 있다. 그러나 현재의 MAS는 에이전트 간의 원활한 통신, 조정, 그리고 다양한 도구와 자원과의 상호작용에서 여러 도전 과제에 직면해 있다. 이러한 문제를 해결하기 위해 본 연구에서는 AgentMaster라는 새로운 모듈형 MAS 프레임워크를 제안한다. 이 프레임워크는 Agent-to-Agent (A2A) 통신 프로토콜과 Model Context Protocol (MCP) 를 통합하여 동적 조정 및 유연한 커뮤니케이션을 가능하게 한다.

AgentMaster는 사용자가 기술적 전문 지식 없이도 자연어로 시스템과 상호작용할 수 있도록 설계된 통합 대화형 인터페이스를 제공한다. 이를 통해 정보 검색, 질문 응답, 이미지 분석 등 다양한 멀티모달 쿼리에 대한 응답을 지원한다. 본 연구의 핵심 기여는 A2A와 MCP를 활용하여 에이전트 간의 효과적인 조정과 전문화된 검색 에이전트 간의 원활한 통신을 가능하게 하는 것이다. 또한, AgentMaster는 사용자 쿼리를 전문화된 워크플로우로 분해하고, 이를 통해 자동화된 쿼리 분해, 작업 할당, 동적 라우팅을 지원한다.

실험 결과, AgentMaster는 BERTScore F1에서 96.3%와 LLM-as-a-Judge G-Eval에서 87.1%의 높은 성과를 기록하였다. 이러한 결과는 에이전트 간의 강력한 자동화된 조정과 도메인 특정의 관련 응답을 입증하며, MAS의 가능성을 확장하는 데 기여한다. 본 연구는 A2A와 MCP를 통합한 MAS 프레임워크의 혁신성을 보여주며, 협력적이고 확장 가능한 대화형 AI의 발전에 중요한 기여를 할 것으로 기대된다.

논문 초록(Abstract)

멀티 에이전트 시스템(MAS)의 부상은 대규모 언어 모델(LLM)과 통합되어 복잡한 작업 해결을 크게 용이하게 했습니다. 그러나 현재 시스템은 여전히 에이전트 간의 통신, 조정 및 이질적인 도구와 자원과의 상호작용에서 어려움에 직면해 있습니다. 최근 Anthropic의 모델 컨텍스트 프로토콜(MCP)과 Google의 에이전트 간(A2A) 통신 프로토콜이 도입되었으며, 우리가 아는 한 두 프로토콜이 단일 MAS 프레임워크 내에서 동시에 사용되는 사례는 매우 드뭅니다. 우리는 동적 조정, 유연한 통신 및 빠른 반복을 가능하게 하는 자가 구현된 A2A 및 MCP를 갖춘 새로운 모듈형 다중 프로토콜 MAS 프레임워크인 AgentMaster의 파일럿 연구를 제시합니다. 통합된 대화형 인터페이스를 통해 시스템은 사전 기술 전문 지식 없이 자연어 상호작용을 지원하며, 정보 검색, 질문 응답 및 이미지 분석을 포함한 작업에 대한 멀티모달 쿼리에 응답합니다. 실험은 인간 평가와 BERTScore F1(96.3%) 및 LLM-as-a-Judge G-Eval(87.1%)을 포함한 정량적 지표를 통해 검증되었습니다. 이러한 결과는 강력한 자동화된 에이전트 간 조정, 쿼리 분해, 작업 할당, 동적 라우팅 및 도메인별 관련 응답을 보여줍니다. 전반적으로, 우리가 제안하는 프레임워크는 MAS에 의해 구동되는 도메인별, 협력적이며 확장 가능한 대화형 AI의 잠재적 능력에 기여합니다.

The rise of Multi-Agent Systems (MAS) in Artificial Intelligence (AI), especially integrated with Large Language Models (LLMs), has greatly facilitated the resolution of complex tasks. However, current systems are still facing challenges of inter-agent communication, coordination, and interaction with heterogeneous tools and resources. Most recently, the Model Context Protocol (MCP) by Anthropic and Agent-to-Agent (A2A) communication protocol by Google have been introduced, and to the best of our knowledge, very few applications exist where both protocols are employed within a single MAS framework. We present a pilot study of AgentMaster, a novel modular multi-protocol MAS framework with self-implemented A2A and MCP, enabling dynamic coordination, flexible communication, and rapid development with faster iteration. Through a unified conversational interface, the system supports natural language interaction without prior technical expertise and responds to multimodal queries for tasks including information retrieval, question answering, and image analysis. The experiments are validated through both human evaluation and quantitative metrics, including BERTScore F1 (96.3%) and LLM-as-a-Judge G-Eval (87.1%). These results demonstrate robust automated inter-agent coordination, query decomposition, task allocation, dynamic routing, and domain-specific relevant responses. Overall, our proposed framework contributes to the potential capabilities of domain-specific, cooperative, and scalable conversational AI powered by MAS.

논문 링크

https://arxiv.org/abs/2507.21105

효율적인 지식 주입 방법: 대규모 언어 모델 사전학습을 위한 지식 주입 스케일링 법칙 / How to inject knowledge efficiently? Knowledge Infusion Scaling Law for Pre-training Large Language Models

논문 소개

대규모 언어 모델(LLMs)은 다양한 작업에서 뛰어난 성능을 발휘하지만, 도메인 특화 최적화가 부족할 경우 전문 지식 벤치마크에서 저조한 성능을 보이고 환각(hallucination) 현상을 일으킬 수 있다. 본 연구에서는 사전 학습(pre-training) 과정에서 도메인 지식을 전략적으로 주입하는 방법론을 제안하며, 이 과정에서 발생하는 기억 붕괴(memory collapse) 현상에 주목하였다. 기억 붕괴는 과도한 지식 주입으로 인해 발생하며, 이는 모델의 지식 유지 능력을 급격히 저하시킨다. 연구팀은 두 가지 주요 관찰 결과를 도출하였다. 첫째, 각 모델은 지식 유지 능력이 급격히 저하되는 임계점을 나타내며, 둘째, 이러한 붕괴점은 모델의 크기와 일관되게 스케일링된다.

이러한 통찰을 바탕으로, 연구에서는 지식 주입 스케일링 법칙(knowledge infusion scaling law)을 제안하였다. 이 법칙은 대규모 LLM에 주입할 최적의 도메인 지식 양을 예측하는 데 도움을 주며, 다양한 모델 크기와 관련된 토큰 예산에 대한 실험을 통해 그 효과성과 일반성을 검증하였다. 특히, 기억 붕괴 현상이 과도한 지식 주입으로 인해 발생함을 보여주며, 이는 희소한 토큰 수준의 지식 주입이 대규모 데이터셋에서도 충분하다는 것을 시사한다.

연구는 또한 다양한 훈련 데이터셋 크기와 주입 빈도에 따른 기억 유지 성능을 평가하였으며, 큰 모델이 적은 양의 지식으로도 포화 상태에 도달할 수 있음을 발견하였다. 이러한 결과는 LLM의 도메인 특화 및 최적화에 대한 중요한 통찰을 제공하며, 향후 연구에 있어 지식 주입 전략의 설계에 기여할 것으로 기대된다. 본 연구는 대규모 언어 모델의 지식 주입 효과를 평가하고, 기억 유지 능력 및 붕괴점 예측을 위한 방법론을 제시하며, 다양한 템플릿의 영향을 분석하는 데 중점을 두고 있다.

논문 초록(Abstract)

대규모 언어 모델(LLM)은 다양한 하위 작업에서 인상적인 일반 능력으로 인해 상당한 주목을 받고 있습니다. 그러나 도메인 특화 최적화 없이 이들은 종종 전문 지식 벤치마크에서 성능이 저하되며, 심지어 환각을 생성하기도 합니다. 최근 연구에 따르면, 사전 학습 중 전략적으로 도메인 지식을 주입하면 하위 작업 성능을 상당히 개선할 수 있습니다. 중요한 도전 과제는 이러한 주입의 균형을 맞추는 것입니다: 도메인 특화 데이터를 너무 적게 주입하면 충분한 특화가 이루어지지 않고, 반대로 과도한 주입은 이전에 습득한 지식의 파국적 망각을 초래합니다. 본 연구에서는 과도한 주입으로 인한 기억 붕괴 현상에 초점을 맞춥니다. 체계적인 실험을 통해 두 가지 주요 관찰을 하였습니다. 첫째, 임계 붕괴 지점: 각 모델은 지식 유지 능력이 급격히 저하되는 임계값을 나타냅니다. 둘째, 규모 상관관계: 이러한 붕괴 지점은 모델의 크기와 일관되게 비례합니다. 이러한 통찰을 바탕으로, 우리는 대규모 LLM에 주입할 최적의 도메인 지식 양을 예측하는 지식 주입 스케일링 법칙을 제안하며, 이는 더 작은 모델을 분석하여 도출됩니다. 다양한 모델 크기와 관련된 토큰 예산에 대한 광범위한 실험을 통해 우리의 스케일링 법칙의 효과성과 일반성을 검증하였습니다.

Large language models (LLMs) have attracted significant attention due to their impressive general capabilities across diverse downstream tasks. However, without domain-specific optimization, they often underperform on specialized knowledge benchmarks and even produce hallucination. Recent studies show that strategically infusing domain knowledge during pretraining can substantially improve downstream performance. A critical challenge lies in balancing this infusion trade-off: injecting too little domain-specific data yields insufficient specialization, whereas excessive infusion triggers catastrophic forgetting of previously acquired knowledge. In this work, we focus on the phenomenon of memory collapse induced by over-infusion. Through systematic experiments, we make two key observations, i.e. 1) Critical collapse point: each model exhibits a threshold beyond which its knowledge retention capabilities sharply degrade. 2) Scale correlation: these collapse points scale consistently with the model's size. Building on these insights, we propose a knowledge infusion scaling law that predicts the optimal amount of domain knowledge to inject into large LLMs by analyzing their smaller counterparts. Extensive experiments across different model sizes and pertaining token budgets validate both the effectiveness and generalizability of our scaling law.

논문 링크

https://arxiv.org/abs/2509.19371

Bifrost-1: 패치 수준 CLIP 잠재 변수를 통한 다중 모달 LLM과 확산 모델의 연결 / Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents

논문 소개

Bifrost-1은 사전학습된 멀티모달 대규모 언어 모델(MLLM)과 디퓨전 모델을 패치 수준의 CLIP(Contrastive Language-Image Pretraining) 이미지 임베딩을 통해 연결하는 혁신적인 프레임워크를 제안합니다. 기존의 접근 방식들은 LLM이 이미지 표현을 사전학습 동안 경험하지 못했기 때문에 높은 학습 비용과 효율성 문제를 안고 있었습니다. Bifrost-1은 이러한 문제를 해결하기 위해 MLLM의 CLIP 시각 인코더와 자연스럽게 정렬된 패치 수준 이미지 임베딩을 활용하여, 디퓨전 모델에 통합합니다. 이 과정에서 ControlNet의 경량화된 적응을 통해 MLLM의 원래 멀티모달 추론 능력을 유지하면서도 시각 생성 분기를 추가하여 패치 수준 이미지 임베딩을 예측합니다.

Bifrost-1의 주요 혁신은 패치 수준 CLIP 잠재변수를 사용하여 MLLM과 디퓨전 모델 간의 효율적인 연결을 가능하게 한다는 점입니다. 이를 통해 고충실도의 제어 가능한 이미지 생성을 실현하며, 훈련 효율성을 크게 향상시킵니다. 실험 결과, Bifrost-1은 시각적 충실도와 멀티모달 이해 측면에서 이전 방법들과 비교하여 동등하거나 더 나은 성능을 보이며, 훈련 중 계산 비용을 현저히 줄이는 데 성공했습니다.

또한, 포괄적인 제거 연구를 통해 Bifrost-1의 설계 선택이 효과적임을 입증하였습니다. 이러한 연구는 멀티모달 정보 처리의 중요성을 강조하며, LLM과 디퓨전 모델 간의 통합을 통해 더욱 발전된 AI 시스템을 구축하는 데 기여할 것입니다. Bifrost-1은 멀티모달 생성 및 이해를 위한 새로운 기준을 제시하며, 향후 연구에 있어 중요한 이정표가 될 것으로 기대됩니다.

논문 초록(Abstract)

고충실도 시각 합성 기능을 대규모 언어 모델(LLM)에 통합하려는 관심이 증가하고 있으며, 이는 강력한 추론 능력을 저해하지 않는 방향으로 진행되고 있습니다. 기존의 방법들은 LLM을 직접 학습시키거나 LLM과 확산 모델(diffusion model) 간의 연결을 시도하지만, 백본 LLM이 사전 학습(pretraining) 동안 이미지 표현을 접하지 못했기 때문에 비용이 많이 드는 학습 문제를 겪습니다. 우리는 Bifrost-1을 제안합니다. 이는 사전 학습된 다중 모달 LLM(MLLM)과 확산 모델을 패치 수준의 CLIP 이미지 임베딩을 잠재 변수로 사용하여 연결하는 통합 프레임워크입니다. 이 패치 수준의 이미지 임베딩은 MLLM의 CLIP 시각 인코더와 본래적으로 정렬되어 있습니다. 이러한 패치 수준의 이미지 임베딩은 ControlNet의 경량화된 적응을 통해 확산 모델에 통합됩니다. MLLM의 원래 다중 모달 추론 능력을 유지하기 위해, 우리는 패치 수준의 이미지 임베딩을 예측할 때 원래 MLLM 매개변수에서 초기화된 시각 생성(branch) 분기를 MLLM에 장착합니다. 사전 학습된 MLLM과 패치 수준의 CLIP 잠재 변수를 사용하여 확산 모델을 원활하게 통합함으로써, 우리의 프레임워크는 높은 충실도의 제어 가능한 이미지 생성을 가능하게 하며, 학습 효율성을 크게 향상시킵니다. 실험 결과, Bifrost-1은 시각적 충실도와 다중 모달 이해 측면에서 이전 방법들과 비교하여 동등하거나 더 나은 성능을 달성하며, 학습 중 계산 비용을 상당히 줄였습니다. 또한, 우리의 설계 선택의 효과를 보여주는 포괄적인 제거 연구(ablation studies)를 제공합니다.

There is growing interest in integrating high-fidelity visual synthesis capabilities into large language models (LLMs) without compromising their strong reasoning capabilities. Existing methods that directly train LLMs or bridge LLMs and diffusion models usually suffer from costly training since the backbone LLMs have not seen image representations during pretraining. We present Bifrost-1, a unified framework that bridges pretrained multimodal LLMs (MLLMs) and diffusion models using patch-level CLIP image embeddings as latent variables, which are natively aligned with the MLLM's CLIP visual encoder. These patch-level image embeddings are integrated into the diffusion model with a lightweight adaptation of its ControlNet. To retain the original multimodal reasoning capabilities of MLLMs, we equip the MLLM with a visual generation branch initialized from the original MLLM parameters when predicting the patch-level image embeddings. By seamlessly integrating pretrained MLLMs and diffusion models with patch-level CLIP latents, our framework enables high-fidelity controllable image generation with significant training efficiency. Our experiments demonstrate that Bifrost-1 achieves comparable or better performance than previous methods in terms of visual fidelity and multimodal understanding, with substantially lower compute during training. We also provide comprehensive ablation studies showing the effectiveness of our design choices.

논문 링크

https://arxiv.org/abs/2508.05954

더 읽어보기

https://bifrost-1.github.io

VLM을 위한 지속적 학습: 망각을 넘어선 서베이 및 분류 / Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting

논문 소개

비전-언어 모델(Vision-Language Models, VLM)은 대규모 사전 학습을 통해 다양한 다중 모달 작업에서 뛰어난 성능을 보여주고 있지만, 비정상적인 데이터로부터 지속적으로 학습하는 데에는 여러 도전 과제가 존재합니다. 이러한 문제는 특히 크로스 모달 정렬과 일반화 능력이 치명적인 망각에 취약하기 때문에 더욱 두드러집니다. VLM의 지속적 학습(VLM-CL)은 전통적인 단일 모달 지속적 학습과는 다른 고유한 문제를 안고 있으며, 이 논문에서는 VLM-CL의 세 가지 주요 실패 모드를 식별하고 이를 해결하기 위한 도전 기반의 분류 체계를 제안합니다.

제안된 분류 체계는 (1) 다중 모달 리플레이 전략, (2) 크로스 모달 정규화, (3) 파라미터 효율적 적응으로 구성되어 있습니다. 다중 모달 리플레이 전략은 과거 작업의 정보를 재생하여 크로스 모달 피처 드리프트를 완화하는 데 기여하며, 크로스 모달 정규화는 업데이트 중 모달리티 정렬을 유지하는 데 중점을 둡니다. 파라미터 효율적 적응은 공유 모듈 간섭 문제를 해결하기 위해 주요 사전 학습 모델을 고정하고 소수의 새로운 파라미터만 업데이트하는 방법론입니다.

이 논문은 VLM-CL을 위한 포괄적인 리뷰를 제공하며, 현재의 평가 프로토콜과 데이터셋, 메트릭을 분석하여 VLM 특유의 망각과 조합 일반화를 포착할 수 있는 더 나은 벤치마크의 필요성을 강조합니다. 또한, 지속적 사전 학습과 조합 제로샷 학습을 포함한 향후 연구 방향을 제시하여 연구자들이 평생 비전-언어 시스템을 개발하는 데 있어 유용한 참고 자료가 될 수 있도록 합니다. 이러한 체계적이고 진단적인 접근은 VLM의 지속적 학습 분야에서의 혁신을 촉진하고, 진정한 평생 학습 다중 모달 AI 시스템 구축을 위한 기초를 마련하는 데 기여할 것입니다.

논문 초록(Abstract)

비전-언어 모델(VLM)은 대규모 사전 학습을 활용하여 다양한 다중 모달 작업에서 인상적인 성과를 달성하였습니다. 그러나 비정상적인 데이터로부터 지속적으로 학습할 수 있도록 하는 것은 여전히 주요한 도전 과제로 남아 있으며, 이들의 교차 모달 정렬 및 일반화 능력은 특히 치명적인 망각에 취약합니다. 전통적인 단일 모달 지속 학습(CL)과는 달리, VLM은 교차 모달 특징 드리프트, 공유 아키텍처로 인한 매개변수 간섭, 제로샷 능력 저하와 같은 고유한 도전에 직면해 있습니다. 본 서베이 논문은 VLM을 위한 지속 학습(VLM-CL)에 대한 최초의 집중적이고 체계적인 리뷰를 제공합니다. 우리는 VLM-CL에서 성능을 저하시킬 수 있는 세 가지 핵심 실패 모드를 식별하는 것부터 시작합니다. 이를 바탕으로 우리는 문제 해결을 위한 도전 기반 분류법을 제안합니다: (1) \textit{다중 모달 재생 전략}은 명시적 또는 암시적 기억 메커니즘을 통해 교차 모달 드리프트를 해결합니다; (2) \textit{교차 모달 정규화}는 업데이트 중 모달리티 정렬을 유지합니다; (3) \textit{매개변수 효율적 적응}은 모듈형 또는 저차원 업데이트를 통해 매개변수 간섭을 완화합니다. 우리는 현재의 평가 프로토콜, 데이터셋, 메트릭을 추가로 분석하며, VLM 특유의 망각 및 구성 일반화를 포착하는 더 나은 벤치마크의 필요성을 강조합니다. 마지막으로, 지속적 사전 학습 및 구성 제로샷 학습을 포함한 열린 문제와 향후 방향을 제시합니다. 본 서베이 논문은 평생 비전-언어 시스템을 개발하는 연구자들에게 포괄적이고 진단적인 참고자료로 활용되기를 목표로 합니다. 모든 리소스는 다음 링크에서 확인할 수 있습니다: https://github.com/YuyangSunshine/….

Vision-language models (VLMs) have achieved impressive performance across diverse multimodal tasks by leveraging large-scale pre-training. However, enabling them to learn continually from non-stationary data remains a major challenge, as their cross-modal alignment and generalization capabilities are particularly vulnerable to catastrophic forgetting. Unlike traditional unimodal continual learning (CL), VLMs face unique challenges such as cross-modal feature drift, parameter interference due to shared architectures, and zero-shot capability erosion. This survey offers the first focused and systematic review of continual learning for VLMs (VLM-CL). We begin by identifying the three core failure modes that degrade performance in VLM-CL. Based on these, we propose a challenge-driven taxonomy that maps solutions to their target problems: (1) \textit{Multi-Modal Replay Strategies} address cross-modal drift through explicit or implicit memory mechanisms; (2) \textit{Cross-Modal Regularization} preserves modality alignment during updates; and (3) \textit{Parameter-Efficient Adaptation} mitigates parameter interference with modular or low-rank updates. We further analyze current evaluation protocols, datasets, and metrics, highlighting the need for better benchmarks that capture VLM-specific forgetting and compositional generalization. Finally, we outline open problems and future directions, including continual pre-training and compositional zero-shot learning. This survey aims to serve as a comprehensive and diagnostic reference for researchers developing lifelong vision-language systems. All resources are available at: https://github.com/YuyangSunshine/….

논문 링크

https://arxiv.org/abs/2508.04227

더 읽어보기

https://github.com/YuyangSunshine/…

에이전트 연합: 대규모 에이전틱 AI를 위한 의미 인식 통신 구조 / Federation of Agents: A Semantics-Aware Communication Fabric for Large-Scale Agentic AI

논문 소개

Federation of Agents (FoA)는 정적 다중 에이전트 조정을 동적이고 능력 중심의 협력으로 변환하는 혁신적인 분산 오케스트레이션 프레임워크이다. 이 시스템은 에이전트의 능력을 기계가 읽을 수 있는 프로파일로 변환하는 버전 관리된 능력 벡터(Versioned Capability Vectors, VCVs)를 도입하여, 에이전트가 자신의 능력, 비용 및 한계를 효과적으로 광고할 수 있도록 한다. FoA의 아키텍처는 세 가지 주요 혁신을 포함한다. 첫째, 어휘적 라우팅(semantic routing)을 통해 작업을 에이전트에 매칭하고, 이를 위해 샤드된 HNSW 인덱스를 활용하며, 운영 제약을 준수하는 비용 편향 최적화를 수행한다. 둘째, 동적 작업 분해(dynamic task decomposition) 기술을 통해 호환 가능한 에이전트들이 복잡한 작업을 DAG(Directed Acyclic Graph) 형태의 하위 작업으로 분해하여 합의 기반의 합병을 통해 협력적으로 작업을 수행한다. 셋째, 스마트 클러스터링(smart clustering) 기술을 통해 유사한 하위 작업을 수행하는 에이전트들을 협력 채널로 그룹화하고, k-라운드 정제를 통해 작업을 더욱 정교화한다.

FoA는 MQTT의 게시-구독 의미론을 기반으로 하여 확장 가능한 메시지 전달을 지원하며, 계층적 능력 매칭과 효율적인 인덱스 유지 관리를 통해 서브-선형 복잡성을 달성한다. HealthBench에서의 평가 결과는 FoA가 단일 모델 기준선에 비해 13배의 성능 향상을 보여주며, 특히 클러스터링 강화 협력이 여러 관점이 필요한 복잡한 추론 작업에서 효과적임을 입증한다. 이 시스템은 수평적으로 확장 가능하며 일관된 성능을 유지함으로써, 구조화된 협력을 통해 의미론적 오케스트레이션이 이질적인 AI 에이전트 연합의 집단 지성을 효과적으로 활용할 수 있음을 보여준다. 이러한 연구는 다중 에이전트 시스템의 효율성을 극대화하고, 복잡한 작업을 보다 효과적으로 처리할 수 있는 방법론을 제시함으로써, AI 분야의 발전에 기여할 것으로 기대된다.

논문 초록(Abstract)

다음은 AI/ML 분야의 논문 초록입니다. 우리는 에이전트 연합(Federation of Agents, FoA)을 제시합니다. FoA는 정적인 다중 에이전트 조정을 동적인 능력 기반 협력으로 변환하는 분산 오케스트레이션 프레임워크입니다. FoA는 버전 관리된 능력 벡터(Versioned Capability Vectors, VCVs)를 도입합니다. 이는 에이전트의 능력을 의미론적 임베딩을 통해 검색 가능하게 만드는 기계 판독 프로필로, 에이전트가 자신의 능력, 비용 및 한계를 광고할 수 있게 합니다. 우리의 아키텍처는 세 가지 주요 혁신을 결합합니다: (1) 비용 편향 최적화를 통해 운영 제약을 강화하면서 작업을 샤딩된 HNSW 인덱스를 통해 에이전트에 매칭하는 의미론적 라우팅, (2) 호환 가능한 에이전트가 합의 기반 병합을 통해 복잡한 작업을 하위 작업의 DAG로 공동 분해하는 동적 작업 분해, (3) 유사한 하위 작업을 수행하는 에이전트를 협력 채널로 그룹화하여 합성을 위한 k-라운드 정제를 수행하는 스마트 클러스터링입니다. MQTT의 게시-구독 의미론 위에 구축된 FoA는 계층적 능력 매칭과 효율적인 인덱스 유지 관리를 통해 서브 선형 복잡성을 달성합니다. HealthBench에서의 평가 결과는 단일 모델 기준선에 비해 13배의 개선을 보여주며, 클러스터링 강화 협력이 여러 관점을 요구하는 복잡한 추론 작업에 특히 효과적임을 입증합니다. 이 시스템은 수평적으로 확장되면서 일관된 성능을 유지하며, 구조화된 협력을 통한 의미론적 오케스트레이션이 이질적인 AI 에이전트 연합의 집단 지성을 발휘할 수 있음을 보여줍니다.

We present Federation of Agents (FoA), a distributed orchestration framework that transforms static multi-agent coordination into dynamic, capability-driven collaboration. FoA introduces Versioned Capability Vectors (VCVs): machine-readable profiles that make agent capabilities searchable through semantic embeddings, enabling agents to advertise their capabilities, cost, and limitations. Our aarchitecturecombines three key innovations: (1) semantic routing that matches tasks to agents over sharded HNSW indices while enforcing operational constraints through cost-biased optimization, (2) dynamic task decomposition where compatible agents collaboratively break down complex tasks into DAGs of subtasks through consensus-based merging, and (3) smart clustering that groups agents working on similar subtasks into collaborative channels for k-round refinement before synthesis. Built on top of MQTT,s publish-subscribe semantics for scalable message passing, FoA achieves sub-linear complexity through hierarchical capability matching and efficient index maintenance. Evaluation on HealthBench shows 13x improvements over single-model baselines, with clustering-enhanced laboration particularly effective for complex reasoning tasks requiring multiple perspectives. The system scales horizontally while maintaining consistent performance, demonstrating that semantic orchestration with structured collaboration can unlock the collective intelligence of heterogeneous federations of AI agents.

논문 링크

https://arxiv.org/abs/2509.20175

대규모 언어 모델을 위한 효율적인 어텐션 메커니즘 서베이 / Efficient Attention Mechanisms for Large Language Models: A Survey

논문 소개

트랜스포머 기반 구조는 대형 언어 모델의 핵심이지만, 자기-어텐션(self-attention)의 이차 시간 및 메모리 복잡도가 긴 문맥 처리에 큰 제약이 됩니다. 이를 해결하기 위해 최근 연구에서는 커널 근사, 순환 구조, 패스트웨이트 역학을 활용한 선형 어텐션(linear attention)과, 고정 패턴, 블록 단위 라우팅, 클러스터링을 통한 희소 어텐션(sparse attention) 두 가지 주요 효율적 어텐션 기법이 제안되었습니다. 본 서베이 논문에서는 알고리즘적 혁신과 하드웨어 관점 모두를 통합하여 이러한 방법들을 체계적으로 정리하고, 효율적 어텐션을 적용한 대규모 사전학습 언어 모델의 다양한 설계 방식을 분석합니다. 이로써 확장 가능하고 효율적인 언어 모델 설계에 대한 이론과 실무 전략을 연결하는 기초 자료를 제공합니다.

논문 초록(Abstract)

트랜스포머 기반 아키텍처는 대규모 언어 모델의 주류 백본이 되었습니다. 그러나 자기어텐션(self-attention)의 이차 시간 및 메모리 복잡도는 효율적인 장기 문맥 모델링에 근본적인 장애물로 남아 있습니다. 이러한 한계를 극복하기 위해 최근 연구에서는 두 가지 주요 범주의 효율적인 어텐션 메커니즘이 제안되었습니다. 선형 어텐션(linear attention) 방법은 커널 근사, 순환 공식, 또는 패스트웨이트 다이내믹스(fastweight dynamics)를 통해 선형 복잡도를 달성하여 계산 비용을 줄이면서 확장 가능한 추론을 가능하게 합니다. 반면, 희소 어텐션(sparse attention) 기법은 고정 패턴, 블록 단위 라우팅, 또는 클러스터링 전략에 기반하여 선택된 토큰 하위 집합에만 어텐션 계산을 제한함으로써 효율성을 높이면서도 문맥 범위를 유지합니다. 본 서베이 논문은 알고리즘 혁신과 하드웨어 수준 고려사항을 통합하여 이러한 발전을 체계적이고 포괄적으로 개관합니다. 또한, 완전히 효율적인 어텐션에 기반한 아키텍처와 지역(local) 및 전역(global) 구성 요소를 결합한 하이브리드 설계를 포함한 대규모 사전학습 언어 모델에 효율적인 어텐션이 통합된 사례를 분석합니다. 이론적 토대와 실용적 배포 전략을 조화시킴으로써, 본 연구는 확장 가능하고 효율적인 언어 모델 설계 발전을 위한 기초 참고 자료로서 기여하고자 합니다.

Transformer-based architectures have become the prevailing backbone of large language models. However, the quadratic time and memory complexity of self-attention remains a fundamental obstacle to efficient long-context modeling. To address this limitation, recent research has introduced two principal categories of efficient attention mechanisms. Linear attention methods achieve linear complexity through kernel approximations, recurrent formulations, or fastweight dynamics, thereby enabling scalable inference with reduced computational overhead. Sparse attention techniques, in contrast, limit attention computation to selected subsets of tokens based on fixed patterns, block-wise routing, or clustering strategies, enhancing efficiency while preserving contextual coverage. This survey provides a systematic and comprehensive overview of these developments, integrating both algorithmic innovations and hardware-level considerations. In addition, we analyze the incorporation of efficient attention into largescale pre-trained language models, including both architectures built entirely on efficient attention and hybrid designs that combine local and global components. By aligning theoretical foundations with practical deployment strategies, this work aims to serve as a foundational reference for advancing the design of scalable and efficient language models.

논문 링크

https://arxiv.org/abs/2507.19595

⚠️광고⚠️: 🔥파이토치 한국 사용자 모임🇰🇷이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일💌로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)