ML 논문 모음

(discuss.pytorch.kr)

[2025/09/22 ~ 28] 이번 주에 살펴볼 만한 AI/ML 논문 모음

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ AI 에이전트의 발전: 최근 연구들은 논문을 AI 에이전트로 변환하는 방법을 모색하고 있습니다. 예를 들어, Paper2Agent는 연구 결과를 능동적인 시스템으로 전환하여 사용자들이 더 쉽게 활용할 수 있도록 합니다. 이러한 접근은 연구 결과의 전파와 재사용을 촉진하며, AI가 연구 보조 역할을 수행할 수 있는 새로운 패러다임을 제시합니다.

2️⃣ 병렬 사고 및 강화학습의 통합: Parallel-R1과 ParaThinker와 같은 연구들은 대규모 언어 모델(LLM)의 사고 능력을 향상시키기 위해 병렬 사고를 활용하는 방법을 제안합니다. 이들은 강화학습(RL)을 통해 복잡한 문제를 해결하는 데 필요한 다양한 사고 경로를 동시에 탐색하여 성능을 개선합니다. 이러한 방식은 기존의 순차적 사고 모델에 비해 더 높은 정확도를 달성하는 데 기여하고 있습니다.

3️⃣ 정보 검색 및 구조화의 통합: Retrieval And Structuring (RAS) Augmented Generation과 같은 연구들은 LLM의 한계를 극복하기 위해 동적 정보 검색과 구조화된 지식 표현을 통합하는 방법을 모색하고 있습니다. 이러한 접근은 비정형 텍스트를 조직화된 형태로 변환하고, 외부 지식에 접근하는 다양한 메커니즘을 탐구하여 LLM의 성능을 향상시키는 데 기여하고 있습니다.

Paper2Agent: 연구 논문을 상호작용 가능하고 신뢰할 수 있는 AI 에이전트로 재구성하기 / Paper2Agent: Reimagining Research Papers As Interactive and Reliable AI Agents

논문 소개

Paper2Agent는 연구 논문을 상호작용 가능한 인공지능(AI) 에이전트로 변환하는 자동화된 프레임워크로, 연구 결과의 활용과 확산을 가속화하는 혁신적인 접근 방식을 제시합니다. 기존의 연구 논문은 독자가 내용을 이해하고 적용하기 위해 상당한 노력을 요구하며, 이는 연구 결과의 재사용과 전파에 장벽이 됩니다. Paper2Agent는 이러한 문제를 해결하기 위해 논문과 관련된 코드베이스를 체계적으로 분석하고, 여러 에이전트를 활용하여 모델 컨텍스트 프로토콜(Model Context Protocol, MCP) 서버를 구축합니다. 이 과정에서 반복적인 테스트를 통해 MCP를 개선하고 강화하여, 최종적으로 자연어를 통해 복잡한 과학적 쿼리를 수행할 수 있는 AI 에이전트를 생성합니다.

이 프레임워크는 AlphaGenome, ScanPy, TISSUE와 같은 다양한 방법론을 활용하여 유전체 변이 해석 및 단일 세포 분석을 수행하는 에이전트를 개발하였습니다. 이러한 에이전트는 원래 논문의 결과를 재현할 수 있을 뿐만 아니라, 새로운 사용자 쿼리에 대해서도 정확한 응답을 제공합니다. Paper2Agent는 정적인 연구 논문을 동적이고 상호작용 가능한 AI 에이전트로 변환함으로써, 지식 전파의 새로운 패러다임을 제시하고 AI 공동 과학자 생태계의 기초를 마련합니다.

이 연구는 과학적 커뮤니케이션의 방식을 혁신적으로 변화시키며, 연구 결과를 단순한 문서에서 능동적인 지식 기반 시스템으로 전환하는 데 기여합니다. Paper2Agent는 연구자들이 복잡한 소프트웨어 생태계를 마스터할 필요 없이, 자연어로 에이전트와 상호작용하여 연구 방법을 쉽게 적용할 수 있도록 합니다. 이러한 접근 방식은 연구 결과의 접근성을 높이고, 고급 방법론에 대한 민주화를 촉진하며, 연구의 실제 적용 속도를 가속화하는 데 중요한 역할을 합니다.

결과적으로, Paper2Agent는 연구 논문의 활용성을 극대화하고, 과학적 지식의 상호작용적이고 협력적인 전파를 가능하게 하는 혁신적인 플랫폼으로 자리매김할 것입니다.

논문 초록(Abstract)

우리는 연구 논문을 AI 에이전트로 변환하는 자동화된 프레임워크인 Paper2Agent를 소개합니다. Paper2Agent는 연구 결과물을 수동적인 산출물에서 능동적인 시스템으로 변환하여 하위 사용, 채택 및 발견을 가속화할 수 있도록 합니다. 기존의 연구 논문은 독자가 논문의 코드, 데이터 및 방법을 이해하고 자신의 작업에 맞게 조정하기 위해 상당한 노력을 투자해야 하며, 이는 전파 및 재사용에 장벽을 만듭니다. Paper2Agent는 논문을 지식이 풍부한 연구 보조자로 작용하는 AI 에이전트로 자동 변환하여 이러한 문제를 해결합니다. 이 시스템은 여러 에이전트를 사용하여 논문과 관련된 코드베이스를 체계적으로 분석하고, 모델 컨텍스트 프로토콜(Model Context Protocol, MCP) 서버를 구축한 다음, 반복적으로 테스트를 생성하고 실행하여 결과적인 MCP를 정제하고 강화합니다. 이러한 논문 MCP는 원래 논문에서 도구와 워크플로를 호출하면서 자연어를 통해 복잡한 과학적 쿼리를 수행하기 위해 채팅 에이전트(예: Claude Code)와 유연하게 연결될 수 있습니다. 우리는 심층 사례 연구를 통해 Paper2Agent가 신뢰할 수 있고 유능한 논문 에이전트를 생성하는 효과를 입증합니다. Paper2Agent는 AlphaGenome을 활용하여 유전체 변이를 해석하는 에이전트와 ScanPy 및 TISSUE를 기반으로 단일 세포 및 공간 전사체 분석을 수행하는 에이전트를 생성했습니다. 우리는 이러한 논문 에이전트가 원래 논문의 결과를 재현할 수 있으며, 새로운 사용자 쿼리를 정확하게 수행할 수 있음을 검증합니다. 정적인 논문을 동적이고 상호작용하는 AI 에이전트로 변환함으로써, Paper2Agent는 지식 전파를 위한 새로운 패러다임과 AI 공동 과학자 생태계의 기초를 제공합니다.

We introduce Paper2Agent, an automated framework that converts research papers into AI agents. Paper2Agent transforms research output from passive artifacts into active systems that can accelerate downstream use, adoption, and discovery. Conventional research papers require readers to invest substantial effort to understand and adapt a paper's code, data, and methods to their own work, creating barriers to dissemination and reuse. Paper2Agent addresses this challenge by automatically converting a paper into an AI agent that acts as a knowledgeable research assistant. It systematically analyzes the paper and the associated codebase using multiple agents to construct a Model Context Protocol (MCP) server, then iteratively generates and runs tests to refine and robustify the resulting MCP. These paper MCPs can then be flexibly connected to a chat agent (e.g. Claude Code) to carry out complex scientific queries through natural language while invoking tools and workflows from the original paper. We demonstrate Paper2Agent's effectiveness in creating reliable and capable paper agents through in-depth case studies. Paper2Agent created an agent that leverages AlphaGenome to interpret genomic variants and agents based on ScanPy and TISSUE to carry out single-cell and spatial transcriptomics analyses. We validate that these paper agents can reproduce the original paper's results and can correctly carry out novel user queries. By turning static papers into dynamic, interactive AI agents, Paper2Agent introduces a new paradigm for knowledge dissemination and a foundation for the collaborative ecosystem of AI co-scientists.

논문 링크

https://arxiv.org/abs/2509.06917

더 읽어보기

https://github.com/jmiao24/Paper2Agent

https://huggingface.co/spaces/Paper2Agent/alphagenome_agent

병렬 사고: 강화학습을 통한 병렬적 사고 능력 향상 방법 / Parallel-R1: Towards Parallel Thinking via Reinforcement Learning

논문 소개

병렬 사고는 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 혁신적인 접근법으로, 여러 추론 경로를 동시에 탐색하는 방법론이다. 그러나 기존의 감독 학습(Supervised Fine-Tuning, SFT) 방식은 합성 데이터에 의존하여 모델이 단순한 모방 학습에 그치게 하여 탐색과 일반화를 저해하는 한계가 있다. 이러한 문제를 해결하기 위해 제안된 Parallel-R1은 최초의 강화학습(Reinforcement Learning, RL) 프레임워크로, 복잡한 실제 문제 해결을 위한 병렬 사고 행동을 가능하게 한다.

Parallel-R1은 점진적 커리큘럼을 통해 초기에는 쉬운 문제를 학습하고, 이후 RL을 통해 더 어려운 문제에 대해 병렬 사고 능력을 탐색하고 일반화하는 두 단계의 훈련 과정을 채택한다. 이 과정에서 모델은 초기 단계에서 병렬 사고를 탐색 전략으로 활용하고, 후속 단계에서는 다각적 검증을 위한 전략으로 발전하는 경향을 보인다. 실험 결과, Parallel-R1은 다양한 수학 벤치마크에서 기존의 순차적 사고 모델에 비해 8.4%의 정확도 향상을 달성하였으며, 특히 AIME25 벤치마크에서는 42.9%의 성능 개선을 기록하였다.

이 연구의 주요 기여는 병렬 사고를 위한 RL 프레임워크를 제안함으로써, 모델이 스스로 병렬 사고를 학습하도록 유도하는 점이다. 또한, 병렬 사고의 탐색 메커니즘을 통해 모델이 정책 공간에서 더 효과적인 영역으로 안내받을 수 있도록 하여, 최종 정책 학습에 기여하는 구조적 역할을 한다. Parallel-R1은 LLM의 추론 능력을 향상시키기 위한 중요한 기초 자료로 활용될 수 있으며, 향후 연구에 있어 병렬 사고의 개념을 더욱 발전시키는 데 기여할 것으로 기대된다.

논문 초록(Abstract)

병렬 사고는 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 새로운 접근법으로, 여러 추론 경로를 동시에 탐색하는 방법입니다. 그러나 이러한 능력을 훈련을 통해 활성화하는 것은 여전히 도전적이며, 기존 방법들은 주로 합성 데이터에 대한 감독된 파인튜닝(SFT)에 의존하여 탐색과 일반화보다는 교사 강제 모방을 촉진합니다. 이에 반해, 우리는 복잡한 실제 추론 작업을 위한 병렬 사고 행동을 가능하게 하는 첫 번째 강화학습(RL) 프레임워크인 \textbf{Parallel-R1}을 제안합니다. 우리의 프레임워크는 RL을 통한 병렬 사고 훈련에서의 콜드 스타트 문제를 명시적으로 해결하는 점진적 커리큘럼을 사용합니다. 우리는 먼저 더 쉬운 작업에서 생성된 프롬프트 기반 경로에 대해 SFT를 사용하여 병렬 사고 능력을 주입한 후, 더 어려운 문제에서 이 기술을 탐색하고 일반화하기 위해 RL로 전환합니다. MATH, AMC23, AIME 등 다양한 수학 벤치마크에 대한 실험 결과, Parallel-R1은 병렬 사고를 성공적으로 주입하여 RL로 직접 훈련된 순차적 사고 모델에 비해 8.4%의 정확도 향상을 이끌어냈습니다. 추가 분석 결과, 모델의 사고 행동에서 명확한 변화가 나타났습니다: 초기 단계에서는 병렬 사고를 탐색 전략으로 사용하고, 후반 단계에서는 동일한 능력을 다각적 검증을 위해 사용합니다. 가장 중요한 것은, 우리는 병렬 사고가 \textbf{중간 훈련 탐색 발판}으로 작용함을 검증하였으며, 이 일시적인 탐색 단계가 RL 이후 더 높은 성능 한계를 여는 데 기여하여 AIME25에서 기준선 대비 42.9%의 향상을 이끌어냈습니다. 우리의 모델, 데이터 및 코드는 https://github.com/zhengkid/Parallel-R1 에서 오픈 소스로 제공될 것입니다.

Parallel thinking has emerged as a novel approach for enhancing the reasoning capabilities of large language models (LLMs) by exploring multiple reasoning paths concurrently. However, activating such capabilities through training remains challenging, as existing methods predominantly rely on supervised fine-tuning (SFT) over synthetic data, which encourages teacher-forced imitation rather than exploration and generalization. Different from them, we propose \textbf{Parallel-R1}, the first reinforcement learning (RL) framework that enables parallel thinking behaviors for complex real-world reasoning tasks. Our framework employs a progressive curriculum that explicitly addresses the cold-start problem in training parallel thinking with RL. We first use SFT on prompt-generated trajectories from easier tasks to instill the parallel thinking ability, then transition to RL to explore and generalize this skill on harder problems. Experiments on various math benchmarks, including MATH, AMC23, and AIME, show that Parallel-R1 successfully instills parallel thinking, leading to 8.4% accuracy improvements over the sequential thinking model trained directly on challenging tasks with RL. Further analysis reveals a clear shift in the model's thinking behavior: at an early stage, it uses parallel thinking as an exploration strategy, while in a later stage, it uses the same capability for multi-perspective verification. Most significantly, we validate parallel thinking as a \textbf{mid-training exploration scaffold}, where this temporary exploratory phase unlocks a higher performance ceiling after RL, yielding a 42.9% improvement over the baseline on AIME25. Our model, data, and code will be open-source at https://github.com/zhengkid/Parallel-R1.

논문 링크

https://arxiv.org/abs/2509.07980

더 읽어보기

https://zhengkid.github.io/Parallel_R1.github.io/

https://github.com/zhengkid/Parallel-R1

대규모 언어 모델을 활용한 검색 및 구조화 증강 생성에 관한 서베이 / A Survey on Retrieval And Structuring Augmented Generation with Large Language Models

논문 소개

대규모 언어 모델(LLMs)은 자연어 처리 분야에서 혁신적인 발전을 이루었으나, 실제 애플리케이션에서 환각(hallucination) 생성, 구식 지식, 제한된 도메인 전문성 등의 문제에 직면하고 있다. 이러한 한계를 극복하기 위해 제안된 검색 및 구조화 증강 생성(Retrieval And Structuring, RAS) 접근법은 동적 정보 검색과 구조화된 지식 표현을 통합하여 LLM의 성능을 향상시키는 데 기여한다. 이 연구는 외부 지식에 접근하기 위한 다양한 검색 메커니즘을 검토하며, 희소(sparse), 밀집(dense), 하이브리드(hybrid) 접근 방식을 포함한다. 이러한 검색 메커니즘은 LLM이 보다 정확하고 신뢰성 있는 정보를 생성하도록 지원한다.

또한, 비구조적 텍스트를 조직된 표현으로 변환하는 텍스트 구조화 기술도 중요한 역할을 한다. 분류 체계 구축, 계층적 분류, 정보 추출 등의 방법을 통해 LLM은 특정 도메인에서의 전문성을 높이고, 복잡한 쿼리에 대한 다단계 추론을 가능하게 한다. RAS는 이러한 구조화된 표현을 LLM과 통합하여, 프롬프트 기반 방법, 추론 프레임워크, 지식 임베딩 기술을 통해 LLM의 응답 생성 능력을 향상시킨다.

이 연구는 RAS의 기술적 도전 과제를 식별하고, 검색 효율성, 구조 품질, 지식 통합의 중요성을 강조한다. 또한, 다중 모달 검색, 교차 언어 구조, 상호작용 시스템과 같은 미래 연구 기회를 제시하여, LLMs의 적용 가능성을 넓히고자 한다. RAS 접근법은 LLM의 성능을 극대화할 수 있는 혁신적인 방법론으로, 자연어 처리 분야의 발전에 기여할 것으로 기대된다.

논문 초록(Abstract)

대규모 언어 모델(LLM)은 텍스트 생성 및 추론에서의 놀라운 능력으로 자연어 처리에 혁신을 가져왔습니다. 그러나 이러한 모델은 실제 애플리케이션에 배포될 때 환각 생성, 구식 지식, 제한된 도메인 전문성 등 중요한 도전에 직면합니다. 검색 및 구조화(RAS) 증강 생성은 동적 정보 검색과 구조화된 지식 표현을 통합함으로써 이러한 한계를 해결합니다. 본 서베이는 (1) 외부 지식에 접근하기 위한 희소, 밀집, 혼합 접근 방식을 포함한 검색 메커니즘을 검토하고; (2) 비구조화된 텍스트를 조직된 표현으로 변환하는 분류 체계 구축, 계층적 분류, 정보 추출과 같은 텍스트 구조화 기법을 탐구하며; (3) 이러한 구조화된 표현이 프롬프트 기반 방법, 추론 프레임워크, 지식 임베딩 기법을 통해 LLM과 통합되는 방식을 조사합니다. 또한 검색 효율성, 구조 품질, 지식 통합의 기술적 도전을 식별하고, 다중 모달 검색, 교차 언어 구조, 상호작용 시스템에서의 연구 기회를 강조합니다. 이 포괄적인 개요는 연구자와 실무자에게 RAS 방법, 응용 및 미래 방향에 대한 통찰을 제공합니다.

Large Language Models (LLMs) have revolutionized natural language processing with their remarkable capabilities in text generation and reasoning. However, these models face critical challenges when deployed in real-world applications, including hallucination generation, outdated knowledge, and limited domain expertise. Retrieval And Structuring (RAS) Augmented Generation addresses these limitations by integrating dynamic information retrieval with structured knowledge representations. This survey (1) examines retrieval mechanisms including sparse, dense, and hybrid approaches for accessing external knowledge; (2) explore text structuring techniques such as taxonomy construction, hierarchical classification, and information extraction that transform unstructured text into organized representations; and (3) investigate how these structured representations integrate with LLMs through prompt-based methods, reasoning frameworks, and knowledge embedding techniques. It also identifies technical challenges in retrieval efficiency, structure quality, and knowledge integration, while highlighting research opportunities in multimodal retrieval, cross-lingual structures, and interactive systems. This comprehensive overview provides researchers and practitioners with insights into RAS methods, applications, and future directions.

논문 링크

https://arxiv.org/abs/2509.10697

ParaThinker: LLM 테스트 시간 컴퓨팅을 확장하기 위한 새로운 패러다임으로서의 원주율적 병렬 사고 / ParaThinker: Native Parallel Thinking as a New Paradigm to Scale LLM Test-time Compute

논문 소개

대규모 언어 모델(LLM)의 발전은 최근 테스트 시간 컴퓨팅 확장 전략에 크게 의존하고 있으며, 이는 모델의 추론 능력을 향상시키는 데 기여하고 있다. 그러나 이러한 접근법은 계산량이 증가함에 따라 성능 향상이 미미해지는 병목 현상에 직면하게 된다. 이 문제는 "터널 비전(Tunnel Vision)"이라 불리는 현상으로, 초기 단계에서의 불완전한 추론이 모델을 비최적의 경로에 고착시키는 결과를 초래한다. 이를 해결하기 위해 제안된 새로운 패러다임인 네이티브 사고 병렬성(Native Thought Parallelism)은 여러 다양한 추론 경로를 동시에 생성하고 이를 종합하여 최종 답변을 도출하는 방법이다.

ParaThinker라는 엔드 투 엔드 프레임워크는 이러한 사고 병렬성을 구현하는 데 중점을 두고 있다. 이 시스템은 모델이 독립적으로 다양한 사고를 생성하도록 훈련되며, 이를 통해 터널 비전 문제를 효과적으로 회피하고 모델의 잠재적 추론 능력을 극대화한다. ParaThinker는 세 가지 주요 혁신을 통해 이 목표를 달성한다. 첫째, 훈련 가능한 제어 토큰을 도입하여 각 경로의 독창성을 보장하고, 둘째, 사고 특정 위치 임베딩을 통해 각 경로의 출처를 명확히 구별하며, 셋째, 감독된 파인튜닝(Supervised Fine-Tuning) 전략을 통해 모델이 더 많은 병렬 경로를 생성할 수 있도록 한다.

이러한 접근법은 도전적인 추론 벤치마크에서 기존의 자기 회귀 추론 모델과 비교하여 1.5B 모델에서 평균 12.3%, 7B 모델에서 평균 7.5%의 정확도 향상을 이루었으며, 지연 시간은 7.1%로 미미한 수준에 그친다. 이로 인해 ParaThinker는 더 작은 모델이 훨씬 더 큰 모델을 초월할 수 있는 가능성을 제시하며, 향후 LLM의 확장을 위한 새로운 경로를 제시한다. 연구 결과는 LLM의 추론 과정에서 발생하는 병목 현상을 규명하고, 네이티브 사고 병렬성이 더 나은 확장 방법임을 입증함으로써, LLM 연구 분야에 중요한 기여를 하고 있다.

논문 초록(Abstract)

최근 대규모 언어 모델(LLM)의 발전은 테스트 시 계산 규모 확장에 의해 촉진되었습니다. 이는 더 긴 연속적인 사고 과정을 생성하여 추론을 개선하는 전략입니다. 효과적이지만, 이 접근법은 계산이 증가함에 따라 상당한 병목 현상에 직면하게 되며, 추가적인 계산은 미미한 성능 향상만을 제공합니다. 우리는 이러한 한계가 모델의 능력에 내재된 한계가 아니라, 확장 전략 자체의 결함이라고 주장합니다. 우리는 이를 "터널 비전"이라고 명명하며, 모델의 불완전한 초기 단계가 최적이 아닌 추론 경로에 고착되도록 만든다는 현상입니다. 이를 극복하기 위해, 우리는 새로운 확장 패러다임인 네이티브 사고 병렬성을 소개합니다. 우리는 ParaThinker라는 엔드 투 엔드 프레임워크를 제시하며, 이는 LLM이 여러 가지 다양한 추론 경로를 병렬로 생성하고 이를 우수한 최종 답변으로 종합하도록 훈련합니다. ParaThinker는 다양한 사고 경로를 동시에 탐색함으로써 터널 비전 문제를 효과적으로 회피하고 모델의 잠재적인 추론 능력을 발휘할 수 있게 합니다. 우리의 접근법은 계산을 병렬로 확장(너비)하는 것이 단순히 순차적으로 확장(깊이)하는 것보다 우수한 추론을 위한 더 효과적이고 효율적인 방법임을 보여줍니다. 도전적인 추론 벤치마크에서 ParaThinker는 순차적 LLM에 비해 상당한 정확도 향상(1.5B 모델에서 평균 12.3%, 7B 모델에서 평균 7.5% 향상)을 달성하면서도 지연 시간 오버헤드는 미미한 수준(7.1%)에 그쳤습니다. 이를 통해 더 작은 모델이 훨씬 더 큰 모델을 초월할 수 있게 하며, 향후 LLM의 확장을 위한 중요한 효율적인 차원으로서 병렬 사고를 확립합니다.

Recent advances in Large Language Models (LLMs) have been driven by test-time compute scaling - a strategy that improves reasoning by generating longer, sequential thought processes. While effective, this approach encounters a significant bottleneck as computation increases, where further computation offers only marginal performance gains. We argue this ceiling is not an inherent limit of the model's capability but a flaw in the scaling strategy itself, a phenomenon we term "Tunnel Vision", where a model's imperfect initial steps lock it into a suboptimal reasoning path. To overcome this, we introduce a new scaling paradigm: native thought parallelism. We present ParaThinker, an end-to-end framework that trains an LLM to generate multiple, diverse reasoning paths in parallel and synthesize them into a superior final answer. By exploring different lines of thoughts simultaneously, ParaThinker effectively sidesteps the Tunnel Vision issue and unlocks the model's latent reasoning potential. Our approach demonstrates that scaling compute in parallel (width) is a more effective and efficient way to superior reasoning than simply scaling sequentially (depth). On challenging reasoning benchmarks, ParaThinker achieves substantial accuracy improvements over sequential LLMs (12.3% for 1.5B and 7.5% for 7B models on average with 8 parallel paths), while adding only negligible latency overhead (7.1%). This enables smaller models to surpass much larger counterparts and establishes parallel thinking as a critical, efficient dimension for scaling future LLMs.

논문 링크

https://arxiv.org/abs/2509.04475

시간 시계열 파운데이션 모델을 위한 문맥 내 파인튜닝 / In-Context Fine-Tuning for Time-Series Foundation Models

논문 소개

시계열 데이터의 예측은 다양한 분야에서 중요한 과제이며, 최근 시계열 파운데이션 모델의 발전은 이 문제에 대한 새로운 가능성을 열어주고 있다. 본 연구에서는 이러한 모델의 성능을 극대화하기 위한 새로운 방법론인 $\textit{in-context fine-tuning}$을 제안한다. 이 방법론은 사전 학습된 파운데이션 모델이 여러 시계열 예제를 활용하여 특정 시계열을 미래로 예측할 수 있도록 설계되었다.

제안된 모델은 타겟 시계열의 역사뿐만 아니라 관련 시계열의 예제를 컨텍스트 윈도우에서 활용하여, 추론 시 타겟 도메인의 특정 분포에 적응할 수 있도록 훈련된다. 이러한 접근은 모델이 다양한 시계열의 패턴을 학습하고 이를 바탕으로 보다 정확한 예측을 수행할 수 있게 한다. 실험 결과, 이 모델은 감독 학습 기반의 심층 학습 방법, 통계 모델, 그리고 기존의 다른 시계열 파운데이션 모델에 비해 월등한 성능을 보여주었다.

특히, in-context fine-tuning 접근법은 타겟 도메인에 대해 명시적으로 파인튜닝된 모델과도 경쟁할 수 있는 성능을 발휘하여, 이 방법론의 혁신성을 강조한다. 모델 아키텍처는 TimesFM을 기반으로 하여, 시계열 데이터를 효과적으로 처리할 수 있도록 구성되었다. 입력 예제는 길이 $p$의 패치로 나누어 처리되며, 패딩 마스크를 통해 예측의 정확성을 보장한다.

토큰화 과정에서는 패치와 마스크를 통합하여 생성된 토큰이 스택된 트랜스포머 레이어에 입력되고, 이로부터 예측 결과가 도출된다. 이러한 일련의 과정은 모델이 입력 데이터를 효과적으로 처리하고, 다음 $h$ 스텝의 시계열을 예측하는 데 중요한 역할을 한다. 본 연구는 시계열 데이터 예측을 위한 새로운 접근법을 제시하며, in-context fine-tuning이 기존 방법들보다 우수한 성능을 발휘할 수 있음을 실증적으로 보여준다.

논문 초록(Abstract)

최근 제로샷 예측을 위한 시계열 파운데이션 모델의 성공에 힘입어, 우리는 시계열 파운데이션 모델의 $\textit{문맥 내 파인튜닝}$ 방법론을 제시합니다. 특히, 우리는 목표 시계열을 미래로 예측하기 위해 여러 시계열 예제와 함께 프롬프트할 수 있는 사전 학습된 파운데이션 모델을 설계합니다. 우리의 파운데이션 모델은 목표 시계열의 이력 외에도 문맥 창에서 여러 관련 시계열의 예제를 활용하도록 특별히 훈련되어, 추론 시 목표 도메인의 특정 분포에 적응하는 데 도움을 줍니다. 우리는 추론 시 문맥 내 예제를 사용하는 이러한 파운데이션 모델이 감독된 딥러닝 방법, 통계 모델, 그리고 다른 시계열 파운데이션 모델에 비해 인기 있는 예측 벤치마크에서 훨씬 더 나은 성능을 얻을 수 있음을 보여줍니다. 흥미롭게도, 우리의 문맥 내 파인튜닝 접근법은 목표 도메인에 명시적으로 파인튜닝된 파운데이션 모델의 성능과도 경쟁할 수 있습니다.

Motivated by the recent success of time-series foundation models for zero-shot forecasting, we present a methodology for $\textit{in-context fine-tuning}$ of a time-series foundation model. In particular, we design a pretrained foundation model that can be prompted (at inference time) with multiple time-series examples, in order to forecast a target time-series into the future. Our foundation model is specifically trained to utilize examples from multiple related time-series in its context window (in addition to the history of the target time-series) to help it adapt to the specific distribution of the target domain at inference time. We show that such a foundation model that uses in-context examples at inference time can obtain much better performance on popular forecasting benchmarks compared to supervised deep learning methods, statistical models, as well as other time-series foundation models. Interestingly, our in-context fine-tuning approach even rivals the performance of a foundation model that is explicitly fine-tuned on the target domain.

논문 링크

https://arxiv.org/abs/2410.24087

더 읽어보기

https://research.google/blog/…

https://icml.cc/virtual/2025/poster/43707

1비트만으로 충분하다: 이진 정규화 신경망 / 1 bit is all we need: binary normalized neural networks

논문 소개

대규모 신경망 모델의 발전은 다양한 응용 분야에서 뛰어난 성능을 발휘하지만, 이러한 모델의 크기 증가로 인해 메모리 요구 사항과 계산 효율성에 대한 도전이 발생하고 있다. 본 연구에서는 이러한 문제를 해결하기 위해 모든 레이어의 매개변수를 단일 비트로 제한하는 새로운 유형의 신경망 모델인 이진 정규화 레이어(binary normalized layer)를 제안한다. 이 레이어는 커널 가중치와 바이어스를 포함한 모든 매개변수를 0 또는 1로 설정하여, 메모리 사용량을 획기적으로 줄이면서도 기존의 32비트 부동 소수점 매개변수를 사용하는 모델과 유사한 성능을 유지할 수 있도록 설계되었다.

이진 정규화 레이어는 완전 연결, 컨볼루션, 어텐션 등 다양한 신경망 아키텍처에 적용 가능하며, 훈련 과정에서 전체 정밀도 32비트 값과 이진화된 값의 두 가지 형태를 사용하여 안정적인 학습을 보장한다. 이 연구에서는 다중 클래스 이미지 분류와 언어 디코딩 문제를 해결하기 위해 이진 정규화 레이어를 활용한 두 가지 모델을 구성하였다. 실험 결과, 이 모델들은 기존의 32비트 매개변수를 사용하는 모델과 거의 동일한 성능을 보이며, 메모리 사용량은 32배 감소하였다.

이러한 혁신적인 접근 방식은 대규모 신경망 모델의 효율성을 크게 향상시킬 수 있는 잠재력을 지니고 있으며, 저렴한 하드웨어에서도 쉽게 구현할 수 있다는 장점을 갖고 있다. 이진 정규화 레이어를 통해 신경망 모델의 메모리 요구 사항을 줄이고, 다양한 응용 분야에서의 실용성을 높일 수 있는 새로운 가능성을 제시한다. 향후 연구는 이진 정규화 레이어의 성능을 더욱 향상시키고, 다양한 분야에 적용할 수 있는 방법론을 탐구하는 방향으로 진행될 예정이다.

논문 초록(Abstract)

다음은 AI/ML 분야의 논문 초록입니다. 대규모 신경망 모델, 특히 언어 모델과 파운데이션 이미지 모델의 크기가 증가함에 따라 배포에 대한 도전 과제가 발생하고 있으며, 이는 메모리 요구 사항을 줄이고 계산 효율성을 향상시키기 위한 노력을 촉발하고 있습니다. 이러한 노력은 다양한 응용 프로그램에서 이러한 모델의 실용적인 배포와 효과적인 활용을 보장하는 데 중요합니다. 본 연구에서는 단일 비트 매개변수만 사용하는 새로운 유형의 신경망 층과 모델을 개발하였습니다. 이 새로운 유형의 모델에서는 모든 층의 모든 매개변수, 즉 커널 가중치와 편향이 모두 0 또는 1의 값만을 가집니다. 이러한 새로운 유형의 모델은 이진 정규화 층(binary normalized layer)이라는 이름의 층을 사용합니다. 이진 정규화 층은 완전 연결층, 컨볼루션 층, 어텐션 층 등과 같은 모든 유형이 가능하며, 해당 전통적인 층의 약간의 변형으로 구성됩니다. 이진 정규화 층의 효과를 보여주기 위해, 다중 클래스 이미지 분류 문제를 해결하기 위한 두 가지 모델과 시퀀스의 다음 토큰을 예측하기 위한 언어 디코더가 구성되었습니다. 이미지 분류를 해결하기 위한 모델은 컨볼루션 층과 완전 연결층으로 구성되며, 언어 모델은 다중 헤드 어텐션을 가진 트랜스포머 블록으로 구성됩니다. 결과는 이진 정규화 층을 가진 모델이 실제 32비트 매개변수를 가진 동등한 모델에서 얻은 결과와 거의 동일함을 보여줍니다. 이진 정규화 층은 현재 모델보다 32배 적은 메모리를 사용하고 동등한 성능을 가진 모델을 개발할 수 있게 합니다. 또한, 이진 정규화 층은 1비트 배열을 사용하여 현재 컴퓨터에서 쉽게 구현할 수 있으며, 전용 전자 하드웨어 개발이 필요하지 않습니다. 이러한 새로운 유형의 층은 단순하고 저렴한 하드웨어, 즉 모바일 장치나 CPU만으로 배포할 수 있는 메모리 요구 사항이 줄어든 대규모 신경망 모델을 위한 새로운 시대를 열어줍니다.

The increasing size of large neural network models, specifically language models and foundational image models, poses deployment challenges, prompting efforts to reduce memory requirements and enhance computational efficiency. These efforts are critical to ensure practical deployment and effective utilization of these models across various applications. In this work, a novel type of neural network layers and models is developed that uses only single-bit parameters. In this novel type of models all parameters of all layers, including kernel weights and biases, only have values equal to zero or one. This novel type of models uses layers named as binary normalized layer. These binary normalized layers can be of any type, such as fully connected, convolutional, attention, etc., and they consist of slight variations of the corresponding conventional layers. To show the effectiveness of the binary normalized layers, two different models are configured to solve a multiclass image classification problem and a language decoder to predict the next token of a sequence. The model to solve the image classification has convolutional and fully connected layers, and the language model is composed of transformer blocks with multi-head attention. The results show that models with binary normalized layers present almost the same results obtained by equivalent models with real 32-bit parameters. The binary normalized layers allow to develop models that use 32 times less memory than current models and have equivalent performance. Besides, the binary normalized layers can be easily implemented on current computers using 1-bit arrays, and do not require the development of dedicated electronic hardware. This novel type of layers opens a new era for large neural network models with reduced memory requirements that can be deployed using simple and cheap hardware, such as mobile devices or only cpus.

논문 링크

https://arxiv.org/abs/2509.07025

언어 모델의 자기 일관성 내재화: 다중 에이전트 합의 정렬 / Internalizing Self-Consistency in Language Models: Multi-Agent Consensus Alignment

논문 소개

언어 모델(LM)은 동일한 프롬프트에 대해 모순된 응답을 생성하는 경향이 있어 일관성이 결여된 추론을 보입니다. 기존의 추론 시간 방법은 이러한 불일치를 완화할 수 있지만, 근본적인 문제인 일관된 결과를 이끌어내는 추론 경로 선택의 어려움을 해결하지는 못합니다. 이를 해결하기 위해, 본 연구에서는 자기 일관성을 잘 정렬된 추론 모델의 내재적 속성으로 형식화하고, 다중 에이전트 합의 정렬(Multi-Agent Consensus Alignment, MACA)이라는 강화학습 프레임워크를 도입합니다. MACA는 다수/소수 결과를 활용하여 모델이 내부 합의에 맞는 추론 경로를 선호하도록 사후 학습합니다. 이러한 경로는 에이전트 간의 심도 있는 논의에서 발생하며, 독립적인 시도의 집합이 아닌 동료 주장을 기반으로 한 추론을 통해 더 풍부한 합의 신호를 생성합니다. MACA는 에이전트가 외부 감독 없이도 더 결단력 있고 간결하게 스스로 학습하도록 하며, 다양한 자기 일관성, 단일 에이전트 추론, 샘플링 기반 추론, 다중 에이전트 집합 의사결정에서 상당한 개선을 이끌어냅니다. 이러한 결과는 보지 못한 벤치마크에 대한 강력한 일반화 능력과 함께 언어 모델의 잠재적 추론 능력을 보다 신뢰성 있게 이끌어내는 강력한 자기 정렬을 보여줍니다.

논문 초록(Abstract)

언어 모델(LLM)은 일관성이 결여된 추론자로, 동일한 프롬프트에 대해 종종 모순된 응답을 생성합니다. 추론 시간 방법이 이러한 불일치를 완화할 수 있지만, 핵심 문제를 해결하지는 못합니다: LLM은 탐색적 샘플링 하에서 일관된 결과로 이어지는 추론 경로를 신뢰성 있게 선택하는 데 어려움을 겪습니다. 이를 해결하기 위해, 우리는 자기 일관성을 잘 정렬된 추론 모델의 내재적 특성으로 형식화하고, 다중 에이전트 합의 정렬(Multi-Agent Consensus Alignment, MACA)을 도입합니다. MACA는 다중 에이전트 토론에서 다수/소수 결과를 사용하여 모델이 내부 합의와 일치하는 추론 경로를 선호하도록 사후 학습하는 강화학습 프레임워크입니다. 이러한 경로는 에이전트가 동료의 주장을 바탕으로 추론을 정립하는 심의적 교환에서 발생하며, 독립적인 시도의 집합이 아닌 풍부한 합의 신호를 생성하여 단일 라운드 다수결 투표보다 더 나은 결과를 도출합니다. MACA는 에이전트가 외부 감독 없이 다중 에이전트 환경에서 동료의 통찰력을 더 잘 활용하고, 더 결단력 있고 간결하게 스스로 가르칠 수 있도록 합니다. 이로 인해 자기 일관성(+27.6% on GSM8K), 단일 에이전트 추론(+23.7% on MATH), 샘플링 기반 추론(+22.4% Pass@20 on MATH), 다중 에이전트 앙상블 의사결정(+42.7% on MathQA)에서 상당한 개선을 이끌어냅니다. 이러한 발견은 보지 못한 벤치마크에 대한 강력한 일반화(+16.3% on GPQA, +11.6% on CommonsenseQA)와 결합되어, 언어 모델의 잠재적 추론 능력을 보다 신뢰성 있게 발휘할 수 있는 강력한 자기 정렬을 보여줍니다.

Language Models (LMs) are inconsistent reasoners, often generating contradictory responses to identical prompts. While inference-time methods can mitigate these inconsistencies, they fail to address the core problem: LMs struggle to reliably select reasoning pathways leading to consistent outcomes under exploratory sampling. To address this, we formalize self-consistency as an intrinsic property of well-aligned reasoning models and introduce Multi-Agent Consensus Alignment (MACA), a reinforcement learning framework that post-trains models to favor reasoning trajectories aligned with their internal consensus using majority/minority outcomes from multi-agent debate. These trajectories emerge from deliberative exchanges where agents ground reasoning in peer arguments, not just aggregation of independent attempts, creating richer consensus signals than single-round majority voting. MACA enables agents to teach themselves to be more decisive and concise, and better leverage peer insights in multi-agent settings without external supervision, driving substantial improvements across self-consistency (+27.6% on GSM8K), single-agent reasoning (+23.7% on MATH), sampling-based inference (+22.4% Pass@20 on MATH), and multi-agent ensemble decision-making (+42.7% on MathQA). These findings, coupled with strong generalization to unseen benchmarks (+16.3% on GPQA, +11.6% on CommonsenseQA), demonstrate robust self-alignment that more reliably unlocks latent reasoning potential of language models.

논문 링크

https://arxiv.org/abs/2509.15172

범용 심층 연구: 나만의 모델과 전략 가져오기 / Universal Deep Research: Bring Your Own Model and Strategy

논문 소개

Universal Deep Research (UDR)는 기존의 딥 리서치 도구들이 특정 연구 전략을 고정된 방식으로 수행하도록 하드코딩된 한계를 극복하기 위해 개발된 일반화된 에이전트 시스템이다. UDR은 사용자가 자신의 맞춤형 딥 리서치 전략을 생성, 편집 및 개선할 수 있는 기능을 제공하며, 이러한 과정에서 추가적인 학습이나 파인튜닝이 필요하지 않다는 점에서 혁신적이다. 이 시스템은 최소한의 연구 전략부터 시작하여, 광범위하고 집중적인 전략까지 다양한 예제를 통해 그 일반성을 입증한다.

UDR의 핵심은 사용자 인터페이스를 통해 실험을 용이하게 하여, 연구자들이 자신만의 연구 전략을 자유롭게 탐색할 수 있도록 지원하는 것이다. 이러한 접근 방식은 연구자들이 기존의 도구에 의존하지 않고도 자신만의 독창적인 방법론을 개발할 수 있는 기회를 제공한다. 특히, UDR은 다양한 언어 모델을 감싸고 있어, 사용자가 선호하는 모델을 선택하여 사용할 수 있는 유연성을 갖추고 있다.

이 연구는 딥 리서치 도구의 발전에 기여하며, 연구자들이 보다 창의적이고 개인화된 연구 전략을 수립할 수 있도록 하는 데 중점을 두고 있다. UDR의 도입은 연구의 효율성과 효과성을 높이는 데 중요한 역할을 할 것으로 기대된다. 이러한 점에서 UDR은 딥 리서치 분야에서의 새로운 가능성을 열어주는 혁신적인 시스템으로 자리매김할 것이다.

논문 초록(Abstract)

딥 리서치 도구는 오늘날 가장 영향력 있고 일반적으로 접할 수 있는 에이전트 시스템 중 하나입니다. 그러나 지금까지 소개된 각 딥 리서치 에이전트는 고정된 도구 선택을 사용하여 특정 연구 전략을 수행하도록 하드코딩되어 있다는 점을 관찰합니다. 우리는 모든 언어 모델을 감싸고 사용자가 추가적인 학습이나 파인튜닝 없이 자신만의 완전히 맞춤화된 딥 리서치 전략을 생성, 편집 및 개선할 수 있도록 하는 일반화된 에이전트 시스템인 유니버설 딥 리서치(Universal Deep Research, UDR)를 소개합니다. 시스템의 일반성을 보여주기 위해 UDR에 최소, 확장 및 집중 연구 전략의 예를 장착하고, 시스템과의 실험을 용이하게 하기 위한 사용자 인터페이스를 제공합니다.

Deep research tools are among the most impactful and most commonly encountered agentic systems today. We observe, however, that each deep research agent introduced so far is hard-coded to carry out a particular research strategy using a fixed choice of tools. We introduce Universal Deep Research (UDR), a generalist agentic system that wraps around any language model and enables the user to create, edit, and refine their own entirely custom deep research strategies without any need for additional training or finetuning. To showcase the generality of our system, we equip UDR with example minimal, expansive, and intensive research strategies, and provide a user interface to facilitate experimentation with the system.

논문 링크

https://arxiv.org/abs/2509.00244

알파에이전트: 대규모 언어 모델 기반의 다중 에이전트를 활용한 주식 포트폴리오 구성 / AlphaAgents: Large Language Model based Multi-Agents for Equity Portfolio Constructions

논문 소개

대규모 언어 모델(LLM)의 발전은 인공지능(AI) 에이전트의 효율성과 적응성을 극대화하는 데 기여하고 있으며, 이는 복잡한 문제 해결을 위한 다중 에이전트 협업의 가능성을 열어줍니다. 본 연구는 이러한 다중 에이전트 시스템을 활용하여 주식 선택 및 포트폴리오 관리에서의 역할 기반 접근 방식을 탐구합니다. 연구의 핵심 목표는 여러 AI 에이전트가 협력하여 주식 선택 성능을 평가하고, 이를 기존 벤치마크와 비교하는 것입니다.

다중 에이전트 시스템은 기본 분석, 감정 분석, 평가 등 각기 다른 전문 분야를 가진 에이전트들로 구성되어 있으며, 이들은 서로의 의견을 논의하여 최적의 포트폴리오를 구성합니다. 연구에서는 15개의 기술 주식을 무작위로 선택하여 백테스팅을 통해 성과를 평가하며, 위험 조정 수익과 샤프 비율을 기준으로 포트폴리오의 효과성을 분석합니다. 이러한 방법론은 다중 에이전트의 협력적 의사 결정 과정을 통해 보다 나은 투자 전략을 도출할 수 있는 가능성을 제시합니다.

본 연구는 다중 에이전트 시스템의 장점과 한계를 분석하며, AI 에이전트가 제공하는 다양한 관점을 통합하여 의사 결정을 개선하는 방법을 제안합니다. 그러나 이러한 시스템의 구현에는 인간 리뷰를 통한 논리적 일관성 검증과 같은 도전 과제가 존재합니다. 연구 결과는 다중 에이전트 시스템이 주식 포트폴리오 구성에서 혁신적인 접근 방식을 제공할 수 있음을 보여주며, 향후 연구에서는 LLM의 신뢰도에 따라 주식 가중치를 조정하는 기능을 탐구할 계획입니다.

이러한 연구는 AI 기반의 투자 전략 개발에 기여하며, 다중 에이전트 시스템의 활용 가능성을 제시합니다.

논문 초록(Abstract)

인공지능(AI) 에이전트 분야는 대규모 언어 모델(LLM)의 능력에 의해 빠르게 발전하고 있으며, 이들은 인간과 유사한 효율성과 적응성으로 작업을 자율적으로 수행하고 개선할 수 있습니다. 이러한 맥락에서 다중 에이전트 협업은 여러 AI 에이전트가 함께 복잡한 문제를 해결할 수 있도록 하는 유망한 접근 방식으로 떠오르고 있습니다. 본 연구에서는 주식 선택을 지원하기 위해 역할 기반 다중 에이전트 시스템의 적용을 조사합니다. 우리는 전문 에이전트 팀이 수행한 포괄적인 분석을 제시하고, 다양한 위험 감수 수준에서 기존 벤치마크와 비교하여 이들의 주식 선택 성과를 평가합니다. 또한, 주식 분석에서 다중 에이전트 프레임워크를 활용할 때의 장점과 한계를 검토하며, 이들의 실용적 효능과 구현 과제에 대한 중요한 통찰을 제공합니다.

The field of artificial intelligence (AI) agents is evolving rapidly, driven by the capabilities of Large Language Models (LLMs) to autonomously perform and refine tasks with human-like efficiency and adaptability. In this context, multi-agent collaboration has emerged as a promising approach, enabling multiple AI agents to work together to solve complex challenges. This study investigates the application of role-based multi-agent systems to support stock selection in equity research and portfolio management. We present a comprehensive analysis performed by a team of specialized agents and evaluate their stock-picking performance against established benchmarks under varying levels of risk tolerance. Furthermore, we examine the advantages and limitations of employing multi-agent frameworks in equity analysis, offering critical insights into their practical efficacy and implementation challenges.

논문 링크

https://arxiv.org/abs/2508.11152

대규모 추론 모델을 위한 강화학습 서베이 / A Survey of Reinforcement Learning for Large Reasoning Models

논문 소개

강화학습(Reinforcement Learning, RL)은 대규모 언어 모델(Large Language Models, LLMs)의 추론 능력을 향상시키는 데 중요한 역할을 하고 있으며, 이 논문에서는 RL을 통해 대규모 추론 모델(Large Reasoning Models, LRM)로의 발전을 조망한다. RL은 수학적 문제 해결과 코딩 작업과 같은 복잡한 논리적 작업에서 두드러진 성과를 보이며, LLM을 LRM으로 변환하는 기초적인 방법론으로 자리 잡았다. 그러나 LRM을 위한 RL의 확장은 계산 자원, 알고리즘 설계, 학습 데이터 및 인프라 측면에서 여러 도전에 직면해 있다.

이 연구는 RL을 LLM과 LRM의 추론 능력 향상에 적용한 다양한 연구를 검토하며, 특히 DeepSeek-R1 모델을 포함한 최근의 발전을 중심으로 보상 설계, 정책 최적화, 샘플링 전략과 같은 RL의 기초 구성 요소를 분석한다. 보상 설계는 모델의 학습 방향을 결정하는 중요한 신호로, 검증 가능한 보상 메커니즘의 중요성이 강조된다. 정책 최적화는 모델이 최적의 행동을 선택하도록 학습하는 과정으로, 비평가 기반 알고리즘과 비평가 없는 알고리즘이 포함된다. 또한, 샘플링 전략은 RL의 효율성을 높이는 방법으로, 동적 샘플링과 하이퍼파라미터 조정이 논의된다.

이 논문은 RL을 통한 LLM의 통합 훈련 프로세스와 훈련 자원의 품질 및 구조에 대한 중요성을 강조하며, 소프트웨어 공학 및 로봇 작업에서의 RL의 적용 사례를 통해 RL의 실용성을 보여준다. 특히, RL과 에이전트 패러다임의 통합은 코드 생성의 발전을 이끌고 있으며, 다중 모달 작업에서도 성공적인 결과를 도출하고 있다. 이러한 연구는 LLM의 추론 능력을 향상시키기 위한 새로운 방향을 제시하며, 궁극적으로 초지능(Artificial SuperIntelligence, ASI) 달성을 위한 기초를 마련하는 데 기여할 것으로 기대된다.

논문 초록(Abstract)

이 논문에서는 대규모 언어 모델(LLM)과의 추론을 위한 강화학습(RL)의 최근 발전을 조사합니다. RL은 수학 및 코딩과 같은 복잡한 논리적 작업을 해결하는 데 특히 LLM의 능력을 향상시키는 데 있어 놀라운 성공을 거두었습니다. 그 결과, RL은 LLM을 대규모 언어 모델(LRM)로 변환하는 데 있어 기초적인 방법론으로 자리 잡았습니다. 이 분야의 빠른 발전으로 인해 LRM을 위한 RL의 추가 확장은 계산 자원뿐만 아니라 알고리즘 설계, 학습 데이터 및 인프라 측면에서 기초적인 도전에 직면해 있습니다. 이를 위해 이 분야의 발전을 재조명하고, 그 경로를 재평가하며, 인공지능 초지능(ASI)을 향한 RL의 확장성을 향상시키기 위한 전략을 탐색하는 것이 시의적절합니다. 특히, 우리는 DeepSeek-R1의 출시 이후 LLM 및 LRM에 대한 추론 능력을 위한 RL 적용 연구를 검토하며, 기초 구성 요소, 핵심 문제, 학습 자원 및 하위 응용 프로그램을 포함하여 이 빠르게 발전하는 분야의 미래 기회와 방향을 식별하고자 합니다. 우리는 이 리뷰가 보다 넓은 추론 모델을 위한 RL에 대한 미래 연구를 촉진하기를 희망합니다. GitHub: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs

In this paper, we survey recent advances in Reinforcement Learning (RL) for reasoning with Large Language Models (LLMs). RL has achieved remarkable success in advancing the frontier of LLM capabilities, particularly in addressing complex logical tasks such as mathematics and coding. As a result, RL has emerged as a foundational methodology for transforming LLMs into LRMs. With the rapid progress of the field, further scaling of RL for LRMs now faces foundational challenges not only in computational resources but also in algorithm design, training data, and infrastructure. To this end, it is timely to revisit the development of this domain, reassess its trajectory, and explore strategies to enhance the scalability of RL toward Artificial SuperIntelligence (ASI). In particular, we examine research applying RL to LLMs and LRMs for reasoning abilities, especially since the release of DeepSeek-R1, including foundational components, core problems, training resources, and downstream applications, to identify future opportunities and directions for this rapidly evolving area. We hope this review will promote future research on RL for broader reasoning models. Github: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs

논문 링크

https://arxiv.org/abs/2509.08827

더 읽어보기

https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs

⚠️광고⚠️: 🔥파이토치 한국 사용자 모임🇰🇷이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일💌로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)