ML 논문 모음

(discuss.pytorch.kr)

11P by ninebow 2달전 | ★ favorite | 댓글과 토론

[2025/09/01 ~ 07] 이번 주에 살펴볼 만한 AI/ML 논문 모음

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ 대규모 언어 모델의 한계와 제어: 여러 논문에서 대규모 언어 모델(LLM)의 한계와 이를 제어하는 방법에 대한 논의가 이루어졌습니다. 특히, "On the Fundamental Impossibility of Hallucination Control in Large Language Models"에서는 LLM이 진실한 지식 표현과 정보 보존을 동시에 달성할 수 없다는 이론적 불가능성을 제시하며, 환각과 창의성의 수학적 동일성을 강조했습니다. 이는 AI 시스템에서 이러한 행동을 관리하기 위한 기초를 제공합니다.

2️⃣ 효율적인 학습 및 최적화 기법: "Fantastic Pretraining Optimizers and Where to Find Them"과 "Communication Efficient LLM Pre-training with SparseLoCo"와 같은 논문들은 LLM의 학습 과정에서의 효율성을 높이기 위한 새로운 최적화 기법을 탐구하고 있습니다. 특히, SparseLoCo는 통신 효율성을 높이기 위해 희소화 및 양자화를 활용하여 성능과 통신 비용 모두에서 개선된 결과를 보여주었습니다.

3️⃣ 다중 에이전트 시스템의 협업 및 메모리 개선: "Anemoi: A Semi-Centralized Multi-agent Systems Based on Agent-to-Agent Communication MCP server from Coral Protocol"와 "Memp: Exploring Agent Procedural Memory"에서는 다중 에이전트 시스템의 협업 방식과 에이전트의 절차적 메모리를 개선하기 위한 접근법이 제안되었습니다. Anemoi는 에이전트 간의 직접적인 협업을 통해 성능을 향상시키고, Memp는 에이전트가 학습 가능한 절차적 메모리를 갖도록 하여 지속적인 업데이트와 개선을 가능하게 합니다.

대규모 언어 모델에서 환각 제어의 근본적 불가능성에 관한 연구 / On the Fundamental Impossibility of Hallucination Control in Large Language Models

논문 소개

대형 언어 모델(LLM)의 환각 문제는 인공지능 시스템의 신뢰성과 정확성에 중대한 영향을 미치는 주제로, 이 연구는 이러한 문제의 근본적인 불가능성을 수학적으로 규명하고자 하였다. 저자들은 비트 정보의 집합을 경매의 아이디어로 설명하며, 여러 구성 요소가 자신의 부분 지식을 활용하여 응답을 형성하는 과정을 분석하였다. 이 연구는 메커니즘 설계 이론, 적절한 점수 규칙 이론, 그리고 변환기 아키텍처의 직접적인 분석을 포함한 세 가지 독립적인 수학적 영역을 통해 환각과 창의성의 수학적 기초를 제공한다. 특히, 저자들은 과신이나 직관적인 응답의 생성을 정량화하는 방법을 제시하며, 이는 환각과 창의성 모두의 특징으로 나타난다.

또한, 연구에서는 의미 정보 측정과 출현 연산자라는 개념을 도입하여 제한된 추론을 모델링하고, 제한된 추론이 접근 가능한 정보를 생성하는 반면, 이상적인 무제한 추론은 의미 내용을 엄격하게 보존한다는 점을 강조한다. 이러한 분석을 통해 저자들은 환각과 상상력이 진실성, 의미 정보 보존, 관련 지식의 공개, 지식 제약 최적성의 이탈에서 기인하는 수학적으로 동일한 현상임을 입증하였다. 이 연구는 AI 시스템의 설계 및 평가에 중요한 영향을 미칠 수 있는 이론적 기초를 제공하며, 향후 연구 방향에 대한 통찰을 제시한다. 이러한 기여는 정보 이론과 AI의 교차점에서 새로운 질문을 제기하고, 정보의 본질에 대한 이해를 심화시키는 데 기여할 것으로 기대된다.

논문 초록(Abstract)

이 논문은 기본적인 불가능성 정리를 확립합니다: 비트리비얼(non-trivial) 지식 집합을 수행할 수 있는 LLM은 진실한 지식 표현, 의미 정보 보존, 관련 지식의 완전한 공개, 그리고 지식 제약 최적성을 동시에 달성할 수 없습니다. 이 불가능성은 공학적 한계가 아니라 정보 집합의 수학적 구조에서 발생합니다. 우리는 추론 과정을 아이디어의 경매로 설명함으로써 이 결과를 확립하며, 여기서 분산된 구성 요소들이 부분 지식을 활용하여 응답을 형성하기 위해 경쟁합니다. 증명은 세 가지 독립적인 수학적 영역에 걸쳐 있습니다: 메커니즘 설계 이론(그린-라폰), 적절한 점수 규칙 이론(세비지), 그리고 트랜스포머의 직접적인 구조 분석(로그-합-지수 볼록성). 특히, 우리는 과신(overconfidence) 또는 직관적인 응답의 생성을 정량화하는 방법을 보여주며, 이는 환각(hallucination)과 창의성(creativity) 또는 상상의 특징입니다. 이 분석을 지원하기 위해, 우리는 일반적인 환경에서 제한된 추론을 모델링하기 위한 의미 정보 측정 및 출현 연산자의 보완 개념을 도입합니다. 우리는 제한된 추론이 접근 가능한 정보를 생성하는 반면, 가치 있는 통찰력과 영감을 제공하지만 이상화된 제약 없는 추론은 의미 내용을 엄격히 보존한다는 것을 증명합니다. 환각과 상상이 진실성, 의미 정보 보존, 관련 지식의 공개, 그리고 지식 제약 최적성에서의 이탈에 기초한 수학적으로 동일한 현상임을 보여줌으로써, 우리는 고급 AI 시스템에서 이러한 행동을 관리하기 위한 원칙적인 기초를 제공합니다. 마지막으로, 우리는 제안된 이론의 평가 및 개선을 위한 몇 가지 추측적인 아이디어를 제시합니다.

This paper establishes a fundamental impossibility theorem: no LLM capable of performing non-trivial knowledge aggregation can simultaneously achieve truthful knowledge representation, semantic information conservation, complete revelation of relevant knowledge, and knowledge-constrained optimality. The impossibility is not an engineering limitation but arises from the mathematical structure of information aggregation itself. We establish this result by describing the inference process as an auction of ideas, where distributed components compete exploiting their partial knowledge to shape responses. The proof spans three independent mathematical domains: mechanism design theory (Green-Laffont), the theory of proper scoring rules (Savage), and direct architectural analysis of transformers (Log-Sum-Exp convexity). In particular, we show how to quantify the creation of overconfident or intuitive responses-the signature of both hallucination and creativity, or imagination. To support this analysis, we introduce the complementary concepts of the semantic information measure and the emergence operator to model bounded reasoning in a general setting. We prove that while bounded reasoning generates accessible information, providing valuable insights and inspirations, the idealized unconstrained reasoning strictly preserves semantic content. By demonstrating that hallucination and imagination are mathematically identical phenomena-grounded in departures from truthfulness, semantic information conservation, revelation of relevant knowledge, and knowledge-constrained optimality-we offer a principled foundation for managing these behaviors in advanced AI systems. Finally, we present some speculative ideas to inspire evaluation and refinements of the proposed theory.

논문 링크

https://arxiv.org/abs/2506.06382

환상적인 사전학습 옵티마이저와 그 발견 방법 / Fantastic Pretraining Optimizers and Where to Find Them

논문 소개

사전학습 옵티마이저는 대규모 언어 모델 훈련에서 중요한 역할을 하며, 특히 AdamW는 오랜 기간 동안 표준으로 자리잡아왔습니다. 그러나 최근 연구들은 대안 옵티마이저들이 1.4배에서 2배의 속도 향상을 주장하고 있지만, 이러한 주장이 실제로는 과장된 것임을 보여주고 있습니다. 본 연구에서는 이러한 주장을 뒷받침하는 두 가지 주요 문제를 지적합니다. 첫째, 하이퍼파라미터 조정이 불균형하게 이루어질 수 있으며, 둘째, 평가 설정이 제한적이거나 오해를 불러일으킬 수 있다는 점입니다. 이를 해결하기 위해, 저자들은 10개의 딥러닝 옵티마이저를 다양한 모델 스케일과 데이터-모델 비율에서 체계적으로 비교하였습니다.

연구의 핵심 방법론은 하이퍼파라미터 조정 프레임워크를 세 가지 단계로 나누어 설명하는 것입니다. 첫 번째 단계에서는 각 옵티마이저의 하이퍼파라미터를 세밀하게 조정하여 최적의 성능을 도출합니다. 두 번째 단계에서는 메모리 요구량을 줄이기 위해 하이퍼파라미터의 조정이 필요한 부분만을 선택하여 최적화합니다. 마지막으로, 세 번째 단계에서는 모델 크기와 데이터 예산에 따라 하이퍼파라미터의 최적 값을 예측하는 스케일링 법칙을 적용합니다. 이러한 방법론은 옵티마이저 간의 공정하고 재현 가능한 비교를 보장하며, 연구 결과는 매트릭스 기반 옵티마이저가 스칼라 기반 옵티마이저보다 일관되게 더 나은 성능을 보인다는 점을 강조합니다.

이 연구는 하이퍼파라미터 조정의 중요성과 다양한 모델 스케일 및 데이터-모델 비율에서의 평가 필요성을 강조하며, 최적의 하이퍼파라미터가 다른 옵티마이저에 대해 비최적일 수 있음을 보여줍니다. 이러한 발견은 향후 옵티마이저 설계와 평가에 대한 기준을 설정하는 데 중요한 기여를 할 것입니다.

논문 초록(Abstract)

아담W(AdamW)는 수많은 대안 옵티마이저가 1.4배에서 2배의 속도 향상을 제공한다고 주장함에도 불구하고, 언어 모델 사전학습에서 오랫동안 지배적인 옵티마이저로 자리잡아 왔습니다. 우리는 두 가지 방법론적 단점이 공정한 비교를 가로막고 실용적인 채택을 저해했다고 주장합니다: (i) 불균형한 하이퍼파라미터 튜닝과 (ii) 제한적이거나 오해의 소지가 있는 평가 설정입니다. 이 두 가지 문제를 해결하기 위해, 우리는 네 가지 모델 규모(0.1B-1.2B 파라미터)와 데이터-모델 비율(Chinchilla 최적값의 1-8배)에서 열 개의 딥 러닝 옵티마이저에 대한 체계적인 연구를 수행합니다. 우리는 공정하고 유익한 비교를 위해서는 엄격한 하이퍼파라미터 튜닝과 다양한 모델 규모 및 데이터-모델 비율에 걸친 평가가 필요하며, 이는 학습 종료 시점에 수행되어야 한다는 것을 발견했습니다. 첫째, 하나의 옵티마이저에 최적화된 하이퍼파라미터가 다른 옵티마이저에는 비최적일 수 있어, 맹목적인 하이퍼파라미터 전이는 공정하지 않습니다. 둘째, 많은 제안된 옵티마이저의 실제 속도 향상은 잘 튜닝된 기준선에 비해 주장된 것보다 낮으며, 모델 크기가 커짐에 따라 1.2B 파라미터 모델에서는 단지 1.1배로 감소합니다. 셋째, 목표 학습 예산에 도달하기 전에 중간 체크포인트를 비교하는 것은 오해를 불러일으킬 수 있으며, 학습률 감소로 인해 두 옵티마이저 간의 순위가 학습 중에 뒤바뀔 수 있습니다. 우리의 철저한 조사 결과, Muon과 Soap과 같은 모든 가장 빠른 옵티마이저는 행렬을 전처리기로 사용하여 그래디언트를 항목별 스칼라가 아닌 행렬로 곱하는 것을 발견했습니다. 그러나 행렬 기반 옵티마이저의 속도 향상은 모델 규모에 반비례하며, 0.1B 파라미터 모델에서는 아담W에 비해 1.4배에서 1.2B 파라미터 모델에서는 단지 1.1배로 감소합니다.

AdamW has long been the dominant optimizer in language model pretraining, despite numerous claims that alternative optimizers offer 1.4 to 2x speedup. We posit that two methodological shortcomings have obscured fair comparisons and hindered practical adoption: (i) unequal hyperparameter tuning and (ii) limited or misleading evaluation setups. To address these two issues, we conduct a systematic study of ten deep learning optimizers across four model scales (0.1B-1.2B parameters) and data-to-model ratios (1-8x the Chinchilla optimum). We find that fair and informative comparisons require rigorous hyperparameter tuning and evaluations across a range of model scales and data-to-model ratios, performed at the end of training. First, optimal hyperparameters for one optimizer may be suboptimal for another, making blind hyperparameter transfer unfair. Second, the actual speedup of many proposed optimizers over well-tuned baselines is lower than claimed and decreases with model size to only 1.1x for 1.2B parameter models. Thirdly, comparing intermediate checkpoints before reaching the target training budgets can be misleading, as rankings between two optimizers can flip during training due to learning rate decay. Through our thorough investigation, we find that all the fastest optimizers such as Muon and Soap, use matrices as preconditioners -- multiplying gradients with matrices rather than entry-wise scalars. However, the speedup of matrix-based optimizers is inversely proportional to model scale, decreasing from 1.4x over AdamW for 0.1B parameter models to merely 1.1x for 1.2B parameter models.

논문 링크

https://arxiv.org/abs/2509.02046

더 읽어보기

https://wandb.ai/marin-community/optimizer-scaling

아네모이: 에이전트 간 통신 기반의 반중앙화 다중 에이전트 시스템 MCP 서버 / Anemoi: A Semi-Centralized Multi-agent Systems Based on Agent-to-Agent Communication MCP server from Coral Protocol

논문 소개

Anemoi는 Coral Protocol의 A2A(Agent-to-Agent) 통신 모델을 기반으로 한 반중앙화 다중 에이전트 시스템(Multi-Agent System, MAS)으로, 에이전트 간의 직접적인 협력을 통해 효율적인 작업 조정을 가능하게 합니다. 기존의 중앙 집중식 MAS는 계획 에이전트가 여러 작업 에이전트를 단방향으로 조정하는 방식으로, 이로 인해 계획자의 능력에 대한 의존성과 제한된 에이전트 간 통신으로 인한 정보 손실 및 중복성이 발생하는 문제점이 있었습니다. Anemoi는 이러한 문제를 해결하기 위해 설계되었으며, 모든 에이전트가 실시간으로 진행 상황을 모니터링하고 병목 현상을 식별하며 개선안을 제안할 수 있는 구조를 제공합니다.

Anemoi의 핵심은 Coral Protocol의 A2A 통신 MCP(Multi-Agent Communication Protocol) 서버를 활용하여 에이전트 간의 원활한 정보 흐름을 지원하는 것입니다. 이 시스템은 계획자 에이전트와 여러 도메인 전문화 작업 에이전트를 결합하여, 초기 계획을 제공하고 작업자들이 직접 조정할 수 있도록 합니다. 이로 인해 중앙 집중식 계획자에 대한 의존도가 줄어들고, 적응형 계획 업데이트가 가능해지며, 중복된 컨텍스트 전달이 최소화되어 비용 효율적인 실행이 이루어집니다.

Anemoi는 GAIA 벤치마크에서 평가되었으며, 작은 LLM(GPT-4.1-mini)을 계획자로 사용하여 52.73%의 정확도를 달성했습니다. 이는 동일한 설정 하에서 가장 강력한 오픈 소스 기준인 OWL의 43.63%를 9.09% 초과하는 성과입니다. 이러한 결과는 Anemoi의 반중앙화 A2A 통신 모델이 다중 에이전트 시스템의 성능을 향상시키는 데 기여할 수 있음을 보여줍니다.

이 연구는 에이전트 간의 직접적인 협력과 정보 흐름의 개선을 통해 다중 에이전트 시스템의 새로운 가능성을 열어주며, 향후 일반화된 AI 시스템의 발전에 중요한 기여를 할 것으로 기대됩니다. Anemoi의 구현은 GitHub에서 공개되어 있으며, 연구자들이 이 시스템을 활용하여 다양한 응용 프로그램을 개발할 수 있는 기회를 제공합니다.

논문 초록(Abstract)

최근 일반화된 다중 에이전트 시스템(MAS)에서의 발전은 주로 맥락 엔지니어링과 중앙 집중식 패러다임을 따랐으며, 여기서 계획 에이전트가 단방향 프롬프트 전달을 통해 여러 작업 에이전트를 조정합니다. 강력한 계획자 모델 하에서는 효과적이지만, 이 설계는 두 가지 중요한 한계점이 있습니다: (1) 계획자의 능력에 대한 강한 의존성으로 인해, 작은 LLM이 계획자를 지원할 경우 성능이 저하됩니다; (2) 제한된 에이전트 간 통신으로 인해 협업이 비용이 많이 드는 프롬프트 연결 및 맥락 주입에 의존하게 되어 중복성과 정보 손실이 발생합니다. 이러한 문제를 해결하기 위해, 우리는 Coral Protocol의 에이전트 간(A2A) 통신 MCP 서버를 기반으로 한 반중앙 집중식 MAS인 Anemoi를 제안합니다. 전통적인 설계와 달리, Anemoi는 구조화되고 직접적인 에이전트 간 협업을 가능하게 하여 모든 에이전트가 진행 상황을 모니터링하고, 결과를 평가하며, 병목 현상을 식별하고, 실시간으로 개선 사항을 제안할 수 있도록 합니다. 이 패러다임은 단일 계획자에 대한 의존성을 줄이고, 적응형 계획 업데이트를 지원하며, 중복된 맥락 전달을 최소화하여 보다 확장 가능하고 비용 효율적인 실행을 가능하게 합니다. GAIA 벤치마크에서 평가한 결과, Anemoi는 작은 LLM(GPT-4.1-mini)을 계획자로 사용하여 52.73%의 정확도를 달성하였으며, 동일한 LLM 설정 하에서 가장 강력한 오픈 소스 기준인 OWL(43.63%)을 +9.09% 초과했습니다. 우리의 구현은 https://github.com/Coral-Protocol/Anemoi에서 공개적으로 이용 가능합니다.

Recent advances in generalist multi-agent systems (MAS) have largely followed a context-engineering plus centralized paradigm, where a planner agent coordinates multiple worker agents through unidirectional prompt passing. While effective under strong planner models, this design suffers from two critical limitations: (1) strong dependency on the planner's capability, which leads to degraded performance when a smaller LLM powers the planner; and (2) limited inter-agent communication, where collaboration relies on costly prompt concatenation and context injection, introducing redundancy and information loss. To address these challenges, we propose Anemoi, a semi-centralized MAS built on the Agent-to-Agent (A2A) communication MCP server from Coral Protocol. Unlike traditional designs, Anemoi enables structured and direct inter-agent collaboration, allowing all agents to monitor progress, assess results, identify bottlenecks, and propose refinements in real time. This paradigm reduces reliance on a single planner, supports adaptive plan updates, and minimizes redundant context passing, resulting in more scalable and cost-efficient execution. Evaluated on the GAIA benchmark, Anemoi achieved 52.73% accuracy with a small LLM (GPT-4.1-mini) as the planner, surpassing the strongest open-source baseline OWL (43.63%) by +9.09% under identical LLM settings. Our implementation is publicly available at https://github.com/Coral-Protocol/Anemoi.

논문 링크

https://arxiv.org/abs/2508.17068

더 읽어보기

https://github.com/Coral-Protocol/Anemoi

통신 효율적인 LLM 사전 학습을 위한 SparseLoCo / Communication Efficient LLM Pre-training with SparseLoCo

논문 소개

대규모 언어 모델(LLM)의 사전학습 과정에서 통신 효율성을 높이는 것은 매우 중요한 연구 주제이다. 최근의 분산 학습 알고리즘은 데이터 센터 간 또는 인터넷을 통한 대역폭 제한 환경에서 LLM을 훈련하는 데 유용하다는 점에서 큰 관심을 받고 있다. 그러나 기존의 방법들은 여전히 모델의 그래디언트 전체를 전송해야 하며, 이로 인해 통신 병목 현상이 발생하고 성능 저하를 초래할 수 있다. 이러한 문제를 해결하기 위해 제안된 SparseLoCo는 통신 효율적인 학습 알고리즘으로, Top-k 희소화와 2비트 양자화를 활용하여 극단적인 압축 비율을 달성하면서도 성능을 개선할 수 있는 방법을 제시한다.

SparseLoCo의 핵심 혁신은 외부 모멘텀을 오류 피드백과 공격적인 희소화를 결합하여 근사하는 것이다. 이를 통해 모델의 성능을 향상시키는 동시에 통신 비용을 줄일 수 있다. 연구 결과, SparseLoCo는 다양한 통신 제약 환경에서 성능과 통신 비용 모두에서 유의미한 이점을 제공함을 실증적으로 보여준다. 특히, 1-3%의 희소성과 2비트 양자화를 통해 기존의 DDP(Distributed Data Parallel) 방식보다 통신 비용을 현저히 줄이면서도 성능을 유지하거나 개선하는 결과를 나타냈다.

이 연구는 LLM의 사전학습에서 통신 효율성을 높이는 새로운 방법을 제시하며, 향후 더 많은 실험과 최적화를 통해 SparseLoCo의 발전 가능성을 제시한다. SparseLoCo는 대규모 모델 훈련의 효율성을 높이는 데 중요한 기여를 할 것으로 기대되며, 이는 LLM 연구 및 개발의 새로운 방향성을 제시하는 데 기여할 것이다.

논문 초록(Abstract)

통신 효율적인 분산 학습 알고리즘은 데이터 센터 간 및 인터넷을 통한 대역폭 제약 환경에서 대규모 언어 모델(LLM) 학습에 대한 이점으로 인해 최근 상당한 관심을 받고 있습니다. 이러한 방법은 통신 빈도를 줄이지만, 여전히 모델의 그래디언트 전체 복사본을 통신해야 하므로 교차 데이터 센터 링크에서도 통신 병목 현상이 발생합니다. 또한, 이러한 방법은 일반적인 AdamW DDP 기준선에 비해 성능이 약간 저하될 수 있습니다. 양자화 및 오류 피드백은 종종 의사 그래디언트의 크기를 줄이기 위해 적용되지만, LLM 사전 학습의 맥락에서 기존 접근 방식은 희소화를 추가로 활용하지 못하고 제한된 양자화를 달성했습니다. 본 연구에서는 Top-k 희소화와 양자화를 효과적으로 활용하여 1-3% 희소성과 2비트 양자화의 극단적인 압축 비율에 도달하면서도 전체 정밀도 DiLoCo보다 우수한 성능을 발휘하는 LLM을 위한 통신 효율적인 학습 알고리즘인 SparseLoCo를 소개합니다. 우리의 주요 관찰 결과는 외부 모멘텀을 공격적인 희소성과 결합된 오류 피드백으로 지역적으로 근사할 수 있으며, 희소 집계가 실제로 모델 성능을 향상시킬 수 있다는 것입니다. 우리는 다양한 통신 제약 LLM 학습 환경에서 SparseLoCo가 성능과 통신 비용 모두에서 상당한 이점을 제공함을 경험적으로 입증합니다.

Communication-efficient distributed training algorithms have received considerable interest recently due to their benefits for training Large Language Models (LLMs) in bandwidth-constrained settings, such as across data centers and over the internet. Despite reducing communication frequency, these methods still typically require communicating a full copy of the model's gradients-resulting in a communication bottleneck even for cross-datacenter links. Furthermore, they can slightly degrade performance compared to a naive AdamW DDP baseline. While quantization and error feedback are often applied to reduce the pseudo-gradient's size, in the context of LLM pre-training, existing approaches have been unable to additionally leverage sparsification and have obtained limited quantization. In this work, we introduce SparseLoCo, a communication-efficient training algorithm for LLMs that effectively leverages Top-k sparsification and quantization to reach extreme compression ratios of up to 1-3% sparsity and 2-bit quantization while outperforming full-precision DiLoCo. Our key observations are that outer momentum can be locally approximated by an error feedback combined with aggressive sparsity and that sparse aggregation can actually improve model performance. We empirically demonstrate in a range of communication-constrained LLM training settings that SparseLoCo provides significant benefits in both performance and communication cost.

논문 링크

https://arxiv.org/abs/2508.15706

예산 제약 하의 적응형 LLM 라우팅 / Adaptive LLM Routing under Budget Constraints

논문 소개

대형 언어 모델(LLM)의 발전은 자연어 처리 분야에 혁신을 가져왔지만, 이러한 모델의 높은 비용과 다양한 쿼리 유형에 대한 적절한 대응은 여전히 도전 과제로 남아 있다. 본 연구에서는 LLM 라우팅 문제를 맥락적 밴딧 문제로 재구성하여, 예산 제약 하에서 최적의 LLM을 선택하는 새로운 알고리즘인 Preference-prior Informed LinUCB for Adaptive Routing(PILOT)을 제안한다. 기존의 감독 학습 접근 방식은 대규모 레이블 데이터셋을 요구하는 한계가 있으며, 본 연구는 이러한 한계를 극복하기 위해 사용자 피드백을 통해 LLM의 선택을 동적으로 조정하는 방법론을 개발하였다.

PILOT는 두 가지 주요 단계로 구성된다. 첫 번째 단계에서는 오프라인 인간 선호 데이터를 활용하여 쿼리와 LLM 간의 친화성을 반영하는 공유 임베딩 공간을 구축한다. 이 과정에서 triplet loss를 최소화하여 쿼리와 LLM의 관계를 효과적으로 학습한다. 두 번째 단계에서는 온라인 밴딧 피드백을 통합하여, 각 쿼리에 대해 적절한 LLM을 선택하고 그에 대한 보상을 관찰함으로써 성능을 지속적으로 개선한다. 이러한 접근 방식은 예산을 고려한 유연한 자원 할당을 가능하게 하며, 다양한 사용자 요구에 적응할 수 있는 능력을 갖추고 있다.

본 연구의 주요 기여는 예산 제약을 고려한 LLM 라우팅 문제의 공식화와, 이를 해결하기 위한 PILOT 알고리즘의 제안이다. 실험 결과, PILOT는 다양한 데이터셋에서 기존의 밴딧 기준선보다 우수한 성능을 발휘하며, 비용 효율성을 극대화하는 데 성공하였다. 이러한 연구 결과는 LLM의 실용적인 배포와 활용에 있어 중요한 기여를 하며, 향후 연구 방향으로는 다양한 사용자 요구에 대한 적응력 향상과 더 많은 데이터셋에 대한 적용 가능성을 제안한다.

논문 초록(Abstract)

대규모 언어 모델(LLM)은 자연어 처리에 혁신을 가져왔지만, 그들의 다양한 능력과 비용은 실제 응용에서 도전 과제가 됩니다. LLM 라우팅은 각 쿼리/작업에 가장 적합한 LLM을 동적으로 선택함으로써 이를 해결합니다. 이전 접근 방식은 최적의 쿼리-LLM 쌍에 대한 완전한 지식을 가정하며 이를 감독 학습 문제로 다루었습니다. 그러나 실제 시나리오에서는 이러한 포괄적인 매핑이 부족하고 진화하는 사용자 쿼리에 직면합니다. 따라서 우리는 LLM 라우팅을 맥락적 밴딧 문제로 연구할 것을 제안하며, 이는 감독 라우팅과 달리 모든 쿼리에 대해 모든 LLM에 대한 포괄적인 추론을 요구하지 않고 밴딧 피드백을 사용하여 적응형 의사 결정을 가능하게 합니다. 이 문제를 해결하기 위해 쿼리와 LLM의 친화성을 반영하도록 정렬된 쿼리 및 LLM 임베딩을 위한 공유 임베딩 공간을 개발합니다. 이 공간은 처음에 오프라인 인간 선호 데이터로부터 학습되며, 온라인 밴딧 피드백을 통해 개선됩니다. 우리는 이 아이디어를 적응형 라우팅을 위한 Preference-prior Informed Linucb fOr adaptive rouTing (PILOT)라는 LinUCB의 새로운 확장을 통해 구체화합니다. 모델 라우팅을 위한 다양한 사용자 예산을 처리하기 위해, 우리는 자원 효율적인 라우팅을 보장하는 다중 선택 배낭 문제로 모델링된 온라인 비용 정책을 도입합니다.

Large Language Models (LLMs) have revolutionized natural language processing, but their varying capabilities and costs pose challenges in practical applications. LLM routing addresses this by dynamically selecting the most suitable LLM for each query/task. Previous approaches treat this as a supervised learning problem, assuming complete knowledge of optimal query-LLM pairings. However, real-world scenarios lack such comprehensive mappings and face evolving user queries. We thus propose to study LLM routing as a contextual bandit problem, enabling adaptive decision-making using bandit feedback without requiring exhaustive inference across all LLMs for all queries (in contrast to supervised routing). To address this problem, we develop a shared embedding space for queries and LLMs, where query and LLM embeddings are aligned to reflect their affinity. This space is initially learned from offline human preference data and refined through online bandit feedback. We instantiate this idea through Preference-prior Informed Linucb fOr adaptive rouTing (PILOT), a novel extension of LinUCB. To handle diverse user budgets for model routing, we introduce an online cost policy modeled as a multi-choice knapsack problem, ensuring resource-efficient routing.

논문 링크

https://arxiv.org/abs/2508.21141

텍스트-이미지 확산에서 계산 재사용을 통한 이미지 세트의 효율적인 생성 / Reusing Computation in Text-to-Image Diffusion for Efficient Generation of Image Sets

논문 소개

텍스트-이미지 디퓨전 모델은 고품질 이미지를 생성하는 데 매우 효과적이지만, 이 과정에서 발생하는 높은 계산 비용은 큰 도전 과제가 되고 있습니다. 기존 연구들은 주로 개별 이미지 생성 시의 효율성을 향상시키는 데 집중해왔으나, 본 연구는 상관된 프롬프트 간의 중복성을 줄이는 새로운 접근 방식을 제안합니다. 제안된 방법은 디퓨전 모델의 조잡한-정교한 특성을 활용하여 초기 노이즈 제거 단계에서 유사한 프롬프트 간의 공유 구조를 포착합니다.

이 연구는 훈련이 필요 없는 접근 방식을 통해 의미적 유사성에 따라 프롬프트를 클러스터링하고, 초기 디퓨전 단계에서 계산을 공유하는 전략을 채택합니다. 실험 결과, 이미지 임베딩에 조건화된 모델에서 이 방법이 계산 비용을 최소 50%까지 절감하면서도 이미지 품질을 유지하거나 개선할 수 있음을 보여주었습니다. 또한, UnClip의 텍스트-이미지 사전 정보를 활용하여 디퓨전 단계 할당을 최적화함으로써 효율성을 더욱 높였습니다.

제안된 방법은 기존의 텍스트-이미지 생성 파이프라인과 원활하게 통합될 수 있으며, 대규모 프롬프트 세트에 대해 확장 가능하여 환경적 및 재정적 부담을 줄이는 데 기여할 수 있습니다. 이 연구는 디퓨전 모델의 생성 역학에 대한 중요한 통찰을 제공하며, 향후 지속 가능한 최적화 전략을 탐구하는 데 중요한 기초 자료로 작용할 것으로 기대됩니다.

논문 초록(Abstract)

텍스트-이미지 확산 모델은 고품질 이미지 생성을 가능하게 하지만 계산 비용이 많이 듭니다. 이전 연구가 추론 당 효율성을 최적화하는 데 집중한 반면, 우리는 상관된 프롬프트 간의 중복성을 줄이는 정형 외 접근 방식을 탐구합니다. 우리의 방법은 확산 모델의 조잡-세밀한 특성을 활용하여 초기 노이즈 제거 단계에서 유사한 프롬프트 간의 공유 구조를 포착합니다. 우리는 의미적 유사성을 기반으로 프롬프트를 클러스터링하고 초기 확산 단계에서 계산을 공유하는 학습 없는 접근 방식을 제안합니다. 실험 결과, 이미지 임베딩에 조건부로 학습된 모델의 경우, 우리의 접근 방식이 계산 비용을 크게 줄이면서 이미지 품질을 향상시키는 것을 보여줍니다. UnClip의 텍스트-이미지 사전 정보를 활용하여 더 큰 효율성을 위한 확산 단계 할당을 개선합니다. 우리의 방법은 기존 파이프라인과 원활하게 통합되며, 프롬프트 집합에 따라 확장 가능하고 대규모 텍스트-이미지 생성의 환경적 및 재정적 부담을 줄입니다. 프로젝트 페이지: https://ddecatur.github.io/hierarchical-diffusion/

Text-to-image diffusion models enable high-quality image generation but are computationally expensive. While prior work optimizes per-inference efficiency, we explore an orthogonal approach: reducing redundancy across correlated prompts. Our method leverages the coarse-to-fine nature of diffusion models, where early denoising steps capture shared structures among similar prompts. We propose a training-free approach that clusters prompts based on semantic similarity and shares computation in early diffusion steps. Experiments show that for models trained conditioned on image embeddings, our approach significantly reduces compute cost while improving image quality. By leveraging UnClip's text-to-image prior, we enhance diffusion step allocation for greater efficiency. Our method seamlessly integrates with existing pipelines, scales with prompt sets, and reduces the environmental and financial burden of large-scale text-to-image generation. Project page: https://ddecatur.github.io/hierarchical-diffusion/

논문 링크

https://arxiv.org/abs/2508.21032

더 읽어보기

https://ddecatur.github.io/hierarchical-diffusion/

어텐션은 매끄러운 세제곱 스플라인이다 / Attention is a smoothed cubic spline

논문 소개

트랜스포머 아키텍처에서 어텐션 모듈은 그 중요성에도 불구하고 여전히 많은 부분이 미지의 영역으로 남아있습니다. 본 연구는 이러한 어텐션 모듈을 부드러운 큐빅 스플라인으로 해석함으로써, 고전 근사 이론의 관점에서 새로운 통찰을 제공합니다. 저자들은 ReLU 활성화 함수를 사용하여 어텐션, 마스크드 어텐션, 인코더-디코더 어텐션이 모두 큐빅 스플라인으로 표현될 수 있음을 보였습니다. 이러한 접근은 트랜스포머의 모든 구성 요소가 다양한 어텐션 모듈과 피드 포워드 신경망의 조합으로 이루어져 있다는 점에서 중요한 의미를 가집니다.

연구는 Pierce-Birkhoff 추측을 바탕으로 모든 스플라인이 ReLU 활성화 인코더로 표현될 수 있다는 점을 강조합니다. 이를 통해 어텐션 모듈의 수학적 본질을 명확히 하고, 큐빅 스플라인을 통해 트랜스포머의 구조적 이해를 심화시킵니다. 또한, 부드러운 $C^\infty$ 버전을 얻기 위해 ReLU를 SoftMax와 같은 부드러운 활성화 함수로 대체할 경우, 기존의 트랜스포머 모델을 회복할 수 있음을 제시합니다.

이 연구는 어텐션 메커니즘에 대한 수학적 해석을 통해 기존의 기계 학습 모델에 대한 이해를 심화시키며, 트랜스포머 아키텍처의 본질을 스플라인이라는 잘 알려진 수학적 객체로 설명합니다. 실험 결과는 제안된 큐빅 스플라인 모델이 기존 모델보다 우수한 성능을 보이며, 어텐션 모듈의 수학적 해석이 실제 성능에 긍정적인 영향을 미친다는 것을 입증합니다. 이러한 발견은 향후 어텐션 메커니즘의 발전에 기여할 것으로 기대됩니다. 이 연구는 트랜스포머의 어텐션 모듈을 새로운 시각으로 바라보게 하며, 관련 분야의 연구자들에게 중요한 기초 자료가 될 것입니다.

논문 초록(Abstract)

우리는 아마도 중요하지만 지금까지 관찰되지 않았던 통찰을 강조합니다: 트랜스포머(transformer)에서 어텐션 모듈은 부드러운 삼차 스플라인입니다. 이러한 방식으로 바라보면, 트랜스포머의 이 신비롭지만 중요한 구성 요소는 고전 근사 이론에 깊이 뿌리내린 오래된 개념의 자연스러운 발전이 됩니다. 보다 정확하게 말하자면, ReLU 활성화가 있을 때 어텐션, 마스킹된 어텐션, 인코더-디코더 어텐션은 모두 삼차 스플라인입니다. 트랜스포머의 모든 구성 요소는 다양한 어텐션 모듈(= 삼차 스플라인)과 피드 포워드 신경망(= 선형 스플라인)의 조합으로 구성되므로, 인코더, 디코더, 인코더-디코더 블록; 다층 인코더와 디코더; 트랜스포머 자체의 모든 구성 요소는 삼차 또는 고차 스플라인입니다. 피어스-버코프 추측을 가정하면, 역도 성립합니다. 즉, 모든 스플라인은 ReLU 활성화된 인코더입니다. 스플라인은 일반적으로 $C^2$이므로, 부드러운 $C^\infty$ 버전을 얻는 한 가지 방법은 ReLU를 부드러운 활성화로 대체하는 것입니다. 이 활성화가 SoftMax로 선택되면, 우리는 Vaswani 외의 제안에 따라 원래의 트랜스포머를 회복합니다. 이 통찰은 트랜스포머의 본질을 스플라인이라는 응용 수학에서 가장 잘 알려지고 철저히 이해된 객체로 완전히 설명함으로써 밝혀줍니다.

We highlight a perhaps important but hitherto unobserved insight: The attention module in a transformer is a smoothed cubic spline. Viewed in this manner, this mysterious but critical component of a transformer becomes a natural development of an old notion deeply entrenched in classical approximation theory. More precisely, we show that with ReLU-activation, attention, masked attention, encoder-decoder attention are all cubic splines. As every component in a transformer is constructed out of compositions of various attention modules (= cubic splines) and feed forward neural networks (= linear splines), all its components -- encoder, decoder, and encoder-decoder blocks; multilayered encoders and decoders; the transformer itself -- are cubic or higher-order splines. If we assume the Pierce-Birkhoff conjecture, then the converse also holds, i.e., every spline is a ReLU-activated encoder. Since a spline is generally just $C^2$, one way to obtain a smoothed $C^\infty$-version is by replacing ReLU with a smooth activation; and if this activation is chosen to be SoftMax, we recover the original transformer as proposed by Vaswani et al. This insight sheds light on the nature of the transformer by casting it entirely in terms of splines, one of the best known and thoroughly understood objects in applied mathematics.

논문 링크

https://arxiv.org/abs/2408.09624

$Mem^p$: 에이전트 절차 기억 탐색 / $Mem^p$: Exploring Agent Procedural Memory

논문 소개

대규모 언어 모델(LLM) 기반의 에이전트는 다양한 작업에서 뛰어난 성능을 발휘하지만, 기존의 절차 기억은 수동적으로 설계되거나 정적 매개변수에 의존하여 취약한 특성을 보입니다. 본 연구에서는 에이전트에게 학습 가능하고 업데이트 가능한 평생 절차 기억을 부여하기 위한 혁신적인 방법론인 $Mem^p$ 를 제안합니다. $Mem^p$ 는 과거 에이전트의 경로를 세밀한 단계별 지침과 높은 수준의 스크립트 형태로 증류하여, 절차 기억의 구축(Build), 검색(Retrieval), 업데이트(Update) 전략을 탐구합니다.

$Mem^p$ 의 핵심은 동적 레짐을 통해 지속적으로 절차 기억을 업데이트, 수정 및 폐기하는 것입니다. 이로 인해 에이전트는 새로운 경험에 따라 기억 저장소를 발전시킬 수 있으며, 실증적 평가 결과 TravelPlanner와 ALFWorld에서 에이전트의 성공률과 효율성이 점진적으로 향상됨을 확인했습니다. 특히, 더 강력한 모델에서 구축된 절차 기억은 그 가치를 유지하며, 이를 더 약한 모델로 이전할 경우에도 성능이 상당히 개선되는 효과를 보여주었습니다.

절차 기억의 검색 과정은 에이전트가 새로운 작업에 대해 가장 유사한 경험을 효과적으로 찾아내는 데 필수적입니다. 이 과정은 벡터 임베딩 모델을 활용하여 유사성을 측정하고, 가장 적합한 기억을 검색하는 방식으로 구현됩니다. 또한, 절차 기억의 업데이트 메커니즘은 에이전트가 수행한 작업의 수가 증가함에 따라 동적으로 추가, 삭제, 수정이 가능하도록 설계되었습니다. 이러한 포괄적인 접근은 에이전트의 학습 능력을 극대화하고, 다양한 환경에서의 작업 수행 능력을 향상시키는 데 기여합니다.

$Mem^p$ 는 에이전트의 절차 기억을 지속적으로 개선함으로써, 향후 에이전트 시스템 개발에 중요한 시사점을 제공하며, 학습 가능한 절차 기억의 중요성을 강조합니다. 이러한 연구 결과는 에이전트의 성능을 극대화하는 데 있어 혁신적인 기여를 할 것으로 기대됩니다.

논문 초록(Abstract)

대규모 언어 모델(LLM)을 기반으로 한 에이전트는 다양한 작업에서 뛰어난 성능을 발휘하지만, 수동으로 설계되거나 정적 매개변수에 얽힌 취약한 절차적 기억으로 어려움을 겪습니다. 본 연구에서는 에이전트에 학습 가능하고 업데이트 가능하며 평생 사용할 수 있는 절차적 기억을 부여하기 위한 전략을 조사합니다. 우리는 과거 에이전트 경로를 세밀한 단계별 지침과 고차원 스크립트와 같은 추상화로 증류하는 $Mem^p$ 를 제안하고, 절차적 기억의 구축(Build), 검색(Retrieval), 업데이트(Update)에 대한 다양한 전략의 영향을 탐구합니다. 지속적으로 내용을 업데이트하고 수정하며 폐기하는 동적 체계와 결합하여, 이 저장소는 새로운 경험과 함께 진화합니다. TravelPlanner와 ALFWorld에 대한 실증적 평가 결과, 기억 저장소가 정제됨에 따라 에이전트는 유사한 작업에서 점진적으로 더 높은 성공률과 더 큰 효율성을 달성하는 것으로 나타났습니다. 또한, 더 강력한 모델에서 구축된 절차적 기억은 그 가치를 유지하며, 절차적 기억을 더 약한 모델로 이전하면 상당한 성능 향상을 가져옵니다.

Large Language Models (LLMs) based agents excel at diverse tasks, yet they suffer from brittle procedural memory that is manually engineered or entangled in static parameters. In this work, we investigate strategies to endow agents with a learnable, updatable, and lifelong procedural memory. We propose $Mem^p$ that distills past agent trajectories into both fine-grained, step-by-step instructions and higher-level, script-like abstractions, and explore the impact of different strategies for Build, Retrieval, and Update of procedural memory. Coupled with a dynamic regimen that continuously updates, corrects, and deprecates its contents, this repository evolves in lockstep with new experience. Empirical evaluation on TravelPlanner and ALFWorld shows that as the memory repository is refined, agents achieve steadily higher success rates and greater efficiency on analogous tasks. Moreover, procedural memory built from a stronger model retains its value: migrating the procedural memory to a weaker model yields substantial performance gains.

논문 링크

https://arxiv.org/abs/2508.06433

모델 아키텍처 발견을 위한 알파고 모멘트 / AlphaGo Moment for Model Architecture Discovery

논문 소개

ASI-Arch는 신경망 구조 탐색 분야에서 완전 자율적으로 혁신적인 아키텍처를 발견하는 인공초지능(ASI4AI) 시스템입니다. 기존의 인간이 정의한 탐색 공간에 한정된 신경망 구조 탐색(NAS)을 넘어, 자동 최적화에서 자동 혁신으로 패러다임을 전환하여 새로운 구조 개념을 가설 수립, 구현, 학습, 검증까지 독립적으로 수행합니다. 20,000 GPU 시간 동안 1,773회의 실험을 통해 106개의 최첨단 선형 어텐션(linear attention) 아키텍처를 발견하였으며, 이는 인간 설계 기반을 능가하는 새로운 설계 원리를 제시합니다. 또한, 과학적 발견 자체에 대한 경험적 스케일링 법칙을 제시하여 연구 진보를 인간 인지 한계를 넘어 계산 자원에 의해 확장 가능한 과정으로 전환함을 입증하였습니다.

논문 초록(Abstract)

AI 시스템이 기하급수적으로 향상된 능력을 보여주는 반면, AI 연구 자체의 속도는 인간의 인지 능력에 의해 선형적으로 제한되어 점점 심각한 개발 병목 현상을 초래하고 있습니다. 본 논문에서는 신경망 아키텍처 발견이라는 중요한 분야에서 AI 연구를 위한 인공 초지능(ASI4AI)의 최초 시연인 ASI-Arch를 제안합니다. ASI-Arch는 AI가 스스로 아키텍처 혁신을 수행할 수 있도록 하여 이 근본적인 제약을 극복하는 완전 자율 시스템입니다. 인간이 정의한 탐색 공간에 한정되는 전통적인 Neural Architecture Search(NAS)를 넘어, 자동 최적화에서 자동 혁신으로의 패러다임 전환을 도입합니다. ASI-Arch는 아키텍처 발견 분야에서 엔드투엔드(end-to-end) 과학 연구를 수행하며, 자율적으로 새로운 아키텍처 개념을 가설화하고, 이를 실행 가능한 코드로 구현하며, 엄격한 실험과 과거 경험을 통해 학습 및 성능을 실증적으로 검증합니다. ASI-Arch는 20,000 GPU 시간에 걸쳐 1,773회의 자율 실험을 수행하였고, 그 결과 106개의 혁신적이고 최첨단(SOTA) 선형 어텐션(linear attention) 아키텍처를 발견하였습니다. 인간 플레이어에게는 보이지 않는 예상치 못한 전략적 통찰을 드러낸 AlphaGo의 37번째 수(Move 37)와 같이, 본 AI가 발견한 아키텍처들은 인간 설계 기준을 체계적으로 능가하는 출현적 설계 원칙을 보여주며, 아키텍처 혁신을 위한 이전에 알려지지 않은 경로를 밝혀냅니다. 특히, 우리는 과학적 발견 자체에 대한 최초의 경험적 스케일링 법칙을 확립하여, 아키텍처 혁신이 계산적으로 확장 가능함을 입증함으로써 연구 진보를 인간 한계에서 계산 확장 가능 프로세스로 전환시켰습니다. 본 논문은 이러한 돌파구를 가능하게 한 출현적 설계 패턴과 자율 연구 역량에 대한 종합적 분석을 제공하며, 자기 가속화 AI 시스템의 청사진을 제시합니다.

While AI systems demonstrate exponentially improving capabilities, the pace of AI research itself remains linearly bounded by human cognitive capacity, creating an increasingly severe development bottleneck. We present ASI-Arch, the first demonstration of Artificial Superintelligence for AI research (ASI4AI) in the critical domain of neural architecture discovery--a fully autonomous system that shatters this fundamental constraint by enabling AI to conduct its own architectural innovation. Moving beyond traditional Neural Architecture Search (NAS), which is fundamentally limited to exploring human-defined spaces, we introduce a paradigm shift from automated optimization to automated innovation. ASI-Arch can conduct end-to-end scientific research in the domain of architecture discovery, autonomously hypothesizing novel architectural concepts, implementing them as executable code, training and empirically validating their performance through rigorous experimentation and past experience. ASI-Arch conducted 1,773 autonomous experiments over 20,000 GPU hours, culminating in the discovery of 106 innovative, state-of-the-art (SOTA) linear attention architectures. Like AlphaGo's Move 37 that revealed unexpected strategic insights invisible to human players, our AI-discovered architectures demonstrate emergent design principles that systematically surpass human-designed baselines and illuminate previously unknown pathways for architectural innovation. Crucially, we establish the first empirical scaling law for scientific discovery itself--demonstrating that architectural breakthroughs can be scaled computationally, transforming research progress from a human-limited to a computation-scalable process. We provide comprehensive analysis of the emergent design patterns and autonomous research capabilities that enabled these breakthroughs, establishing a blueprint for self-accelerating AI systems.

논문 링크

https://arxiv.org/abs/2507.18074

비지도 학습을 통한 언어 모델 능력 유도 / Unsupervised Elicitation of Language Models

논문 소개

사전학습된 언어모델을 특정 작업에 맞게 조정할 때, 기존 방법은 인간의 감독이 필요하지만 초인적 능력을 가진 모델에서는 고품질의 인간 감독이 어렵거나 불가능합니다. 이를 해결하기 위해 외부 감독 없이 모델이 스스로 생성한 라벨을 활용해 미세조정하는 비지도 학습 알고리즘인 Internal Coherence Maximization(ICM)을 제안합니다. ICM은 여러 벤치마크에서 인간 감독 기반 학습과 동등하거나 더 우수한 성능을 보이며, 특히 초인적 능력을 가진 작업에서 인간 라벨 학습보다 뛰어난 결과를 나타냅니다. 또한, 이 방법을 활용해 최첨단 언어모델의 보상 모델과 보조 시스템을 훈련시켜 인간 감독 모델 대비 성능 향상을 입증하였습니다.

논문 초록(Abstract)

사전학습된 언어 모델을 하위 작업에 맞게 조정하기 위해, 현재의 사후 학습(post-training) 패러다임은 인간이 원하는 행동을 명시하는 데 의존하고 있습니다. 그러나 초인적(superhuman) 능력을 가진 모델의 경우, 고품질의 인간 감독을 얻는 것은 어렵거나 불가능합니다. 이러한 문제를 해결하기 위해, 우리는 외부 감독 없이(pretrained language models on their own generated labels, \emph{without external supervision}) 사전학습된 언어 모델을 자체 생성한 라벨로 미세조정하는 새로운 비지도 학습 알고리즘인 내부 일관성 극대화(Internal Coherence Maximization, ICM)를 제안합니다. GSM8k-verification, TruthfulQA, Alpaca 보상 모델링 과제에서, 본 방법은 정답 감독(golden supervision)으로 학습한 성능과 동등하며, 크라우드소싱된 인간 감독 학습보다 우수한 성능을 보입니다. LLM의 능력이 현저히 초인적인 작업에서는, 본 방법이 인간 라벨로 학습하는 것보다 그 능력을 훨씬 더 효과적으로 이끌어낼 수 있습니다. 마지막으로, 본 방법이 최첨단 LLM 학습을 개선할 수 있음을 보입니다. 본 방법을 사용하여 비지도 보상 모델을 학습하고, 강화학습을 통해 Claude 3.5 Haiku 기반 어시스턴트를 학습시켰습니다. 이 보상 모델과 어시스턴트는 모두 인간 감독 모델보다 뛰어난 성능을 나타냅니다.

To steer pretrained language models for downstream tasks, today's post-training paradigm relies on humans to specify desired behaviors. However, for models with superhuman capabilities, it is difficult or impossible to get high-quality human supervision. To address this challenge, we introduce a new unsupervised algorithm, Internal Coherence Maximization (ICM), to fine-tune pretrained language models on their own generated labels, \emph{without external supervision}. On GSM8k-verification, TruthfulQA, and Alpaca reward modeling tasks, our method matches the performance of training on golden supervision and outperforms training on crowdsourced human supervision. On tasks where LMs' capabilities are strongly superhuman, our method can elicit those capabilities significantly better than training on human labels. Finally, we show that our method can improve the training of frontier LMs: we use our method to train an unsupervised reward model and use reinforcement learning to train a Claude 3.5 Haiku-based assistant. Both the reward model and the assistant outperform their human-supervised counterparts.

논문 링크

https://arxiv.org/abs/2506.10139

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. 🤗
⚠️광고⚠️ 🔥파이토치 한국 사용자 모임🇰🇷이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일💌로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)