• DAIR.AI에서 매주 공개하는 ML 논문들에 대한 글을 자동 번역해보았습니다.

  • 이번 주에 선정된 논문의 두드러진 경향은 대형 언어 모델(LLM, Large Language Models) 및 멀티모달 AI에 관한 연구가 활발하다는 점입니다. 예를 들어, "Self-Adaptive LLMs", "Foundations of LLMs", "Enhancing RAG", "VideoRAG"과 같은 논문들이 LLM 및 멀티모달 학습 관련 주제를 다루고 있습니다. 또한 "Imagine while Reasoning in Space", "OmniThink"와 같은 논문들도 다양한 형태의 데이터를 활용하여 복합적인 문제 해결을 시도하는 멀티모달 접근 방법을 탐구하고 있습니다.

  • 이러한 경향은 현재 AI 연구 커뮤니티 내에서 언어 모델의 중요성과 다양한 데이터를 조합하여 더 포괄적인 이해를 이루려는 노력이 증가하고 있다는 것을 의미합니다. LLM은 자연어 처리(NLP)의 최첨단을 이끌고 있으며, 이러한 기술을 더욱 발전시키기 위해서는 멀티모달 데이터를 활용한 통합적인 접근이 필요하다는 인식이 확산되고 있는 것으로 보입니다. 특히, 멀티모달 AI는 이미지를 통한 이해와 자연어를 통한 이해를 조합하여 더 복잡한 문제를 해결하는 데 중요한 역할을 하고 있습니다.

  • 결론적으로, 이번 주의 논문들은 AI 연구의 중심이 대형 언어 모델과 멀티모달 학습에 집중되고 있음을 보여줍니다. 이는 AI가 단순히 텍스트 처리에 머무르지 않고, 시각적 정보와의 융합을 통해 더욱 지능적이고 복합적인 문제 해결을 가능하게 하려는 방향으로 나아가고 있음을 시사합니다. 따라서 이러한 연구는 앞으로 AI 기술의 발전에 큰 영향을 미칠 것으로 기대됩니다.


$\text{Transformer}^2$: 자체 적응형 LLM / $\text{Transformer}^2$: Self-adaptive LLMs

논문 소개

가중치 매트릭스의 단일 구성 요소를 선택적으로 조정하여 보이지 않는 작업에 대해 실시간으로 LLM을 조정하는 새로운 자체 적응 프레임워크인 $\text{Transformer}^2$ 를 소개합니다. 이는 두 가지 주요 단계로 구축됩니다: 1) 들어오는 작업의 속성을 분석하고 식별하는 디스패치 시스템, 2) 강화 학습을 통해 훈련된 "전문가" 벡터를 결합하여 작업별 동작을 생성하는 단계로, 더 적은 수의 매개변수로 LoRA보다 효율적이며 다양한 LLM 아키텍처에서 작동할 수 있다고 주장합니다.

Introduces $\text{Transformer}^2$, a novel self-adaptation framework that adapts LLMs for unseen tasks in real-time by selectively adjusting singular components of their weight matrices; it’s built with two key phases: 1) a dispatch system that analyzes and identifies the properties of the incoming task, and 2) a step that combines "expert" vectors (trained via reinforcement learning) to create task-specific behaviors; claims to be more efficient than LoRA with fewer parameters and can works across different LLM architectures.

논문 초록(Abstract)

자가 적응형 대규모 언어 모델(LLM)은 다양한 작업을 처리하는 데 있어 계산 집약적이고 정적인 기존의 미세 조정 방법에서 발생하는 문제를 해결하는 것을 목표로 합니다. 여기서는 가중치 행렬의 단일 구성 요소만 선택적으로 조정하여 보이지 않는 작업에 대해 실시간으로 LLM을 조정하는 새로운 자체 적응 프레임워크인 $\text{Transformer}^2$를 소개합니다. 추론 과정에서 $\text{Transformer}^2$는 2패스 메커니즘을 사용합니다. 먼저 디스패치 시스템이 작업 속성을 식별한 다음, 강화 학습으로 훈련된 작업별 '전문가' 벡터를 동적으로 혼합하여 들어오는 프롬프트에 대한 목표 동작을 얻습니다. 이 방법은 더 적은 매개변수와 더 높은 효율성으로 LoRA와 같은 유비쿼터스 접근 방식보다 성능이 뛰어납니다. text{Transformer}^2$는 비전 언어 작업을 포함하여 다양한 LLM 아키텍처와 양식에 걸쳐 다용도로 사용할 수 있습니다. text{Transformer}^2$는 LLM의 적응성과 작업별 성능을 향상시킬 수 있는 확장 가능하고 효율적인 솔루션을 제공하여 진정한 의미의 동적이고 자기 조직적인 AI 시스템을 위한 기반을 마련하는 중요한 도약을 의미합니다.

Self-adaptive large language models (LLMs) aim to solve the challenges posed by traditional fine-tuning methods, which are often computationally intensive and static in their ability to handle diverse tasks. We introduce $\text{Transformer}^2$, a novel self-adaptation framework that adapts LLMs for unseen tasks in real-time by selectively adjusting only the singular components of their weight matrices. During inference, $\text{Transformer}^2$ employs a two-pass mechanism: first, a dispatch system identifies the task properties, and then task-specific "expert" vectors, trained using reinforcement learning, are dynamically mixed to obtain targeted behavior for the incoming prompt. Our method outperforms ubiquitous approaches such as LoRA, with fewer parameters and greater efficiency. $\text{Transformer}^2$ demonstrates versatility across different LLM architectures and modalities, including vision-language tasks. $\text{Transformer}^2$ represents a significant leap forward, offering a scalable, efficient solution for enhancing the adaptability and task-specific performance of LLMs, paving the way for truly dynamic, self-organizing AI systems.

논문 링크

https://arxiv.org/abs/2501.06252

더 읽어보기

https://discuss.pytorch.kr/t/…

https://x.com/hardmaru/status/1879331049383334187


MiniMax-01: 번개처럼 빠른 속도로 확장되는 파운데이션 모델 / MiniMax-01: Scaling Foundation Models with Lightning Attention

논문 소개

전문가 혼합을 통합한 새로운 모델 시리즈 도입, 32명의 전문가와 456억 개의 매개변수가 있는 모델 도입, 각 토큰에 대해 459억 개의 매개변수가 활성화됨, 클레임이 GPT-4o 및 Claude-3와 같은 최신 모델의 성능과 일치함.5-Sonnet은 20~32배 더 긴 컨텍스트 윈도우를 제공하면서 최대 400만 개의 토큰을 처리할 수 있으며, 선형 주의와 최적화된 하드웨어 활용을 통합하여 LLM의 효율성과 확장성을 향상시키고, 512억 개의 비전 언어 토큰으로 지속적인 훈련을 통해 구축한 MiniMax-VL-01이라는 비전 모델도 있습니다.

Introduces a new series of models that integrate Mixture-of-Experts; introduces a model with 32 experts and 456B parameters, and 45.9B are activated for each token; claims match the performance of state-of-the-art models like GPT-4o and Claude-3.5-Sonnet while offering a 20-32x longer context window; it can handle context windows of up to 4 million tokens; it integrates linear attention with optimized hardware utilization which enhances the efficiency and scalability of the LLM; there is also a vision model called MiniMax-VL-01 built through continued training with 512 billion vision-language tokens.

논문 초록(Abstract)

더 긴 컨텍스트를 처리하는 데 탁월한 성능을 제공하면서도 최상위 모델과 견줄 수 있는 MiniMax-Text-01과 MiniMax-VL-01을 포함한 MiniMax-01 시리즈를 소개합니다. 핵심은 번개처럼 빠른 처리 속도와 효율적인 확장성에 있습니다. 계산 용량을 극대화하기 위해 전문가 혼합(MoE)과 통합하여 32명의 전문가와 총 4560억 개의 매개변수로 구성된 모델을 만들고, 이 중 459억 개가 각 토큰에 대해 활성화됩니다. 저희는 최적화된 병렬 전략과 매우 효율적인 계산-통신 중첩 기법을 개발하여 MoE와 라이트닝 어텐션에 적용합니다. 이러한 접근 방식을 통해 수백만 개의 토큰에 걸친 컨텍스트에 걸쳐 수천억 개의 매개변수가 있는 모델에 대해 효율적인 훈련과 추론을 수행할 수 있습니다. MiniMax-Text-01의 컨텍스트 창은 훈련 중에 최대 100만 개의 토큰에 도달할 수 있으며 추론 중에는 저렴한 비용으로 400만 개의 토큰까지 추론할 수 있습니다. 비전 언어 모델인 MiniMax-VL-01은 512억 개의 비전 언어 토큰으로 지속적인 학습을 통해 구축되었습니다. 표준 및 자체 벤치마크 실험 결과, 이 모델은 GPT-4o 및 Claude-3.5-Sonnet과 같은 최신 모델의 성능과 일치하는 동시에 20~32배 더 긴 컨텍스트 윈도우를 제공하는 것으로 나타났습니다. MiniMax-01은 https://github.com/MiniMax-AI 에서 공개적으로 출시됩니다.

We introduce MiniMax-01 series, including MiniMax-Text-01 and MiniMax-VL-01, which are comparable to top-tier models while offering superior capabilities in processing longer contexts. The core lies in lightning attention and its efficient scaling. To maximize computational capacity, we integrate it with Mixture of Experts (MoE), creating a model with 32 experts and 456 billion total parameters, of which 45.9 billion are activated for each token. We develop an optimized parallel strategy and highly efficient computation-communication overlap techniques for MoE and lightning attention. This approach enables us to conduct efficient training and inference on models with hundreds of billions of parameters across contexts spanning millions of tokens. The context window of MiniMax-Text-01 can reach up to 1 million tokens during training and extrapolate to 4 million tokens during inference at an affordable cost. Our vision-language model, MiniMax-VL-01 is built through continued training with 512 billion vision-language tokens. Experiments on both standard and in-house benchmarks show that our models match the performance of state-of-the-art models like GPT-4o and Claude-3.5-Sonnet while offering 20-32 times longer context window. We publicly release MiniMax-01 at https://github.com/MiniMax-AI.

논문 링크

https://arxiv.org/abs/2501.08313

더 읽어보기

https://github.com/MiniMax-AI

https://x.com/omarsar0/status/1879572512075587872


VideoRAG: 비디오 코퍼스를 통한 검색 증강 생성 / VideoRAG: Retrieval-Augmented Generation over Video Corpus

논문 소개

비디오 콘텐츠를 외부 지식 소스로 활용하여 RAG를 향상시키는 프레임워크로, 주로 텍스트나 이미지에 중점을 두는 기존의 RAG 접근 방식과 달리 VideoRAG는 쿼리를 기반으로 관련 비디오를 동적으로 검색하고 시각적 요소와 텍스트 요소를 모두 생성 프로세스에 통합합니다; 이 프레임워크는 대규모 비디오 언어 모델(LVLM)을 사용하여 비디오 콘텐츠를 직접 처리함으로써 정적 양식에서는 전달하지 못하는 시간적 역동성, 공간적 세부 사항 및 멀티모달 단서를 보다 효과적으로 캡처할 수 있으며, 텍스트 설명이 없는 비디오의 경우 자동 음성 인식을 사용하여 트랜스크립트를 생성함으로써 시각 및 텍스트 양식을 모두 활용할 수 있도록 제안하고 있습니다.

A framework that enhances RAG by leveraging video content as an external knowledge source; unlike existing RAG approaches that primarily focus on text or images, VideoRAG dynamically retrieves relevant videos based on queries and incorporates both their visual and textual elements into the generation process; the framework utilizes Large Video Language Models (LVLMs) to process video content directly, enabling more effective capture of temporal dynamics, spatial details, and multimodal cues that static modalities often fail to convey; for videos lacking textual descriptions, they propose using automatic speech recognition to generate transcripts, ensuring both visual and textual modalities can be leveraged.

논문 초록(Abstract)

검색 증강 생성(RAG)은 쿼리와 관련된 외부 지식을 검색하여 생성 프로세스에 통합함으로써 기초 모델에서 사실과 다른 출력을 생성하는 문제를 해결하기 위한 강력한 전략입니다. 그러나 기존의 RAG 접근 방식은 주로 텍스트 정보에 초점을 맞춰 왔으며, 최근 이미지를 고려하기 시작한 일부 발전된 접근 방식은 이벤트, 프로세스, 맥락적 세부 사항을 다른 어떤 방식보다 효과적으로 표현할 수 있는 풍부한 멀티모달 지식의 원천인 동영상을 간과하는 경우가 많습니다. 최근 몇몇 연구에서 응답 생성 프로세스에 동영상을 통합하는 방법을 모색하고 있지만, 쿼리에 따라 검색하지 않고 쿼리 관련 동영상을 미리 정의하거나 동영상의 풍부한 멀티모달을 활용하지 않고 텍스트 설명으로 변환합니다. 이러한 문제를 해결하기 위해 쿼리와의 연관성을 기반으로 관련 동영상을 동적으로 검색할 뿐만 아니라 출력 생성 시 동영상의 시각적 정보와 텍스트 정보를 모두 활용하는 새로운 프레임워크인 VideoRAG를 소개합니다. 또한, 이를 운영하기 위해 비디오 콘텐츠를 직접 처리하여 검색을 위해 표현하고 검색된 비디오를 쿼리와 함께 원활하게 통합할 수 있는 최근의 대규모 비디오 언어 모델(LVLM)을 중심으로 방법을 구현했습니다. 실험적으로 VideoRAG의 효과를 검증하여 관련 기준선보다 우수하다는 것을 보여줍니다.

Retrieval-Augmented Generation (RAG) is a powerful strategy to address the issue of generating factually incorrect outputs in foundation models by retrieving external knowledge relevant to queries and incorporating it into their generation process. However, existing RAG approaches have primarily focused on textual information, with some recent advancements beginning to consider images, and they largely overlook videos, a rich source of multimodal knowledge capable of representing events, processes, and contextual details more effectively than any other modality. While a few recent studies explore the integration of videos in the response generation process, they either predefine query-associated videos without retrieving them according to queries, or convert videos into the textual descriptions without harnessing their multimodal richness. To tackle these, we introduce VideoRAG, a novel framework that not only dynamically retrieves relevant videos based on their relevance with queries but also utilizes both visual and textual information of videos in the output generation. Further, to operationalize this, our method revolves around the recent advance of Large Video Language Models (LVLMs), which enable the direct processing of video content to represent it for retrieval and seamless integration of the retrieved videos jointly with queries. We experimentally validate the effectiveness of VideoRAG, showcasing that it is superior to relevant baselines.

논문 링크

https://arxiv.org/abs/2501.05874

더 읽어보기

https://x.com/omarsar0/status/1878827350315659421


타이탄: 시험 시간에 암기하는 법 배우기 / Titans: Learning to Memorize at Test Time

논문 소개

신경 장기기억 모듈을 도입해 과거의 맥락을 기억하고, 과거의 긴 정보를 활용하면서 현재의 맥락에 주의를 기울일 수 있도록 도와주는 신경 장기기억 모듈은 주의력만 사용하는 것보다 장기적이고 지속적인 기억으로 작용하며(단기적이라고 간주), 신경 기억에 기반한 Titan은 언어 모델링, 상식 추론, 유전체학 및 시계열 작업에서 좋은 결과를 보여줍니다.

Introduces a neural long-term memory module to memorize historical context and help attention to attend to the current context while utilizing long past information; the neural memory module acts as a long-term, more persistent memory than just using attention alone (considered more short-term); Titan, which is based on neural memory, shows good results in language modeling, common-sense reasoning, genomics, and time series tasks.

논문 초록(Abstract)

10년이 넘는 기간 동안 반복 모델과 주의력을 효과적으로 활용하는 방법에 대한 광범위한 연구가 진행되어 왔습니다. 반복 모델은 데이터를 고정된 크기의 메모리(숨겨진 상태라고 함)로 압축하는 것을 목표로 하는 반면, 주의는 모든 토큰의 직접적인 종속성을 포착하여 전체 컨텍스트 창에 주의를 기울일 수 있게 해줍니다. 하지만 이렇게 종속성을 더 정확하게 모델링하는 데는 이차적인 비용이 발생하며, 고정된 길이의 컨텍스트로 모델을 제한합니다. 저희는 과거의 맥락을 기억하는 방법을 학습하고 과거의 오랜 정보를 활용하면서 현재 맥락에 주의를 기울일 수 있도록 돕는 새로운 신경 장기 기억 모듈을 제시합니다. 우리는 이 신경 기억이 빠른 추론을 유지하면서 빠르게 병렬화할 수 있는 훈련이 가능하다는 장점을 가지고 있음을 보여줍니다. 기억의 관점에서 볼 때, 문맥은 제한적이지만 정확한 의존성 모델링으로 인한 주의력은 단기 기억으로 작동하는 반면, 데이터를 암기하는 능력으로 인한 신경 기억은 보다 장기적이고 지속적인 기억으로 작동한다고 주장합니다. 이 두 가지 모듈을 기반으로 타이탄이라는 새로운 아키텍처 제품군을 소개하고, 이 아키텍처에 메모리를 효과적으로 통합할 수 있는 세 가지 변형을 제시합니다. 언어 모델링, 상식 추론, 유전체학, 시계열 작업에 대한 실험 결과에 따르면 타이탄이 트랜스포머와 최신 선형 반복 모델보다 더 효과적이라는 것을 알 수 있습니다. 또한 기준선에 비해 건초더미 작업에서 더 높은 정확도로 2M 이상의 컨텍스트 창 크기로 효과적으로 확장할 수 있습니다.

Over more than a decade there has been an extensive research effort on how to effectively utilize recurrent models and attention. While recurrent models aim to compress the data into a fixed-size memory (called hidden state), attention allows attending to the entire context window, capturing the direct dependencies of all tokens. This more accurate modeling of dependencies, however, comes with a quadratic cost, limiting the model to a fixed-length context. We present a new neural long-term memory module that learns to memorize historical context and helps attention to attend to the current context while utilizing long past information. We show that this neural memory has the advantage of fast parallelizable training while maintaining a fast inference. From a memory perspective, we argue that attention due to its limited context but accurate dependency modeling performs as a short-term memory, while neural memory due to its ability to memorize the data, acts as a long-term, more persistent, memory. Based on these two modules, we introduce a new family of architectures, called Titans, and present three variants to address how one can effectively incorporate memory into this architecture. Our experimental results on language modeling, common-sense reasoning, genomics, and time series tasks show that Titans are more effective than Transformers and recent modern linear recurrent models. They further can effectively scale to larger than 2M context window size with higher accuracy in needle-in-haystack tasks compared to baselines.

논문 링크

https://arxiv.org/abs/2501.00663

더 읽어보기

https://x.com/omarsar0/status/1879896681010921742


대규모 언어 모델의 기초 / Foundations of Large Language Models

논문 소개

사전 교육, 프롬프트 및 정렬 방법과 같은 영역을 다루는 LLM의 기초에 대한 새로운 설문조사.

New survey on the foundations of LLMs covering areas such as pre-training, prompting, and alignment methods.

논문 초록(Abstract)

이 책은 대규모 언어 모델에 관한 책입니다. 제목에서 알 수 있듯이 모든 첨단 기술을 포괄적으로 다루기보다는 주로 기본 개념에 초점을 맞추고 있습니다. 이 책은 사전 훈련, 생성 모델, 프롬프트 기법, 정렬 방법 등 핵심 영역을 각각 탐구하는 네 개의 주요 장으로 구성되어 있습니다. 이 책은 자연어 처리 및 관련 분야의 대학생, 전문가, 실무자를 대상으로 하며 대규모 언어 모델에 관심이 있는 모든 사람에게 참고 자료가 될 수 있습니다.

This is a book about large language models. As indicated by the title, it primarily focuses on foundational concepts rather than comprehensive coverage of all cutting-edge technologies. The book is structured into four main chapters, each exploring a key area: pre-training, generative models, prompting techniques, and alignment methods. It is intended for college students, professionals, and practitioners in natural language processing and related fields, and can serve as a reference for anyone interested in large language models.

논문 링크

https://arxiv.org/abs/2501.09223

더 읽어보기

https://discuss.pytorch.kr/t/pdf-231p-feat-arxiv/5895

https://x.com/omarsar0/status/1880284477445767586


OmniThink: 사고를 통한 머신 라이팅의 지식 경계 확장 / OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking

논문 소개

인간과 유사한 반복적인 확장 및 성찰 과정을 에뮬레이트하는 새로운 프레임워크로, 학습자가 지식을 심화할 때 인지적 행동을 시뮬레이션하도록 제작되었으며, RAG 및 역할극과 비교하여 OmniThink는 지속적인 성찰과 탐색을 통해 지식의 경계를 확장할 수 있으므로 긴 형식의 생성이 필요한 사용 사례에 이상적입니다.

A new framework that emulates a human-like process of iterative expansion and reflection; it's built to simulate the cognitive behavior of learners as they deepen their knowledge; compared to RAG and role-playing, OmniThink can expand knowledge boundaries through continuous reflection and exploration; this makes it ideal for use cases that require long-form generation.

논문 초록(Abstract)

대규모 언어 모델을 사용한 기계 작문은 검색 증강 생성에 의존하는 경우가 많습니다. 그러나 이러한 접근 방식은 모델의 사전 정의된 범위 내에 국한되어 있어 풍부한 정보가 포함된 콘텐츠를 생성하는 데 한계가 있습니다. 특히, 바닐라 검색 정보는 깊이와 유용성이 부족하고 중복되는 경향이 있어 생성된 기사의 품질에 부정적인 영향을 미치고 얕고 반복적이며 독창적이지 않은 결과물이 생성됩니다. 이러한 문제를 해결하기 위해 인간과 같은 반복적인 확장 및 반성 과정을 모방한 기계 글쓰기 프레임워크인 OmniThink를 제안합니다. OmniThink의 핵심 아이디어는 학습자가 주제에 대한 지식을 점진적으로 심화할 때 학습자의 인지적 행동을 시뮬레이션하는 것입니다. 실험 결과에 따르면 OmniThink는 일관성 및 깊이와 같은 지표를 손상시키지 않으면서 생성된 문서의 지식 밀도를 향상시키는 것으로 나타났습니다. 사람의 평가와 전문가 피드백은 긴 형식의 기사를 생성하는 데 있어 현실적인 문제를 해결할 수 있는 OmniThink의 잠재력을 더욱 강조합니다.

Machine writing with large language models often relies on retrieval-augmented generation. However, these approaches remain confined within the boundaries of the model's predefined scope, limiting the generation of content with rich information. Specifically, vanilla-retrieved information tends to lack depth, utility, and suffers from redundancy, which negatively impacts the quality of generated articles, leading to shallow, repetitive, and unoriginal outputs. To address these issues, we propose OmniThink, a machine writing framework that emulates the human-like process of iterative expansion and reflection. The core idea behind OmniThink is to simulate the cognitive behavior of learners as they progressively deepen their knowledge of the topics. Experimental results demonstrate that OmniThink improves the knowledge density of generated articles without compromising metrics such as coherence and depth. Human evaluations and expert feedback further highlight the potential of OmniThink to address real-world challenges in the generation of long-form articles.

논문 링크

https://arxiv.org/abs/2501.09751

더 읽어보기

https://x.com/omarsar0/status/1880275861401923619


검색 증강 생성 향상: 모범 사례 연구 / Enhancing Retrieval-Augmented Generation: A Study of Best Practices

논문 소개

검색 전략, 쿼리 확장, 대조적 상황 내 학습, 프롬프트 디자인, 청킹 등 RAG 시스템을 개선하는 요소와 방법을 체계적으로 살펴봅니다.

Systematically explores the factors and methods that improve RAG systems such as retrieval strategies, query expansion, contrastive in-context learning, prompt design, and chunking.

논문 초록(Abstract)

검색 증강 생성(RAG) 시스템은 최근 검색 메커니즘을 언어 모델에 통합하여 보다 정확하고 맥락에 맞는 응답을 생성하는 능력을 향상시킴으로써 괄목할 만한 발전을 보이고 있습니다. 그러나 RAG 시스템 내의 다양한 구성 요소와 구성의 영향은 아직 제대로 밝혀지지 않은 상태입니다. 복잡한 검색 작업에 맞게 RAG 시스템을 조정하고 다양한 애플리케이션에서 최적의 성능을 보장하려면 이러한 요소에 대한 포괄적인 이해가 필수적입니다. 이 백서에서는 쿼리 확장, 다양한 새로운 검색 전략, 새로운 맥락 내 대조 학습 RAG를 통합하는 몇 가지 고급 RAG 시스템 설계를 개발합니다. 본 연구에서는 언어 모델 크기, 프롬프트 디자인, 문서 청크 크기, 지식 기반 크기, 검색 보폭, 쿼리 확장 기술, 대조적 맥락 내 학습 지식 기반, 다국어 지식 기반, 문장 수준에서 관련 맥락을 검색하는 포커스 모드 등의 주요 요소를 체계적으로 조사합니다. 광범위한 실험을 통해 이러한 요소들이 응답 품질에 미치는 영향에 대한 상세한 분석을 제공합니다. 이러한 연구 결과는 RAG 시스템 개발을 위한 실행 가능한 인사이트를 제공하며, 풍부한 문맥과 검색 생성 효율성 간의 균형을 유지하여 다양한 실제 시나리오에서 보다 적응력이 뛰어나고 성능이 우수한 RAG 프레임워크를 구축할 수 있는 기반을 마련합니다. 코드와 구현 세부 사항은 공개되어 있습니다.

Retrieval-Augmented Generation (RAG) systems have recently shown remarkable advancements by integrating retrieval mechanisms into language models, enhancing their ability to produce more accurate and contextually relevant responses. However, the influence of various components and configurations within RAG systems remains underexplored. A comprehensive understanding of these elements is essential for tailoring RAG systems to complex retrieval tasks and ensuring optimal performance across diverse applications. In this paper, we develop several advanced RAG system designs that incorporate query expansion, various novel retrieval strategies, and a novel Contrastive In-Context Learning RAG. Our study systematically investigates key factors, including language model size, prompt design, document chunk size, knowledge base size, retrieval stride, query expansion techniques, Contrastive In-Context Learning knowledge bases, multilingual knowledge bases, and Focus Mode retrieving relevant context at sentence-level. Through extensive experimentation, we provide a detailed analysis of how these factors influence response quality. Our findings offer actionable insights for developing RAG systems, striking a balance between contextual richness and retrieval-generation efficiency, thereby paving the way for more adaptable and high-performing RAG frameworks in diverse real-world scenarios. Our code and implementation details are publicly available.

논문 링크

https://arxiv.org/abs/2501.07391

더 읽어보기

https://x.com/omarsar0/status/1879178916021318029


AutoCBT: 심리 상담에서 인지 행동 치료를 위한 자율적 다중 에이전트 프레임워크 / AutoCBT: An Autonomous Multi-agent Framework for Cognitive Behavioral Therapy in Psychological Counseling

논문 소개

인지 행동 치료를 위한 다중 에이전트 프레임워크인 AutoCBT를 제안합니다. 이 연구는 단일 턴 심리 상담 시나리오에 대해 고품질 응답을 생성하는 일반적인 다중 에이전트 프레임워크 제안, 동적 라우팅, 메모리 및 감독 메커니즘의 조합을 사용하여 각 에이전트의 자율 능력을 향상, 실험 결과 AutoCBT가 고품질의 자동 심리 상담 서비스를 제공할 수 있음, AutoCBT는 다른 순수 프롬프트 기반 상담 프레임워크에 비해 대화 품질을 개선합니다.

Proposes a multi-agent framework, AutoCBT, for Cognitive Behavioral Therapy; the work proposes a general multi-agent framework that generates high-quality responses for single-turn psychological consultation scenarios; it uses a combination of dynamic routing, memory, and supervisory mechanisms to enhance the autonomous ability of each agent; experimental results show that AutoCBT can provide higher-quality automated psychological counseling services; AutoCBT improves dialogue quality compared to other purely prompt-based counseling frameworks.

논문 초록(Abstract)

기존의 대면 심리 상담은 주로 심리적 문제가 있는 개인이 선택하는 틈새 시장으로 남아 있지만, 온라인 자동 상담은 수치심 때문에 도움을 받기를 주저하는 사람들에게 잠재적인 해결책을 제시합니다. 인지 행동 치료(CBT)는 심리 상담에서 필수적이고 널리 사용되는 접근 방식입니다. 대규모 언어 모델(LLM)과 에이전트 기술의 등장으로 자동 CBT 진단 및 치료가 가능해졌습니다. 그러나 현재의 LLM 기반 CBT 시스템은 고정된 구조의 에이전트를 사용하여 자체 최적화 기능이 제한되거나 중복된 응답 패턴으로 인해 공허하고 도움이 되지 않는 제안을 제공합니다. 이 연구에서는 Quora와 같은 단일 상담 모델과 YiXinLi 단일 상담 모델을 활용하여 단일 턴 심리 상담 시나리오에 대한 고품질 응답을 생성하는 일반 에이전트 프레임워크를 구축합니다. 이중 언어 데이터 세트를 사용하여 각 프레임워크에서 생성된 단일 응답 상담의 품질을 평가합니다. 그런 다음 실제 심리 상담에서 영감을 얻은 동적 라우팅 및 감독 메커니즘을 통합하여 CBT 지향 자율 다중 상담원 프레임워크를 구축하여 일반적인 적용 가능성을 입증합니다. 실험 결과, AutoCBT는 보다 높은 품질의 자동화된 심리 상담 서비스를 제공할 수 있는 것으로 나타났습니다.

Traditional in-person psychological counseling remains primarily niche, often chosen by individuals with psychological issues, while online automated counseling offers a potential solution for those hesitant to seek help due to feelings of shame. Cognitive Behavioral Therapy (CBT) is an essential and widely used approach in psychological counseling. The advent of large language models (LLMs) and agent technology enables automatic CBT diagnosis and treatment. However, current LLM-based CBT systems use agents with a fixed structure, limiting their self-optimization capabilities, or providing hollow, unhelpful suggestions due to redundant response patterns. In this work, we utilize Quora-like and YiXinLi single-round consultation models to build a general agent framework that generates high-quality responses for single-turn psychological consultation scenarios. We use a bilingual dataset to evaluate the quality of single-response consultations generated by each framework. Then, we incorporate dynamic routing and supervisory mechanisms inspired by real psychological counseling to construct a CBT-oriented autonomous multi-agent framework, demonstrating its general applicability. Experimental results indicate that AutoCBT can provide higher-quality automated psychological counseling services.

논문 링크

https://arxiv.org/abs/2501.09426

더 읽어보기

https://x.com/omarsar0/status/1880283025595867631


공간에서 추론하면서 상상해 보세요: 생각의 시각화: 멀티모달 시각화 / Imagine while Reasoning in Space: Multimodal Visualization-of-Thought

논문 소개

AI 모델이 텍스트와 이미지 모두에서 '사고'할 수 있도록 하는 새로운 추론 프레임워크인 MVoT(멀티모달 시각화 사고)를 도입하고, 모델이 텍스트 설명과 함께 추론 단계의 시각적 표현을 생성할 수 있도록 함으로써 기존의 연쇄 사고 프롬프트를 개선합니다; 이 프레임워크는 다중 모드 언어 모델인 카멜레온-7B로 구현되며, 생성된 시각화의 품질을 개선하기 위해 '토큰 불일치 손실'을 도입하고, 특히 복잡한 시나리오에서 기존 접근 방식보다 훨씬 뛰어난 성능을 발휘하며, 미로 및 프린터 설치 작업에서 90% 이상의 정확도를 달성하는 등 MVoT는 기존 접근 방식보다 훨씬 더 뛰어난 성능을 발휘합니다.

Introduces MVoT (Multimodal Visualization-of-Thought), a new reasoning framework that enables AI models to "think" in both text and images; MVoT enhances the traditional Chain-of-Thought prompting by allowing models to generate visual representations of their reasoning steps alongside text explanations; the framework is implemented in Chameleon-7B, a multimodal language model, and introduces a "token discrepancy loss" to improve the quality of generated visualizations; MVoT significantly outperforms traditional approaches, especially in complex scenarios; MVoT achieves over 90% accuracy on maze and printer installation tasks.

논문 초록(Abstract)

생각의 연쇄(CoT) 프롬프트는 대규모 언어 모델(LLM)과 다중 모드 대규모 언어 모델(MLLM)에서 복잡한 추론을 향상시키는 데 매우 효과적이라는 것이 입증되었습니다. 하지만 복잡한 공간 추론 작업에서는 어려움을 겪습니다. 그럼에도 불구하고 인간의 인지는 언어에만 국한되지 않고 확장되어 단어와 이미지 모두에서 놀라운 사고 능력을 발휘합니다. 이러한 메커니즘에서 영감을 받아 새로운 추론 패러다임인 멀티모달 사고 시각화(MVoT)를 제안합니다. 이는 추론의 흔적을 이미지 시각화로 생성하여 MLLM에서 시각적 사고를 가능하게 합니다. 고품질 시각화를 보장하기 위해 자동 회귀 MLLM에 토큰 불일치 손실을 도입했습니다. 이러한 혁신은 시각적 일관성과 충실도를 크게 향상시킵니다. 여러 동적 공간 추론 작업을 통해 이 접근 방식을 검증했습니다. 실험 결과에 따르면 MVoT는 여러 작업에서 경쟁력 있는 성능을 발휘하는 것으로 나타났습니다. 또한 CoT가 실패하는 가장 까다로운 시나리오에서도 강력하고 안정적인 개선 효과를 보여줍니다. 궁극적으로 MVoT는 시각적 사고가 언어적 추론을 효과적으로 보완할 수 있는 복잡한 추론 작업에 대한 새로운 가능성을 제시합니다.

Chain-of-Thought (CoT) prompting has proven highly effective for enhancing complex reasoning in Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs). Yet, it struggles in complex spatial reasoning tasks. Nonetheless, human cognition extends beyond language alone, enabling the remarkable capability to think in both words and images. Inspired by this mechanism, we propose a new reasoning paradigm, Multimodal Visualization-of-Thought (MVoT). It enables visual thinking in MLLMs by generating image visualizations of their reasoning traces. To ensure high-quality visualization, we introduce token discrepancy loss into autoregressive MLLMs. This innovation significantly improves both visual coherence and fidelity. We validate this approach through several dynamic spatial reasoning tasks. Experimental results reveal that MVoT demonstrates competitive performance across tasks. Moreover, it exhibits robust and reliable improvements in the most challenging scenarios where CoT fails. Ultimately, MVoT establishes new possibilities for complex reasoning tasks where visual thinking can effectively complement verbal reasoning.

논문 링크

https://arxiv.org/abs/2501.07542

더 읽어보기

https://x.com/omarsar0/status/1879181711982129420


ChemAgent: 대규모 언어 모델에서 자체 업데이트되는 라이브러리로 화학적 추론 향상 / ChemAgent: Self-updating Library in Large Language Models Improves Chemical Reasoning

논문 소개

동적으로 자체 업데이트되는 라이브러리를 통해 화학적 추론에 대한 LLM의 성능을 개선하도록 설계된 새로운 프레임워크를 제시합니다. 라이브러리는 화학적 작업을 하위 작업으로 분해하고 이를 향후 쿼리에 참조할 수 있는 구조화된 컬렉션으로 컴파일하여 개발됩니다; 시스템에 새로운 문제가 주어지면 라이브러리에서 관련 정보를 다시 시도하고 개선하여 보다 효과적인 작업 분해를 가능하게 하고, 새로운 하위 작업과 솔루션이 발생하고 검증되면 라이브러리가 동적으로 업데이트되며, SciBench의 실험에 따르면 ChemAgent는 기존 방법보다 훨씬 뛰어난 최대 46%(GPT-4)의 성능 향상을 달성했습니다.

Presents a new framework designed to improve the performance of LLMs on chemical reasoning through a dynamic, self-updating library; the library is developed by decomposing chemical tasks into sub-tasks and compiling them into a structured collection that can be referenced for future queries; when the system is given a new problem, it retries and refines relevant information from the library to enable more effective task decomposition; the library is dynamically updated with new sub-tasks and solutions as they are encountered and validated; experiments on SciBench demonstrate that ChemAgent achieves performance gains of up to 46% (GPT-4), significantly outperforming existing methods.

논문 초록(Abstract)

화학적 추론은 일반적으로 정밀한 계산이 요구되는 복잡한 다단계 프로세스를 포함하며, 사소한 오류도 연쇄적인 실패로 이어질 수 있습니다. 또한 대규모 언어 모델(LLM)은 화학 추론 작업을 처리할 때 도메인별 공식을 처리하고 추론 단계를 정확하게 실행하며 코드를 효과적으로 통합하는 데 어려움을 겪습니다. 이러한 문제를 해결하기 위해 유니티는 자체 업데이트되는 동적 라이브러리를 통해 LLM의 성능을 개선하도록 설계된 새로운 프레임워크인 ChemAgent를 선보입니다. 이 라이브러리는 화학적 작업을 하위 작업으로 분해하고 이러한 하위 작업을 향후 쿼리에 참조할 수 있는 구조화된 컬렉션으로 컴파일하는 방식으로 개발됩니다. 그런 다음 새로운 문제가 제시되면 ChemAgent는 메모리라고 부르는 라이브러리에서 관련 정보를 검색하고 정제하여 효과적인 작업 분해와 솔루션 생성을 용이하게 합니다. 이 방법은 세 가지 유형의 메모리와 라이브러리 강화 추론 구성 요소를 설계하여 경험을 통해 LLM이 시간이 지남에 따라 향상될 수 있도록 합니다. SciBench의 네 가지 화학 추론 데이터 세트에 대한 실험 결과에 따르면 ChemAgent는 최대 46%(GPT-4)의 성능 향상을 달성하여 기존 방법을 크게 능가하는 것으로 나타났습니다. 이러한 연구 결과는 신약 개발 및 재료 과학과 같은 작업을 포함한 향후 응용 분야에 대한 상당한 잠재력을 시사합니다. 자세한 내용은 https://github.com/gersteinlab/chemagent 에서 확인할 수 있습니다

Chemical reasoning usually involves complex, multi-step processes that demand precise calculations, where even minor errors can lead to cascading failures. Furthermore, large language models (LLMs) encounter difficulties handling domain-specific formulas, executing reasoning steps accurately, and integrating code effectively when tackling chemical reasoning tasks. To address these challenges, we present ChemAgent, a novel framework designed to improve the performance of LLMs through a dynamic, self-updating library. This library is developed by decomposing chemical tasks into sub-tasks and compiling these sub-tasks into a structured collection that can be referenced for future queries. Then, when presented with a new problem, ChemAgent retrieves and refines pertinent information from the library, which we call memory, facilitating effective task decomposition and the generation of solutions. Our method designs three types of memory and a library-enhanced reasoning component, enabling LLMs to improve over time through experience. Experimental results on four chemical reasoning datasets from SciBench demonstrate that ChemAgent achieves performance gains of up to 46% (GPT-4), significantly outperforming existing methods. Our findings suggest substantial potential for future applications, including tasks such as drug discovery and materials science. Our code can be found at https://github.com/gersteinlab/chemagent

논문 링크

https://arxiv.org/abs/2501.06590

더 읽어보기

https://github.com/gersteinlab/chemagent

https://x.com/omarsar0/status/1879188983705747754


원문

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-adb


  • 이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.* 🤗

⚠️광고⚠️: 🔥파이토치 한국 사용자 모임🇰🇷이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일💌로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)