[2024/09/16 ~ 09/22] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)
(discuss.pytorch.kr)-
DAIR.AI에서 매주 공개하는 ML 논문들에 대한 글을 자동 번역해보았습니다.
-
이번 주에 선정된 논문들을 살펴보면 몇 가지 두드러진 경향을 포착할 수 있습니다. 첫째, 대규모 언어 모델(LLM)에 관한 연구가 많은 비중을 차지하고 있습니다. 'Training LLMs to Self-Correct via RL', 'Qwen2.5 Coder', 'A Comprehensive Evaluation of Quantized Instruction-Tuned LLMs' 등 다양한 논문들이 LLM의 성능 향상 및 응용에 대해 다루고 있습니다. 이는 LLM이 현재 AI 연구의 핵심 주제 중 하나임을 반영합니다.
-
둘째, 인공지능의 사고 과정과 관련된 연구가 많습니다. 'Diagram of Thought (DoT)', 'Iteration of Thought', 'To CoT or not to CoT?'와 같은 논문들은 AI의 사고 방식이나 추론 과정에 대해 깊이 있게 탐구하고 있습니다. 이를 통해 AI 시스템의 정확도와 효율성을 높이려는 노력이 엿보입니다.
-
이러한 경향이 나타나는 이유는 몇 가지로 분석될 수 있습니다. 먼저, 대규모 언어 모델은 다양한 응용 가능성과 높은 성능 때문에 산업 및 학계에서 큰 관심을 받고 있기 때문입니다. 특히, 모델의 자가 수정 능력이나 성능 개선을 위한 다양한 기법들이 활발히 연구되고 있습니다. 또한, AI의 사고 과정에 대한 연구는 인간과 유사한 사고 능력을 가진 AI를 개발하려는 궁극적인 목표와 관련이 있습니다. 이는 더 복잡하고 지능적인 작업을 자동화하는 데 있어 필수적인 요소로 여겨지고 있습니다.
-
요약하면, 이번 주 논문들의 주요 트렌드는 대규모 언어 모델의 성능 향상 및 AI의 사고 과정 연구라고 할 수 있습니다. 이는 현재 AI 연구가 어떤 방향으로 발전하고 있는지를 잘 보여주는 사례입니다.
Moshi
논문 소개
음성 텍스트 기반 모델과 전이중 음성 대화 프레임워크, 시스템의 여러 구성 요소, 7B 파라미터 텍스트 LLM인 Helium, 오디오 품질에 대한 최첨단 성능을 갖춘 의미 음향 신경 오디오 코드인 Mimi, 음성 대 음성 방식으로 임의의 대화를 생성할 수 있는 계층적 멀티스트림 아키텍처에 대해 소개합니다.
Introduces a speech-text foundation model and full-duplex spoken dialogue framework; they present several components of the systems; Helium is a 7B parameter text LLM; Mimi is a semantic-acoustic neural audio code with state-of-the-art performance on audio quality; a hierarchical multi-stream architecture that can generate arbitrary conversation in a speech-to-speech manner.
논문 초록(Abstract)
음성-텍스트 기반 모델이자 전이중 음성 대화 프레임워크인 Moshi를 소개합니다. 현재 음성 대화를 위한 시스템은 음성 활동 감지, 음성 인식, 텍스트 대화 및 텍스트 음성 변환과 같은 독립적인 구성 요소의 파이프라인에 의존합니다. 이러한 프레임워크는 실제 대화의 경험을 모방할 수 없습니다. 첫째, 복잡성으로 인해 상호 작용 사이에 몇 초의 지연 시간이 발생합니다. 둘째, 텍스트는 대화의 중간 양식이기 때문에 감정이나 비언어적 소리와 같이 의미를 수정하는 비언어적 정보가 상호작용에서 손실됩니다. 마지막으로, 겹치는 말, 중단 및 감탄사를 고려하지 않는 화자 차례로 분할하는 방식에 의존합니다. Moshi는 음성 대화를 음성 대 음성 생성으로 캐스팅하여 이러한 독립적인 문제를 모두 해결합니다. 텍스트 언어 모델 백본에서 시작하는 Moshi는 신경 오디오 코덱의 잔여 양자화기에서 음성을 토큰으로 생성하는 동시에 자신의 음성과 사용자의 음성을 병렬 스트림으로 분리하여 모델링합니다. 이를 통해 명시적인 화자 전환을 제거하고 임의의 대화 역학을 모델링할 수 있습니다. 또한 이전 작업의 계층적 시맨틱-음향 토큰 생성을 확장하여 오디오 토큰의 접두사로 시간 정렬 텍스트 토큰을 먼저 예측합니다. 이 '내부 독백' 방식은 생성된 음성의 언어 품질을 크게 향상시킬 뿐만 아니라 스트리밍 음성 인식과 텍스트 음성 변환을 제공하는 방법도 보여줍니다. 이 결과물은 이론상 160ms, 실제 200ms의 지연 시간을 가진 최초의 실시간 전이중 음성 대용량 언어 모델이며, github.com/kyutai-labs/moshi 에서 확인할 수 있습니다.
We introduce Moshi, a speech-text foundation model and full-duplex spoken dialogue framework. Current systems for spoken dialogue rely on pipelines of independent components, namely voice activity detection, speech recognition, textual dialogue and text-to-speech. Such frameworks cannot emulate the experience of real conversations. First, their complexity induces a latency of several seconds between interactions. Second, text being the intermediate modality for dialogue, non-linguistic information that modifies meaning— such as emotion or non-speech sounds— is lost in the interaction. Finally, they rely on a segmentation into speaker turns, which does not take into account overlapping speech, interruptions and interjections. Moshi solves these independent issues altogether by casting spoken dialogue as speech-to-speech generation. Starting from a text language model backbone, Moshi generates speech as tokens from the residual quantizer of a neural audio codec, while modeling separately its own speech and that of the user into parallel streams. This allows for the removal of explicit speaker turns, and the modeling of arbitrary conversational dynamics. We moreover extend the hierarchical semantic-to-acoustic token generation of previous work to first predict time-aligned text tokens as a prefix to audio tokens. Not only this “Inner Monologue” method significantly improves the linguistic quality of generated speech, but we also illustrate how it can provide streaming speech recognition and text-to-speech. Our resulting model is the first real-time full-duplex spoken large language model, with a theoretical latency of 160ms, 200ms in practice, and is available at github.com/kyutai-labs/moshi.
논문 링크
더 읽어보기
https://github.com/kyutai-labs/moshi
https://x.com/kyutai_labs/status/1836427396959932492
강화 학습을 통해 언어 모델이 스스로 수정하도록 훈련하기 / Training Language Models to Self-Correct via Reinforcement Learning
논문 소개
LLM의 자가 교정 기능을 개선하기 위해 멀티턴 온라인 강화 학습을 개발, 전적으로 자체 생성 데이터에 기반, SFT는 자가 교정 학습에 비효율적이며 훈련 데이터와 모델 응답 간의 분포 불일치로 어려움을 겪는 것으로 나타남, 먼저 교정 행동을 최적화한 다음 보상 보너스를 사용해 훈련 중 자가 교정 기능을 증폭하는 2단계 접근 방식 제안, Gemini 1에 적용했을 때.0 Pro 및 1.5 플래시 모델에 적용하면 MATH 및 HumanEval 벤치마크에서 기본 모델의 자가 보정 성능을 각각 15.6%와 9.1% 향상시키는 최첨단 자가 보정 성능을 달성할 수 있습니다.
Develops a multi-turn online reinforcement learning to improve the capabilities of an LLM to self-correct; it’s based entirely on self-generated data; SFT is shown to be ineffective at learning self-correction and suffers from distribution mismatch between training data and model responses; proposes a two-stage approach that first optimizes correction behavior and then uses a reward bonus to amplify self-correction during training; when applied to Gemini 1.0 Pro and 1.5 Flash models, it achieves state-of-the-art self-correction performance, improving the base models’ self-correction by 15.6% and 9.1% respectively on the MATH and HumanEval benchmarks.
논문 초록(Abstract)
자가 교정은 대규모 언어 모델(LLM)의 매우 바람직한 기능이지만, 최신 LLM에서는 그 효과가 거의 없는 것으로 지속적으로 밝혀져 왔습니다. 자가 교정 학습을 위한 기존의 접근 방식은 여러 모델을 필요로 하거나 더 뛰어난 성능의 모델 또는 다른 형태의 감독에 의존합니다. 이를 위해 유니티는 전적으로 자체 생성된 데이터를 사용해 LLM의 자가 수정 능력을 크게 향상시키는 멀티턴 온라인 강화 학습(RL) 접근 방식인 SCoRe를 개발했습니다. SCoRe를 구축하기 위해 먼저 오프라인 모델 생성 보정 트레이스에 대한 감독 미세 조정(SFT)의 변형이 자가 보정 동작을 주입하는 데 불충분하다는 것을 보여줍니다. 특히, SFT를 통한 훈련은 훈련 데이터와 모델 자체의 반응 사이에 분포 불일치가 발생하거나 테스트 시점에 효과적이지 않은 특정 보정 동작 모드만을 암묵적으로 선호한다는 사실을 관찰했습니다. SCoRe는 모델 자체적으로 생성된 보정 트레이스의 분포에 따라 학습하고 적절한 정규화를 사용하여 주어진 프롬프트에 대해 단순히 보상이 높은 응답을 맞추는 대신 테스트 시점에 효과적인 자가 보정 전략을 학습하도록 학습 프로세스를 조정함으로써 이러한 문제를 해결합니다. 이 정규화는 기본 모델에서 RL의 첫 번째 단계를 실행하여 붕괴에 덜 취약한 정책 초기화를 생성한 다음 보상 보너스를 사용하여 훈련 중에 자기 교정을 증폭시키는 것을 규정합니다. Gemini 1.0 Pro 및 1.5 플래시 모델에 적용한 결과, SCoRe는 MATH 및 HumanEval 벤치마크에서 기본 모델의 자가 보정 성능을 각각 15.6%와 9.1% 향상시키며 최첨단 자가 보정 성능을 달성하는 것으로 나타났습니다.
Self-correction is a highly desirable capability of large language models (LLMs), yet it has consistently been found to be largely ineffective in modern LLMs. Existing approaches for training self-correction either require multiple models or rely on a more capable model or other forms of supervision. To this end, we develop a multi-turn online reinforcement learning (RL) approach, SCoRe, that significantly improves an LLM's self-correction ability using entirely self-generated data. To build SCoRe, we first show that variants of supervised fine-tuning (SFT) on offline model-generated correction traces are insufficient for instilling self-correction behavior. In particular, we observe that training via SFT either suffers from a distribution mismatch between the training data and the model's own responses or implicitly prefers only a certain mode of correction behavior that is often not effective at test time. SCoRe addresses these challenges by training under the model's own distribution of self-generated correction traces and using appropriate regularization to steer the learning process into learning a self-correction strategy that is effective at test time as opposed to simply fitting high-reward responses for a given prompt. This regularization prescribes running a first phase of RL on a base model to generate a policy initialization that is less susceptible to collapse and then using a reward bonus to amplify self-correction during training. When applied to Gemini 1.0 Pro and 1.5 Flash models, we find that SCoRe achieves state-of-the-art self-correction performance, improving the base models' self-correction by 15.6% and 9.1% respectively on the MATH and HumanEval benchmarks.
논문 링크
https://arxiv.org/abs/2409.12917
더 읽어보기
https://x.com/omarsar0/status/1837228446839361984
Qwen2.5-Coder 기술 문서 / Qwen2.5-Coder Technical Report
논문 소개
15억 개와 7억 개의 파라미터를 포함한 일련의 모델, 5조 5천억 개의 토큰으로 지속적으로 사전 학습된 Qwen2.5 아키텍처를 기반으로 구축되었으며, 10개 이상의 벤치마크에서 최첨단 성능을 달성하고 코드 생성, 완성, 추론 및 복구에 강력한 기능을 포함합니다.
A series of models including 1.5B and 7B parameters; it’s built upon the Qwen2.5 architecture which is continuously pretrained on 5.5 trillion tokens; achieves state-of-the-art performance across more than 10 benchmarks; includes strong capabilities in code generation, completion, reasoning, and repairing.
논문 초록(Abstract)
이 보고서에서는 이전 버전인 CodeQwen1.5에서 크게 업그레이드된 Qwen2.5-Coder 시리즈를 소개합니다. 이 시리즈에는 두 가지 모델이 있습니다: Qwen2.5-Coder-1.5B와 Qwen2.5-Coder-7B입니다. 코드 전용 모델인 Qwen2.5-Coder는 Qwen2.5 아키텍처를 기반으로 구축되었으며 5조 5천억 개 이상의 토큰으로 구성된 방대한 코퍼스에 대한 사전 학습을 계속합니다. 세심한 데이터 정리, 확장 가능한 합성 데이터 생성, 균형 잡힌 데이터 믹싱을 통해 Qwen2.5-Coder는 일반적인 범용성을 유지하면서 인상적인 코드 생성 기능을 보여줍니다. 이 모델은 코드 생성, 완성, 추론, 복구 등 10개 이상의 벤치마크에서 최고 수준의 성능을 달성하며 동일한 모델 크기의 대형 모델을 지속적으로 능가하는 광범위한 코드 관련 작업에서 평가되었습니다. 유니티는 Qwen2.5-Coder 시리즈의 출시가 코드 인텔리전스 연구의 지평을 넓힐 뿐만 아니라 포괄적인 라이선스를 통해 개발자들이 실제 애플리케이션에서 더 폭넓게 채택하도록 장려할 것으로 믿습니다.
In this report, we introduce the Qwen2.5-Coder series, a significant upgrade from its predecessor, CodeQwen1.5. This series includes two models: Qwen2.5-Coder-1.5B and Qwen2.5-Coder-7B. As a code-specific model, Qwen2.5-Coder is built upon the Qwen2.5 architecture and continues pretrained on a vast corpus of over 5.5 trillion tokens. Through meticulous data cleaning, scalable synthetic data generation, and balanced data mixing, Qwen2.5-Coder demonstrates impressive code generation capabilities while retaining general versatility. The model has been evaluated on a wide range of code-related tasks, achieving state-of-the-art (SOTA) performance across more than 10 benchmarks, including code generation, completion, reasoning, and repair, consistently outperforming larger models of the same model size. We believe that the release of the Qwen2.5-Coder series will not only push the boundaries of research in code intelligence but also, through its permissive licensing, encourage broader adoption by developers in real-world applications.
논문 링크
https://arxiv.org/abs/2409.12186
더 읽어보기
https://x.com/huybery/status/1837170643563073960
생각의 다이어그램(DoT)에서 / On the Diagram of Thought
논문 소개
수학적 엄밀성을 통해 LLM의 추론 능력을 향상시키고, DAT는 LLM의 반복 추론을 방향성 비순환 그래프의 구성으로 모델링하며, 명제, 비판, 개선 및 검증을 통합된 DAG 구조로 통합하여 선형 또는 트리 기반 접근 방식을 넘어 복잡한 논리적 추론을 포착할 수 있도록 합니다.
Enhances the reasoning capabilities of LLMs through mathematical rigor; DAT models iterative reasoning in LLM as the construction of a directed acyclic graph; it integrates propositions, critiques, refinement, and verification into a unified DAG structure; this allows DoT to capture complex logical deduction beyond linear or tree-based approaches.
논문 초록(Abstract)
대규모 언어 모델(LLM)에서 반복 추론을 단일 모델 내에서 방향성 비순환 그래프(DAG)의 구성으로 모델링하는 프레임워크인 생각의 도표(DoT)를 소개합니다. 추론을 선형 체인이나 트리로 표현하는 기존 접근 방식과 달리 DoT는 명제, 비판, 개선, 검증을 응집력 있는 DAG 구조로 구성하여 모델이 논리적 일관성을 유지하면서 복잡한 추론 경로를 탐색할 수 있도록 합니다. 다이어그램의 각 노드는 제안, 비평, 개선 또는 검증된 명제에 해당하며, 자연어 피드백을 통해 LLM이 추론을 반복적으로 개선할 수 있도록 합니다. 역할별 토큰으로 자동 회귀적 다음 토큰 예측을 활용함으로써 DoT는 아이디어 제안과 비판적 평가 사이의 원활한 전환을 촉진하여 이진 신호보다 더 풍부한 피드백을 제공합니다. 또한 토포스 이론을 사용하여 DoT 프레임워크를 공식화하여 추론 과정에서 논리적 일관성과 건전성을 보장하는 수학적 토대를 제공합니다. 이 접근 방식은 단일 LLM 내에서 훈련과 추론 프로세스를 모두 향상시켜 여러 모델이나 외부 제어 메커니즘이 필요하지 않습니다. DoT는 훈련 효율성, 강력한 추론 기능, 이론적 근거를 강조하는 차세대 추론 전문 모델을 설계하기 위한 개념적 프레임워크를 제공합니다. 코드는 https://github.com/diagram-of-thought/diagram-of-thought 에서 확인할 수 있습니다.
We introduce Diagram of Thought (DoT), a framework that models iterative reasoning in large language models (LLMs) as the construction of a directed acyclic graph (DAG) within a single model. Unlike traditional approaches that represent reasoning as linear chains or trees, DoT organizes propositions, critiques, refinements, and verifications into a cohesive DAG structure, allowing the model to explore complex reasoning pathways while maintaining logical consistency. Each node in the diagram corresponds to a proposition that has been proposed, critiqued, refined, or verified, enabling the LLM to iteratively improve its reasoning through natural language feedback. By leveraging auto-regressive next-token prediction with role-specific tokens, DoT facilitates seamless transitions between proposing ideas and critically evaluating them, providing richer feedback than binary signals. Furthermore, we formalize the DoT framework using Topos Theory, providing a mathematical foundation that ensures logical consistency and soundness in the reasoning process. This approach enhances both the training and inference processes within a single LLM, eliminating the need for multiple models or external control mechanisms. DoT offers a conceptual framework for designing next-generation reasoning-specialized models, emphasizing training efficiency, robust reasoning capabilities, and theoretical grounding. The code is available at https://github.com/diagram-of-thought/diagram-of-thought.
논문 링크
https://arxiv.org/abs/2409.10038
더 읽어보기
https://github.com/diagram-of-thought/diagram-of-thought
https://x.com/omarsar0/status/1835882277563179512
소프트웨어 엔지니어링 에이전트: 설문조사, 현황 및 비전 / Agents in Software Engineering: Survey, Landscape, and Vision
논문 소개
소프트웨어 엔지니어링에서 LLM 기반 에이전트의 프레임워크에 대한 포괄적인 개요를 제공합니다.
Provides a comprehensive overview of frameworks of LLM-based agents in software engineering.
논문 초록(Abstract)
최근 몇 년 동안 대규모 언어 모델(LLM)은 괄목할 만한 성공을 거두며 다양한 다운스트림 작업, 특히 소프트웨어 엔지니어링(SE) 분야의 작업에서 널리 사용되고 있습니다. LLM과 SE를 결합한 많은 연구에서 에이전트 개념을 명시적으로 또는 암시적으로 사용하고 있습니다. 그러나 기존 작품들의 개발 맥락을 정리하고, 기존 작품들이 어떻게 LLM 기반 에이전트 기술을 결합하여 다양한 작업을 최적화하고 있는지 분석하고, SE에서 LLM 기반 에이전트의 프레임워크를 명확히 하는 심층적인 조사는 부족한 실정입니다. 본 논문에서는 LLM 기반 에이전트와 SE의 결합에 대한 연구를 최초로 조사하고, 지각, 기억, 행동의 세 가지 핵심 모듈을 포함하는 SE에서의 LLM 기반 에이전트의 프레임워크를 제시합니다. 또한 두 분야를 결합하는 데 있어 현재 직면한 과제를 요약하고 기존 과제에 대응하여 향후 기회를 제안합니다. 관련 논문의 GitHub 리포지토리는 https://github.com/DeepSoftwareAnalytics/Awesome-Agent4SE 에서 확인할 수 있습니다.
In recent years, Large Language Models (LLMs) have achieved remarkable success and have been widely used in various downstream tasks, especially in the tasks of the software engineering (SE) field. We find that many studies combining LLMs with SE have employed the concept of agents either explicitly or implicitly. However, there is a lack of an in-depth survey to sort out the development context of existing works, analyze how existing works combine the LLM-based agent technologies to optimize various tasks, and clarify the framework of LLM-based agents in SE. In this paper, we conduct the first survey of the studies on combining LLM-based agents with SE and present a framework of LLM-based agents in SE which includes three key modules: perception, memory, and action. We also summarize the current challenges in combining the two fields and propose future opportunities in response to existing challenges. We maintain a GitHub repository of the related papers at: https://github.com/DeepSoftwareAnalytics/Awesome-Agent4SE.
논문 링크
https://arxiv.org/abs/2409.09030
더 읽어보기
https://github.com/DeepSoftwareAnalytics/Awesome-Agent4SE
https://x.com/omarsar0/status/1835705359723319702
CoT를 할 것인가, 말 것인가? 연쇄 사고는 주로 수학과 상징적 추론에 도움이 됩니다 / To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning
논문 소개
100개 이상의 논문과 여러 평가에 대한 메타분석을 통해 어떤 종류의 작업이 생각의 사슬(CoT) 프롬프트의 혜택을 가장 많이 받는지 조사한 결과, CoT는 주로 수학 및 논리와 관련된 작업에서 강력한 성능 이점을 제공한다는 사실을 발견했으며, 대부분의 CoT 이점은 기호적 실행 개선에서 비롯되지만 기호적 솔버가 그보다 더 뛰어난 성능을 발휘한다는 사실을 밝혀냈습니다.
Investigates what kinds of tasks benefit the most from chain-of-thought (CoT) prompting; after a meta-analysis on 100+ papers and several evaluations, it finds that CoT produces strong performance benefits primarily on tasks involving math and logic; they find that most of the CoT gain comes from improving symbolic execution, but a symbolic solver outperforms it.
논문 초록(Abstract)
프롬프트를 통한 생각의 연쇄(CoT)는 대규모 언어 모델(LLM)에서 추론 능력을 이끌어내는 사실상 유일한 방법입니다. 하지만 이 추가적인 '사고'가 어떤 종류의 작업에 실제로 도움이 될까요? 이를 분석하기 위해 CoT를 사용한 100개 이상의 논문을 대상으로 정량적 메타 분석을 수행하고 14개 모델에 걸쳐 20개 데이터 세트에 대한 자체 평가를 실행했습니다. 그 결과, CoT는 주로 수학이나 논리와 관련된 작업에서 강력한 성능 이점을 제공하며 다른 유형의 작업에서는 훨씬 적은 이점을 제공하는 것으로 나타났습니다. MMLU에서는 질문이나 모델의 답변에 기호 연산과 추론을 나타내는 등호가 포함되지 않는 한 CoT 없이 직접 답을 생성하는 것이 CoT와 거의 동일한 정확도로 이어집니다. 이 결과에 따라 계획과 실행을 분리하고 도구 증강 LLM과 비교하여 이러한 문제에 대한 CoT의 동작을 분석합니다. CoT의 이점은 대부분 기호적 실행의 개선에서 비롯되지만, 기호적 솔버를 사용하는 것에 비해서는 성능이 떨어집니다. 연구 결과는 CoT를 선택적으로 적용하여 성능을 유지하면서 추론 비용을 절감할 수 있음을 보여줍니다. 또한 프롬프트 기반 CoT를 넘어 전체 LLM 애플리케이션에 걸쳐 중간 계산을 더 잘 활용하는 새로운 패러다임으로 전환해야 할 필요성을 시사합니다.
Chain-of-thought (CoT) via prompting is the de facto method for eliciting reasoning capabilities from large language models (LLMs). But for what kinds of tasks is this extra ``thinking'' really helpful? To analyze this, we conducted a quantitative meta-analysis covering over 100 papers using CoT and ran our own evaluations of 20 datasets across 14 models. Our results show that CoT gives strong performance benefits primarily on tasks involving math or logic, with much smaller gains on other types of tasks. On MMLU, directly generating the answer without CoT leads to almost identical accuracy as CoT unless the question or model's response contains an equals sign, indicating symbolic operations and reasoning. Following this finding, we analyze the behavior of CoT on these problems by separating planning and execution and comparing against tool-augmented LLMs. Much of CoT's gain comes from improving symbolic execution, but it underperforms relative to using a symbolic solver. Our results indicate that CoT can be applied selectively, maintaining performance while saving inference costs. Furthermore, they suggest a need to move beyond prompt-based CoT to new paradigms that better leverage intermediate computation across the whole range of LLM applications.
논문 링크
https://arxiv.org/abs/2409.12183
더 읽어보기
https://x.com/omarsar0/status/1836599280477299013
정량화된 명령어 조정 대규모 언어 모델에 대한 종합적인 평가: 최대 405B까지의 실험적 분석 / A Comprehensive Evaluation of Quantized Instruction-Tuned Large Language Models: An Experimental Analysis up to 405B
논문 소개
7B에서 405B에 이르는 모델에서 다양한 양자화 방법에 걸쳐 인스트럭션 튜닝 LLM의 성능을 평가한 결과, 1) 더 큰 LLM을 더 작은 FP16 LLM과 비슷한 크기로 양자화하는 것이 일반적으로 대부분의 벤치마크에서 더 나은 성능을 발휘하고, 2) 성능은 양자화 방법, 모델 크기, 비트 폭에 따라 크게 달라지며, 가중치 전용 방법이 더 큰 모델에서 종종 좋은 결과를 내고, 3) 작업 난이도는 양자화로 인한 정확도 저하에는 큰 영향을 주지 않는다는 것을 발견할 수 있습니다.
Evaluates the performance of instruction-tuned LLMs across various quantization methods on models ranging from 7B to 405B; the key findings are 1) quantizing a larger LLM to a similar size as a smaller FP16 LLM generally performs better across most benchmarks, 2) performance varies significantly with different quantization methods, model size, and bit-width, with weight-only methods often yielding better results in larger models, and 3) task difficulty does not significantly impact accuracy degradation due to quantization.
논문 초록(Abstract)
이전 연구에서는 난해성이나 몇 가지 기본 지식 작업, 오래된 데이터 세트와 같은 제한된 지표를 사용해 정량화된 LLM을 평가했습니다. 또한, 최대 405B에 달하는 Llama 3.1과 같은 최근의 대규모 모델은 철저하게 검증되지 않았습니다. 이 백서에서는 7B에서 405B에 이르는 모델에서 다양한 양자화 방법(GPTQ, AWQ, SmoothQuant, FP8)에 걸쳐 명령어 튜닝된 LLM의 성능을 평가합니다. 13개의 벤치마크를 사용하여 상식적인 질의응답, 지식 및 언어 이해, 지시 사항 따라하기, 환각 감지, 수학, 대화 등 6가지 작업 유형에 대한 성능을 평가했습니다. 주요 연구 결과는 (1) 더 큰 LLM을 더 작은 FP16 LLM과 비슷한 크기로 양자화하는 것이 일반적으로 환각 감지와 명령어 추종을 제외한 대부분의 벤치마크에서 더 나은 성능을 보인다는 점, (2) 성능은 양자화 방법, 모델 크기, 비트 폭에 따라 크게 달라지며, 가중치 전용 방법이 더 큰 모델에서 더 나은 결과를 내는 경우가 많다는 점, (3) 과제 난이도는 양자화로 인한 정확도 저하에 큰 영향을 주지 않는다는 점, MT-Bench 평가 방법은 최근 고성능 LLM 간의 변별력에 한계가 있었다는 점 등을 밝혀냈습니다.
Prior research works have evaluated quantized LLMs using limited metrics such as perplexity or a few basic knowledge tasks and old datasets. Additionally, recent large-scale models such as Llama 3.1 with up to 405B have not been thoroughly examined. This paper evaluates the performance of instruction-tuned LLMs across various quantization methods (GPTQ, AWQ, SmoothQuant, and FP8) on models ranging from 7B to 405B. Using 13 benchmarks, we assess performance across six task types: commonsense Q&A, knowledge and language understanding, instruction following, hallucination detection, mathematics, and dialogue. Our key findings reveal that (1) quantizing a larger LLM to a similar size as a smaller FP16 LLM generally performs better across most benchmarks, except for hallucination detection and instruction following; (2) performance varies significantly with different quantization methods, model size, and bit-width, with weight-only methods often yielding better results in larger models; (3) task difficulty does not significantly impact accuracy degradation due to quantization; and (4) the MT-Bench evaluation method has limited discriminatory power among recent high-performing LLMs.
논문 링크
https://arxiv.org/abs/2409.11055
더 읽어보기
https://x.com/omarsar0/status/1836479309390995790
생각의 반복: 자율적인 대규모 언어 모델 추론을 위한 내부 대화 활용하기 / Iteration of Thought: Leveraging Inner Dialogue for Autonomous Large Language Model Reasoning
논문 소개
적응형 추론 경로로 LLM 응답 및 추론 기능을 향상시키기 위해 생각의 반복(IoT) 프레임워크를 제안하며, 가이드 역할을 하는 내부 대화 에이전트를 활용하여 추론 경로를 동적으로 조정함으로써 적응형 교차 경로 탐색을 가능하게 하고 응답 정확도를 향상시키며, 프롬프트 생성은 적응이 가능한 동적 프로세스라는 점에서 CoT 및 ToT(모두 고정된 프로세스)와는 차이가 있습니다.
Proposes the Iteration of Thought (IoT) framework to enhance the LLM responses and reasoning capabilities with adaptive reasoning paths; it leverages an inner dialogue agent, acting as a guide, to dynamically adjust reasoning paths which allows adaptive cross-path exploration and enhance response accuracy; it's different from CoT and ToT (both rigid processes) in that its prompt generation is a dynamic process that allows it to adapt.
논문 초록(Abstract)
반복적인 인간 참여는 대규모 언어 모델(LLM)의 고급 언어 처리 능력을 활용할 수 있는 일반적이고 효과적인 수단입니다. 잘 구조화된 대화형 프롬프트를 사용하면 인간 사용자는 보다 사려 깊고 정확한 응답을 개발하도록 LLM에 효과적으로 영향을 미칠 수 있습니다. 이러한 인사이트에서 영감을 얻어, 입력 쿼리와 현재 LLM의 응답 반복에 대해 '생각'을 자극하는 프롬프트를 생성함으로써 LLM 응답을 개선하기 위한 생각의 반복(IoT) 프레임워크를 제안합니다. 정적 또는 반정적 접근 방식(예: 생각의 사슬(CoT) 또는 생각의 나무(ToT))과 달리 IoT는 진화하는 상황에 따라 추론 경로를 동적으로 조정하고 궁극적으로 버려지는 대체 탐색적 사고를 생성하지 않습니다. IoT 프레임워크의 세 가지 구성 요소는 (1) 유익한 상황별 프롬프트를 생성하는 IDA(내부 대화 에이전트), (2) 이러한 프롬프트를 처리하여 응답을 구체화하는 LLMA(LLM 에이전트), (3) 앞의 두 요소 간의 대화를 구현하는 반복적인 프롬프트 루프입니다. 이 프레임워크의 두 가지 변형을 소개합니다: LLM이 반복을 중단할 시점을 결정하는 자율 반복(AIoT)과 항상 고정된 횟수의 반복을 강제하는 유도 반복(GIoT)이 그것입니다. GPQA 데이터 세트의 복잡한 추론 작업, Game of 24의 탐색적 문제 해결, 미니 크로스워드의 퍼즐 풀이, HotpotQA 데이터 세트의 멀티홉 질문 답변 등 다양한 데이터 세트에서 IoT의 성능을 조사합니다. 연구 결과에 따르면 IoT는 LLM의 자율적 응답 개선을 위한 실행 가능한 패러다임으로, CoT에 비해 상당한 개선을 보여줌으로써 사람의 개입을 최소화하는 보다 적응적이고 효율적인 추론 시스템을 구현할 수 있음을 보여줍니다.
Iterative human engagement is a common and effective means of leveraging the advanced language processing power of large language models (LLMs). Using well-structured prompts in a conversational manner, human users can effectively influence an LLM to develop more thoughtful and accurate responses. Motivated by this insight, we propose the Iteration of Thought (IoT) framework for enhancing LLM responses by generating "thought"-provoking prompts vis a vis an input query and the current iteration of an LLM's response. Unlike static or semi-static approaches, e.g. Chain of Thought (CoT) or Tree of Thoughts (ToT), IoT adapts its reasoning path dynamically, based on evolving context, and without generating alternate explorative thoughts which are ultimately discarded. The three components of the IoT framework are (1) an Inner Dialogue Agent (IDA) responsible for generating instructive, context-specific prompts; (2) an LLM Agent (LLMA) that processes these prompts to refine its responses; and (3) an iterative prompting loop that implements a conversation between the former two components. We introduce two variants of our framework: Autonomous Iteration of Thought (AIoT), where an LLM decides when to stop iterating, and Guided Iteration of Thought (GIoT), which always forces a fixed number iterations. We investigate the performance of IoT across various datasets, spanning complex reasoning tasks from the GPQA dataset, explorative problem-solving in Game of 24, puzzle solving in Mini Crosswords, and multi-hop question answering from the HotpotQA dataset. Our results show that IoT represents a viable paradigm for autonomous response refinement in LLMs, showcasing significant improvements over CoT and thereby enabling more adaptive and efficient reasoning systems that minimize human intervention.
논문 링크
https://arxiv.org/abs/2409.12618
더 읽어보기
https://x.com/omarsar0/status/1836977595847692671
슈뢰딩거의 기억: 대규모 언어 모델 / Schrodinger's Memory: Large Language Models
논문 소개
범용 근사 정리를 사용해 LLM의 메모리 메커니즘을 설명합니다. 또한 다양한 모델의 메모리 용량을 비교하여 LLM 성능을 평가하는 새로운 접근 방식을 제안하고, 트랜스포머 아키텍처는 입력을 적응적으로 맞추는 강력한 기능을 갖춘 동적 맞춤 UAT 모델로 작동하여 최소한의 입력 정보로 전체 콘텐츠를 리콜할 수 있습니다.
Uses the Universal Approximation Theorem to explain the memory mechanism of LLMs. It also proposes a new approach to evaluate LLM performance by comparing the memory capacities of different models; the Transformer architecture functions as a dynamic fitting UAT model, with a strong ability to adaptively fit inputs; this enables LLMs to recall entire content based on minimal input information.
논문 초록(Abstract)
기억은 모든 인간 활동의 기초이며, 기억이 없다면 일상 생활에서 어떤 일을 수행하는 것은 거의 불가능할 것입니다. 대규모 언어 모델(LLM)의 발전으로 언어 능력은 점점 인간과 비슷해지고 있습니다. 하지만 LLM에도 메모리가 있을까요? 현재의 성능으로 볼 때 LLM은 기억력을 가지고 있는 것으로 보입니다. 그렇다면 이러한 기억의 기본 메커니즘은 무엇일까요? 이전 연구에서는 LLM의 기억 능력과 그 기반이 되는 이론에 대한 심층적인 탐구가 부족했습니다. 이 논문에서는 범용 근사 정리(UAT)를 사용해 LLM의 메모리 메커니즘을 설명합니다. 또한 다양한 LLM의 메모리 능력을 검증하기 위한 실험을 수행하여 이러한 메모리 능력을 기반으로 능력을 평가하는 새로운 방법을 제안합니다. 우리는 LLM 메모리가 슈뢰딩거의 메모리처럼 작동하여 특정 메모리를 쿼리할 때만 관찰할 수 있다고 주장합니다. 쿼리에 대한 응답으로 모델이 메모리를 보유하고 있는지 여부만 확인할 수 있으며, 그렇지 않으면 불확실한 상태로 남아 있습니다. 마지막으로, 인간 두뇌와 LLM의 기억 능력을 비교하여 작동 메커니즘의 유사점과 차이점을 강조함으로써 이 개념을 확장합니다.
Memory is the foundation of all human activities; without memory, it would be nearly impossible for people to perform any task in daily life. With the development of Large Language Models (LLMs), their language capabilities are becoming increasingly comparable to those of humans. But do LLMs have memory? Based on current performance, LLMs do appear to exhibit memory. So, what is the underlying mechanism of this memory? Previous research has lacked a deep exploration of LLMs' memory capabilities and the underlying theory. In this paper, we use Universal Approximation Theorem (UAT) to explain the memory mechanism in LLMs. We also conduct experiments to verify the memory capabilities of various LLMs, proposing a new method to assess their abilities based on these memory ability. We argue that LLM memory operates like Schr"odinger's memory, meaning that it only becomes observable when a specific memory is queried. We can only determine if the model retains a memory based on its output in response to the query; otherwise, it remains indeterminate. Finally, we expand on this concept by comparing the memory capabilities of the human brain and LLMs, highlighting the similarities and differences in their operational mechanisms.
논문 링크
https://arxiv.org/abs/2409.10482
더 읽어보기
https://x.com/omarsar0/status/1835882330323554321
기호 수학으로 대규모 언어 모델 탈옥하기 / Jailbreaking Large Language Models with Symbolic Mathematics
논문 소개
효과적인 탈옥 기법으로 사용되는 수학적으로 인코딩된 프롬프트를 생성하기 위해 GPT-4o를 사용하며, 13개의 최첨단 장비에서 평균 73.6%의 공격 성공률을 보여 기존의 안전 훈련 메커니즘이 수학적으로 인코딩된 입력에 일반화할 수 없음을 강조합니다.
Uses GPT-4o to generate mathematically encoded prompts that serve as an effective jailbreaking technique; shows an average attack success rate of 73.6% across 13 state-of-the-art; this highlights the inability of existing safety training mechanisms to generalize to mathematically encoded inputs.
논문 초록(Abstract)
최근 AI 안전성의 발전으로 인해 안전하지 않은 콘텐츠 생성을 완화하기 위해 대규모 언어 모델(LLM)을 학습하고 레드팀화하는 노력이 증가하고 있습니다. 그러나 이러한 안전 메커니즘은 포괄적이지 않아 잠재적인 취약점을 발견하지 못할 수 있습니다. 이 백서에서는 LLM의 고급 기호 수학 기능을 악용하여 안전 메커니즘을 우회하는 새로운 탈옥 기법인 MathPrompt를 소개합니다. 유해한 자연어 프롬프트를 수학 문제로 인코딩함으로써 현재 AI 안전 조치의 심각한 취약점을 보여줍니다. 13개의 최신 LLM에 대한 실험 결과, 평균 공격 성공률이 73.6%에 달해 기존의 안전 훈련 메커니즘이 수학적으로 인코딩된 입력에 일반화할 수 없음을 보여주었습니다. 임베딩 벡터를 분석한 결과, 원본 프롬프트와 인코딩된 프롬프트 사이에 상당한 의미적 변화가 있는 것으로 나타나 공격의 성공을 설명하는 데 도움이 됩니다. 이 연구는 AI 안전에 대한 총체적인 접근 방식의 중요성을 강조하며, 모든 잠재적 입력 유형과 관련 위험에 대해 강력한 안전장치를 개발하기 위한 레드팀 노력을 확대할 것을 촉구합니다.
Recent advancements in AI safety have led to increased efforts in training and red-teaming large language models (LLMs) to mitigate unsafe content generation. However, these safety mechanisms may not be comprehensive, leaving potential vulnerabilities unexplored. This paper introduces MathPrompt, a novel jailbreaking technique that exploits LLMs' advanced capabilities in symbolic mathematics to bypass their safety mechanisms. By encoding harmful natural language prompts into mathematical problems, we demonstrate a critical vulnerability in current AI safety measures. Our experiments across 13 state-of-the-art LLMs reveal an average attack success rate of 73.6%, highlighting the inability of existing safety training mechanisms to generalize to mathematically encoded inputs. Analysis of embedding vectors shows a substantial semantic shift between original and encoded prompts, helping explain the attack's success. This work emphasizes the importance of a holistic approach to AI safety, calling for expanded red-teaming efforts to develop robust safeguards across all potential input types and their associated risks.
논문 링크
https://arxiv.org/abs/2409.11445
더 읽어보기
https://x.com/omarsar0/status/1836603922405806501
원문
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-277
- 이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.* 🤗
⚠️광고⚠️: 🔥파이토치 한국 사용자 모임🇰🇷이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일💌로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)