5P by ninebow 7달전 | favorite | 댓글과 토론

개요

  • DAIR.AI에서 매주 공개하는 ML 논문들에 대한 글을 자동 번역해보았습니다.

  • 이번 주에 선정된 논문들은 주로 'Large Language Models(LLMs)', 'Reasoning and Attention in AI System', 그리고 'Artificial Intelligence in Medical Domain'과 관련된 경향이 있습니다.

  • 특히, 'Reasoning and Attention in AI System'에 대한 주제가 두드러지게 나타나고 있습니다. 이는 인공지능이 단순히 패턴 인식을 넘어서, 인간과 유사한 추론 및 문제 해결 능력을 갖추려는 시도를 반영합니다.

  • 의료 분야에서 인공지능의 활용에 관한 연구도 주목할 만합니다. 'LLMs as Collaborators for Medical Reasoning'은 이 분야의 중요한 예로서, 의료 데이터를 다루는 데 있어서 LLM(대규모 언어 모델)의 응용 가능성을 탐구하고 있습니다.

  • 요약하자면, 이번 주 선정된 논문들은 복잡한 추론 능력과 인간과 유사한 어텐션 집중 메커니즘의 개발, 그리고 의료 분야에서의 인공지능 응용에 초점을 맞춘 연구가 많았음을 보여주며, 이는 인공지능 기술의 발전 방향을 나타내는 중요한 지표로 해석할 수 있습니다.


(여러분에게도 필요할 수 있는) 시스템 2 어텐션/ System 2 Attention (is something you might need too)

논문 소개

  • LLM의 추론 및 명령 추종 기능을 활용하여 주의해야 할 내용을 결정하고, 입력 컨텍스트를 재생성하여 재생성된 컨텍스트에 주의하기 전에 관련 부분만 포함하도록 하여 모델의 최종 응답을 유도하며, 사실성을 높이고 QA 및 수학 세계 문제와 같은 작업에서 표준 어텐션 기반 LLM보다 우수한 성능을 발휘합니다.

    Leverages the reasoning and instruction following capabilities of llms to decide what to attend to; it regenerates input context to only include relevant portions before attending to the regenerated context to elicit the final response from the model; increases factuality and outperforms standard attention-based llms on tasks such as qa and math world problems.

논문 초록

  • 트랜스포머 기반 대규모 언어 모델(LLM)의 소프트 어텐션은 문맥과 무관한 정보를 잠재적 표현에 통합하기 쉬우며, 이는 다음 토큰 생성에 악영향을 미칩니다. 이러한 문제를 해결하기 위해 저희는 자연어로 추론하고 지침에 따라 주의해야 할 사항을 결정하는 LLM의 기능을 활용하는 시스템 2 어텐션(S2A)를 도입했습니다. S2A는 입력 컨텍스트를 관련 부분만 포함하도록 재생성하고, 재생성된 컨텍스트에 어텐션을 적용해 최종 응답을 유도합니다. 실험 결과, S2A는 의견이나 관련 없는 정보가 포함된 세 가지 작업, 즉 QA, 수학 단어 문제, 긴 형식 생성에서 사실성과 객관성을 높이고 동어반복성을 낮추는 등 표준 어텐션 기반 LLM보다 뛰어난 성능을 보였습니다.

    Soft attention in Transformer-based Large Language Models (LLMs) is susceptible to incorporating irrelevant information from the context into its latent representations, which adversely affects next token generations. To help rectify these issues, we introduce System 2 Attention (S2A), which leverages the ability of LLMs to reason in natural language and follow instructions in order to decide what to attend to. S2A regenerates the input context to only include the relevant portions, before attending to the regenerated context to elicit the final response. In experiments, S2A outperforms standard attention-based LLMs on three tasks containing opinion or irrelevant information, QA, math word problems and longform generation, where S2A increases factuality and objectivity, and decreases sycophancy.

논문 링크

https://arxiv.org/abs/2311.11829

더 읽어보기

https://x.com/jaseweston/status/1726784511357157618


긴 컨텍스트의 대규모 언어 모델에서 트랜스포머 아키텍처의 발전: 종합적인 설문 조사 / Advancing Transformer Architecture in Long-Context Large Language Models: A Comprehensive Survey

논문 소개

  • 사전 학습에서 추론에 이르는 모든 단계에서 긴 컨텍스트 기능을 최적화하는 트랜스포머 아키텍처 모듈을 개선하기 위한 방법론에 대한 개요입니다.

    An overview of the methodologies for enhancing transformer architecture modules that optimize long-context capabilities across all stages from pre-training to inference.

논문 초록

  • ChatGPT가 촉발한 트랜스포머 기반 대규모 언어 모델(LLM)은 인공지능(AGI)을 향한 혁신적인 길을 열었으며 지식 기반, 휴먼 인터페이스, 동적 에이전트 등 다양한 영역에 적용되고 있습니다. 그러나 리소스의 제약을 받는 현재의 많은 LLM은 주로 짧은 텍스트를 대상으로 사전 학습되어 실제 환경에서 흔히 접하는 긴 문맥의 프롬프트에는 효율성이 떨어진다는 한계가 존재합니다. 이 논문에서는 사전 학습에서 추론에 이르는 모든 단계에서 긴 문맥 기능을 최적화하기 위해 Transformer 기반 LLM의 모델 아키텍처 발전에 초점을 맞춘 포괄적인 설문 조사를 제시합니다. 먼저 현재 Transformer 기반 모델에서 긴 컨텍스트 입출력을 처리할 때 발생하는 문제점을 파악하고 분석합니다. 그런 다음 이러한 문제를 해결하기 위해 아키텍처에 대한 Transformer 업그레이드 환경을 탐색할 수 있는 전체적인 분류법을 주로 제공합니다. 그 다음에는 데이터 세트, 메트릭, 기준 모델 등 장기 컨텍스트 LLM에 맞춰 널리 사용되는 평가 필수 요소에 대한 조사와 함께 여러 단계에서 LLM의 효율성과 효과를 강화하는 라이브러리, 시스템, 컴파일러와 같은 놀라운 최적화 툴킷을 소개합니다. 마지막으로, 이 분야의 주요 과제와 향후 연구를 위한 잠재적 방안에 대해 논의합니다. 또한 관련 문헌을 큐레이션하여 실시간으로 업데이트하는 저장소(https://github.com/Strivin0311/long-llms-learning)를 구축했습니다.

    With the bomb ignited by ChatGPT, Transformer-based Large Language Models (LLMs) have paved a revolutionary path toward Artificial General Intelligence (AGI) and have been applied in diverse areas as knowledge bases, human interfaces, and dynamic agents. However, a prevailing limitation exists: many current LLMs, constrained by resources, are primarily pre-trained on shorter texts, rendering them less effective for longer-context prompts, commonly encountered in real-world settings. In this paper, we present a comprehensive survey focusing on the advancement of model architecture in Transformer-based LLMs to optimize long-context capabilities across all stages from pre-training to inference. We firstly delineate and analyze the problems of handling long-context input and output with the current Transformer-based models. Then, we mainly offer a holistic taxonomy to navigate the landscape of Transformer upgrades on architecture to solve these problems. Afterward, we provide the investigation on wildly used evaluation necessities tailored for long-context LLMs, including datasets, metrics, and baseline models, as well as some amazing optimization toolkits like libraries, systems, and compilers to augment LLMs' efficiency and efficacy across different stages. Finally, we further discuss the predominant challenges and potential avenues for future research in this domain. Additionally, we have established a repository where we curate relevant literature with real-time updates at https://github.com/Strivin0311/long-llms-learning.

논문 링크

https://arxiv.org/abs/2311.12351

더 읽어보기

https://x.com/omarsar0/status/1727358484360945750


PaSS: 병렬 투기적 샘플링 / PaSS: Parallel Speculative Sampling

논문 소개

  • 투기적 샘플링과 병렬 디코딩의 변형을 기반으로 LLM의 추론 시간을 단축하는 접근 방식으로, $O(d_{emb})$ 만큼의 추가 파라미터만 학습하여 상당한 속도 향상(최대 30%)을 달성합니다.

    Approach to reduce inference time of llms based on a variant of speculative sampling and parallel decoding; achieves significant speed-ups (up to 30%) by only learning as little as o(d_emb) additional parameters.

논문 초록

  • 언어 모델의 크기를 수백억 개의 파라미터로 확장하면 다양한 작업에서 인상적인 성능을 발휘할 수 있습니다. 생성 시 이러한 모델은 자동 회귀적으로 사용되므로 생성된 각 토큰에 대해 포워드 패스가 필요하며, 따라서 메모리에서 전체 파라미터 세트를 읽어야 합니다. 이러한 메모리 액세스는 생성 시 주요 병목 현상을 일으키며, 모델 크기가 커질수록 병목 현상은 더욱 심해집니다. 또한 여러 토큰에 대한 포워드 패스를 병렬로 실행하면 하나의 토큰에 대한 포워드 패스와 거의 동일한 시간이 걸리는 경우가 많습니다. 이 두 가지 관찰은 두 번째 작은 모델을 사용하여 몇 개의 토큰 초안을 작성한 다음 큰 모델의 단일 포워드 패스를 사용하여 검증하거나 거부하는 투기적 샘플링의 개발로 이어집니다. 안타깝게도 이 방법은 동일한 토큰화기를 공유하는 두 개의 모델이 필요하므로 채택이 제한됩니다. 이에 대한 대안으로, 저희는 계산 비용이나 두 번째 모델이 필요 없이 단일 모델에서 여러 토큰을 초안으로 작성하는 방법으로 병렬 디코딩을 사용할 것을 제안합니다. 이 접근 방식은 동시에 생성될 단어를 표시하는 추가 입력 토큰만 필요합니다. 최대 $30%$ 의 속도 향상이라는 유망한 성능을 보여주면서도 $O(d_{emb})$ 만큼의 추가 매개변수만 필요합니다.

    Scaling the size of language models to tens of billions of parameters has led to impressive performance on a wide range of tasks. At generation, these models are used auto-regressively, requiring a forward pass for each generated token, and thus reading the full set of parameters from memory. This memory access forms the primary bottleneck for generation and it worsens as the model size increases. Moreover, executing a forward pass for multiple tokens in parallel often takes nearly the same time as it does for just one token. These two observations lead to the development of speculative sampling, where a second smaller model is used to draft a few tokens, that are then validated or rejected using a single forward pass of the large model. Unfortunately, this method requires two models that share the same tokenizer and thus limits its adoption. As an alternative, we propose to use parallel decoding as a way to draft multiple tokens from a single model with no computational cost, nor the need for a second model. Our approach only requires an additional input token that marks the words that will be generated simultaneously. We show promising performance (up to $30%$ speed-up) while requiring only as few as $O(d_{emb})$ additional parameters.

논문 링크

https://arxiv.org/abs/2311.13581

더 읽어보기

https://x.com/omarsar0/status/1728066181796418009


Mirasol3B: 시간 및 상황별 모달리티를 위한 다중 모달 자동 회귀 모델 / Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities

논문 소개

  • 오디오, 비디오, 텍스트를 아우르는 학습을 위한 멀티모달 모델로, 멀티모달 모델링을 별도의 집중된 자동 회귀 모델로 분리하고 입력은 모달리티에 따라 처리되며, 다른 모델에 비해 긴 비디오를 처리할 수 있고 비디오 QA, 긴 비디오 QA, 오디오-비디오-텍스트 벤치마크에서 최신 접근 방식보다 우수한 성능을 발휘합니다.

    A multimodal model for learning across audio, video, and text which decouples the multimodal modeling into separate, focused autoregressive models; the inputs are processed according to the modalities; this approach can handle longer videos compared to other models and it outperforms state-of-the-art approach on video qa, long video qa, and audio-video-text benchmark.

논문 초록

  • 멀티모달 학습의 주요 과제 중 하나는 이질적인 양식(예: 비디오, 오디오, 텍스트)을 결합해야 한다는 점입니다. 예를 들어, 비디오와 오디오는 텍스트보다 훨씬 빠른 속도로 획득되며 시간적으로도 거의 일치합니다. 제목이나 설명과 같이 글로벌 컨텍스트로 제공되는 텍스트와 동기화되지 않는 경우가 많습니다. 또한 비디오 및 오디오 입력은 훨씬 더 큰 용량을 가지며 비디오 길이가 길어짐에 따라 증가하기 때문에 당연히 이러한 양식 전용 컴퓨팅이 더 많이 필요하고 장거리 종속성 모델링이 더 어려워집니다. 여기서는 멀티모달 모델링을 분리하여 각 모달리티의 특성에 따라 입력을 처리하는 별도의 집중된 자동 회귀 모델로 나눕니다. 시간 동기화된 모달리티(오디오 및 비디오)를 위한 자동 회귀 구성 요소와 시간적으로 반드시 정렬되지는 않지만 순차적인 컨텍스트 모달리티를 위한 자동 회귀 구성 요소로 구성된 Mirasol3B라는 다중 모달 모델을 제안합니다. 비디오-오디오 입력의 긴 시퀀스를 처리하기 위해 비디오와 오디오 시퀀스를 연속적인 스니펫으로 분할하고 그 표현을 자동 회귀적으로 처리할 것을 제안합니다. 이를 위해 오디오-비디오 정보를 시간 프레임 내에서 공동으로 모델링하는 결합기(Combiner) 메커니즘을 제안합니다. 결합기는 원시 시공간 신호에서 오디오 및 비디오 특징을 추출하는 방법을 학습한 다음, 이러한 특징을 융합하여 간결하면서도 표현력이 풍부한 스니펫별 표현을 생성하는 방법을 학습합니다. 이러한 접근 방식은 잘 정립된 멀티모달 벤치마크에서 훨씬 더 큰 규모의 모델을 능가하는 최첨단 성능을 달성합니다. 또한 간결한 표현을 학습하고 오디오-비디오 피처 표현의 시퀀스 길이를 제어하며 시간 종속성을 모델링함으로써 미디어 입력의 높은 연산 수요를 효과적으로 처리합니다.

    One of the main challenges of multimodal learning is the need to combine heterogeneous modalities (e.g., video, audio, text). For example, video and audio are obtained at much higher rates than text and are roughly aligned in time. They are often not synchronized with text, which comes as a global context, e.g., a title, or a description. Furthermore, video and audio inputs are of much larger volumes, and grow as the video length increases, which naturally requires more compute dedicated to these modalities and makes modeling of long-range dependencies harder. We here decouple the multimodal modeling, dividing it into separate, focused autoregressive models, processing the inputs according to the characteristics of the modalities. We propose a multimodal model, called Mirasol3B, consisting of an autoregressive component for the time-synchronized modalities (audio and video), and an autoregressive component for the context modalities which are not necessarily aligned in time but are still sequential. To address the long-sequences of the video-audio inputs, we propose to further partition the video and audio sequences in consecutive snippets and autoregressively process their representations. To that end, we propose a Combiner mechanism, which models the audio-video information jointly within a timeframe. The Combiner learns to extract audio and video features from raw spatio-temporal signals, and then learns to fuse these features producing compact but expressive representations per snippet. Our approach achieves the state-of-the-art on well established multimodal benchmarks, outperforming much larger models. It effectively addresses the high computational demand of media inputs by both learning compact representations, controlling the sequence length of the audio-video feature representations, and modeling their dependencies in time.

논문 링크

https://arxiv.org/abs/2311.05698

더 읽어보기

https://x.com/GoogleAI/status/1724553024088191211


Orca 2: 작은 언어 모델에 추론하는 방법 가르치기 / Orca 2: Teaching Small Language Models How to Reason

논문 소개

  • 더 작은 언어 모델에 추론을 가르치는 접근 방식을 제안합니다. 구체적으로 단계별 처리, 회상 후 생성, 회상 이유 생성, 추출 생성 및 직접 답변 방법과 같은 추론 기술을 사용하는 것으로 생각되며, 제로 샷 설정에서 고급 추론 능력을 테스트하는 복잡한 작업에서 평가할 때 비슷한 크기의 모델을 능가하고 5-10배 큰 모델과 비슷하거나 더 나은 성능 수준을 달성하는 것으로 알려져 있습니다.

    Proposes an approach to teach smaller language models to reason; specifically, the lm is thought to use reasoning techniques, such as step-by-step processing, recall-then-generate, recall-reason-generate, extract-generate, and direct-answer methods; outperforms models of similar size and attains performance levels similar or better to those of models 5-10x larger, as assessed on complex tasks that test advanced reasoning abilities in zero-shot settings.

논문 초록

  • Orca 1은 설명 추적과 같은 풍부한 신호로부터 학습하여 BigBench Hard 및 AGIEval과 같은 벤치마크에서 기존의 인스트럭션 튜닝 모델보다 뛰어난 성능을 발휘합니다. Orca 2에서는 개선된 학습 신호가 어떻게 소규모 LM의 추론 능력을 향상시킬 수 있는지 계속 연구하고 있습니다. 소규모 LM을 학습하는 연구는 종종 더 유능한 모델의 결과를 복제하기 위해 모방 학습에 의존해 왔습니다. 하지만 모방 학습을 지나치게 강조하면 작은 모델의 잠재력을 제한할 수 있다고 주장합니다. 저희는 소규모 LM이 대형 모델에서 사용하는 것과는 다른, 다양한 작업에 대해 다른 솔루션 전략을 사용하도록 가르치고자 합니다. 예를 들어, 큰 모델은 복잡한 과제에 대한 직접적인 해답을 제공할 수 있지만 작은 모델은 그렇지 않을 수 있습니다. Orca 2에서는 모델에 다양한 추론 기법(단계별, 회상 후 생성, 회상 후 이유 생성, 직접 답변 등)을 학습시킵니다. 더 중요한 것은 모델이 각 과제에 가장 효과적인 솔루션 전략을 결정하는 방법을 학습하도록 돕는 것입니다. 15개의 다양한 벤치마크(약 100개의 작업과 36,000개 이상의 고유 프롬프트에 해당)로 구성된 종합적인 세트를 사용하여 Orca 2를 평가합니다. Orca 2는 제로 샷 환경에서 고급 추론 능력을 테스트하는 복잡한 과제에서 평가한 결과 비슷한 크기의 모델을 크게 능가하고 5-10배 더 큰 모델과 비슷하거나 더 나은 성능 수준을 달성했습니다. 더 작은 LM의 개발, 평가 및 조율에 대한 연구를 지원하기 위해 Orca 2 가중치를 aka.ms/orca-lm에서 공개적으로 사용할 수 있게 합니다

    Orca 1 learns from rich signals, such as explanation traces, allowing it to outperform conventional instruction-tuned models on benchmarks like BigBench Hard and AGIEval. In Orca 2, we continue exploring how improved training signals can enhance smaller LMs' reasoning abilities. Research on training small LMs has often relied on imitation learning to replicate the output of more capable models. We contend that excessive emphasis on imitation may restrict the potential of smaller models. We seek to teach small LMs to employ different solution strategies for different tasks, potentially different from the one used by the larger model. For example, while larger models might provide a direct answer to a complex task, smaller models may not have the same capacity. In Orca 2, we teach the model various reasoning techniques (step-by-step, recall then generate, recall-reason-generate, direct answer, etc.). More crucially, we aim to help the model learn to determine the most effective solution strategy for each task. We evaluate Orca 2 using a comprehensive set of 15 diverse benchmarks (corresponding to approximately 100 tasks and over 36,000 unique prompts). Orca 2 significantly surpasses models of similar size and attains performance levels similar or better to those of models 5-10x larger, as assessed on complex tasks that test advanced reasoning abilities in zero-shot settings. make Orca 2 weights publicly available at aka.ms/orca-lm to support research on the development, evaluation, and alignment of smaller LMs

논문 링크

https://arxiv.org/abs/2311.11045

더 읽어보기

https://x.com/omarsar0/status/1726990087399915995


GPQA: 대학원 수준의 구글 검증 Q&A 벤치마크 / GPQA: A Graduate-Level Google-Proof Q&A Benchmark

논문 소개

  • 생물학, 물리학, 화학 분야의 도메인 전문가가 작성한 448개의 객관식 문제로 구성된 대학원 수준의 Google 검증 QA 벤치마크를 제안합니다. 가장 강력한 GPT-4 기반 기준은 39%의 정확도를 달성하며, 이 벤치마크는 확장 가능한 감독 실험을 제공하여 인간의 능력을 능가하는 최신 AI 시스템으로부터 신뢰할 수 있고 진실된 정보를 얻을 수 있도록 지원합니다.

    Proposes a graduate-level google-proof qa benchmark consisting of 448 multiple-choice questions written by domain experts in biology, physics, and chemistry; the strongest gpt-4 based baseline achieves 39% accuracy; this benchmark offers scalable oversight experiments that can help obtain reliable and truthful information from modern ai systems that surpass human capabilities.

논문 초록

  • 생물학, 물리학, 화학 분야의 전문가들이 출제한 448개의 객관식 문제로 구성된 고난이도 데이터셋인 GPQA를 제공합니다. 해당 분야의 박사 학위를 취득했거나 취득 중인 전문가의 정답률은 65%(전문가가 돌이켜보면 명백한 실수를 제외하면 74%)에 달하는 반면, 고도로 숙련된 비전문가 검증자는 평균 30분 이상 웹에 제한 없이 액세스했음에도 불구하고 정답률이 34%에 불과했습니다(즉, 문제가 'Google 검증'을 거쳤음). 가장 강력한 GPT-4 기반 기준선도 39%의 정확도를 달성하는 등 최첨단 AI 시스템에도 어려운 문제입니다. 예를 들어 새로운 과학 지식을 개발할 때와 같이 매우 어려운 질문에 답하는 데 미래의 AI 시스템을 사용하려면, 인간이 그 결과물을 감독할 수 있는 확장 가능한 감독 방법을 개발해야 하는데, 이는 감독자가 숙련되고 지식이 풍부하더라도 어려울 수 있습니다. 숙련된 비전문가와 프론티어 AI 시스템 모두에 대한 GPQA의 난이도는 현실적으로 확장 가능한 감독 실험을 가능하게 하며, 이를 통해 인간 전문가가 인간의 능력을 능가하는 AI 시스템으로부터 진실한 정보를 안정적으로 얻을 수 있는 방법을 고안하는 데 도움이 될 것으로 기대합니다.

    We present GPQA, a challenging dataset of 448 multiple-choice questions written by domain experts in biology, physics, and chemistry. We ensure that the questions are high-quality and extremely difficult: experts who have or are pursuing PhDs in the corresponding domains reach 65% accuracy (74% when discounting clear mistakes the experts identified in retrospect), while highly skilled non-expert validators only reach 34% accuracy, despite spending on average over 30 minutes with unrestricted access to the web (i.e., the questions are "Google-proof"). The questions are also difficult for state-of-the-art AI systems, with our strongest GPT-4 based baseline achieving 39% accuracy. If we are to use future AI systems to help us answer very hard questions, for example, when developing new scientific knowledge, we need to develop scalable oversight methods that enable humans to supervise their outputs, which may be difficult even if the supervisors are themselves skilled and knowledgeable. The difficulty of GPQA both for skilled non-experts and frontier AI systems should enable realistic scalable oversight experiments, which we hope can help devise ways for human experts to reliably get truthful information from AI systems that surpass human capabilities.

논문 링크

https://arxiv.org/abs/2311.12022

더 읽어보기

https://x.com/idavidrein/status/1727033002234909060


언어 인텔리전스 점화: 연쇄 추론(CoT)에서 언어 에이전트까지의 히치하이커를 위한 가이드 / Igniting Language Intelligence: The Hitchhiker's Guide From Chain-of-Thought Reasoning to Language Agents

논문 소개

  • CoT(Chain-of-Thought) 추론, CoT(Chain-of-Thought) 기술을 뒷받침하는 기본 메커니즘 및 언어 에이전트 프레임워크에 대한 적용에 대한 요약입니다.

    Summary of cot reasoning, foundational mechanics underpinning cot techniques, and their application to language agent frameworks.

논문 초록

  • 대규모 언어 모델(LLM)은 다양한 복잡한 추론 작업에 대한 강력한 경험적 성능으로 입증된 바와 같이 언어 지능 분야를 획기적으로 향상시켰습니다. 또한 이론적 증명을 통해 새로운 추론 능력이 밝혀지면서 언어적 맥락에서 고급 인지 능력을 강력하게 보여줄 수 있게 되었습니다. 복잡한 추론 작업을 처리하는 데 탁월한 효과를 발휘하는 데 중요한 역할을 하는 LLM은 흥미로운 생각의 사슬(CoT) 추론 기법을 활용하여 답을 도출하는 과정에서 중간 단계를 공식화해야 합니다. CoT 추론 접근 방식은 추론 성능을 증폭시킬 뿐만 아니라 해석 가능성, 제어 가능성 및 유연성을 향상시키는 데에도 능숙함을 보여 왔습니다. 이러한 장점에 비추어 최근의 연구 노력은 다양한 환경에서 언어 지시를 능숙하게 준수하고 작업을 실행하는 자율 언어 에이전트의 개발을 촉진하기 위해 CoT 추론 방법론을 확장했습니다. 이 설문조사 논문은 (i) CoT 기술의 기본 메커니즘과 그 효능의 배경과 정당성을 밝히는 데 중점을 두고, (ii) CoT의 패러다임 전환, (iii) CoT 접근법으로 강화된 언어 에이전트의 급성장 등 중요한 연구 차원을 관통하는 철저한 담론을 조율합니다. 향후 연구 방향은 일반화, 효율성, 맞춤화, 확장 및 안전성에 대한 탐구를 포괄합니다. 이 논문은 CoT 추론과 언어 에이전트에 대한 포괄적인 지식을 원하는 초보자부터 기초 역학에 관심이 있고 이러한 주제에 대한 최신 토론에 참여하는 숙련된 연구자까지 폭넓은 독자를 대상으로 합니다. 관련 논문 저장소는 https://github.com/Zoeyyao27/CoT-Igniting-Agent 에서 확인할 수 있습니다.

    Large language models (LLMs) have dramatically enhanced the field of language intelligence, as demonstrably evidenced by their formidable empirical performance across a spectrum of complex reasoning tasks. Additionally, theoretical proofs have illuminated their emergent reasoning capabilities, providing a compelling showcase of their advanced cognitive abilities in linguistic contexts. Critical to their remarkable efficacy in handling complex reasoning tasks, LLMs leverage the intriguing chain-of-thought (CoT) reasoning techniques, obliging them to formulate intermediate steps en route to deriving an answer. The CoT reasoning approach has not only exhibited proficiency in amplifying reasoning performance but also in enhancing interpretability, controllability, and flexibility. In light of these merits, recent research endeavors have extended CoT reasoning methodologies to nurture the development of autonomous language agents, which adeptly adhere to language instructions and execute actions within varied environments. This survey paper orchestrates a thorough discourse, penetrating vital research dimensions, encompassing: (i) the foundational mechanics of CoT techniques, with a focus on elucidating the circumstances and justification behind its efficacy; (ii) the paradigm shift in CoT; and (iii) the burgeoning of language agents fortified by CoT approaches. Prospective research avenues envelop explorations into generalization, efficiency, customization, scaling, and safety. This paper caters to a wide audience, including beginners seeking comprehensive knowledge of CoT reasoning and language agents, as well as experienced researchers interested in foundational mechanics and engaging in cutting-edge discussions on these topics. A repository for the related papers is available at https://github.com/Zoeyyao27/CoT-Igniting-Agent.

논문 링크

https://arxiv.org/abs/2311.11797

더 읽어보기

https://x.com/omarsar0/status/1726803725220487277


GAIA: 일반 AI 어시스턴트를 위한 벤치마크 / GAIA: a benchmark for General AI Assistants

논문 소개

  • 추론, 멀티모달 처리, 웹 브라우징 및 일반적인 도구 사용 숙련도와 같은 일련의 기본 능력이 필요한 실제 질문으로 구성된 일반 AI 비서에 대한 벤치마크에 따르면 인간 응답자는 92%, 플러그인을 탑재한 GPT-4는 15%의 점수를 얻었습니다.

    A benchmark for general ai assistants consisting of real-world questions that require a set of fundamental abilities such as reasoning, multimodal handling, web browsing, and generally tool-use proficiency; shows that human respondents obtain 92% vs. 15% for gpt-4 equipped with plugins.

논문 초록

  • 해결된다면 AI 연구의 이정표가 될 일반 AI 어시스턴트의 벤치마크인 GAIA를 소개합니다. GAIA는 추론, 다중 양식 처리, 웹 브라우징 및 일반적으로 도구 사용 숙련도와 같은 일련의 기본 능력을 필요로 하는 실제 세계 질문을 제안합니다. GAIA의 질문은 개념적으로 인간에게는 간단하지만 대부분의 고급 AI에게는 어려운 문제입니다. 인간 응답자는 92%, 플러그인이 장착된 GPT-4의 경우 15%의 정답률을 보였습니다. 이러한 현저한 성능 격차는 법률이나 화학 등 전문적인 기술이 필요한 작업에서 인간을 능가하는 최근의 추세와는 대조적입니다. GAIA의 철학은 인간에게 더욱 어려운 작업을 목표로 삼는 현재의 AI 벤치마크 트렌드에서 출발합니다. 우리는 인공 일반 지능(AGI)의 출현이 이러한 문제에 대해 평균적인 인간과 유사한 견고함을 보여줄 수 있는 시스템의 능력에 달려 있다고 가정합니다. 저희는 GAIA의 방법론을 사용하여 466개의 질문과 그에 대한 답변을 고안했습니다. 저희는 질문을 공개하고 그 중 300개의 질문에 대한 답변은 https://huggingface.co/gaia-benchmark 에서 확인할 수 있는 리더보드에 공개합니다.

    We introduce GAIA, a benchmark for General AI Assistants that, if solved, would represent a milestone in AI research. GAIA proposes real-world questions that require a set of fundamental abilities such as reasoning, multi-modality handling, web browsing, and generally tool-use proficiency. GAIA questions are conceptually simple for humans yet challenging for most advanced AIs: we show that human respondents obtain 92% vs. 15% for GPT-4 equipped with plugins. This notable performance disparity contrasts with the recent trend of LLMs outperforming humans on tasks requiring professional skills in e.g. law or chemistry. GAIA's philosophy departs from the current trend in AI benchmarks suggesting to target tasks that are ever more difficult for humans. We posit that the advent of Artificial General Intelligence (AGI) hinges on a system's capability to exhibit similar robustness as the average human does on such questions. Using GAIA's methodology, we devise 466 questions and their answer. We release our questions while retaining answers to 300 of them to power a leader-board available at https://huggingface.co/gaia-benchmark.

논문 링크

https://arxiv.org/abs/2311.12983

더 읽어보기

https://x.com/ThomasScialom/status/1727683993045201339


메드에이전트: 제로 샷 의료 추론을 위한 협업자로서의 대규모 언어 모델 / MedAgents: Large Language Models as Collaborators for Zero-shot Medical Reasoning

논문 소개

  • 롤플레잉 로보틱스 기반 에이전트를 활용하여 로보틱스 숙련도와 추론 능력을 향상시키는 의료 영역의 협업 멀티라운드 프레임워크를 제안합니다.

    Proposes a collaborative multi-round framework for the medical domain that leverages role-playing llm-based agents to enhance llm proficiency and reasoning capabilities.

논문 초록

  • 대규모 언어 모델(LLM)은 다양한 일반 도메인에서 괄목할 만한 발전을 이루었음에도 불구하고 의학 및 헬스케어 분야에서 상당한 장벽에 부딪히고 있습니다. 이 분야는 도메인별 용어와 전문 지식에 대한 추론과 같은 고유한 과제에 직면해 있습니다. 이러한 고질적인 문제를 해결하기 위해 유니티는 의료 분야를 위한 새로운 다분야 협업(MC) 프레임워크를 제안합니다. 이 프레임워크는 롤플레잉 LLM 기반 에이전트를 활용하여 다자간 협업 토론에 참여함으로써 LLM 숙련도와 추론 능력을 향상시킵니다. 교육이 필요 없고 해석이 가능한 이 프레임워크는 도메인 전문가를 모으고, 개별 분석을 제안하고, 이러한 분석을 보고서로 요약하고, 합의에 도달할 때까지 토론을 반복하고, 최종적으로 의사 결정을 내리는 5가지 중요한 단계를 포괄합니다. 특히 제로 샷 시나리오에 초점을 맞춘 연구 결과, 9개의 데이터 세트(MedQA, MedMCQA, PubMedQA 및 MMLU의 6개 하위 작업)에 대한 연구 결과, 우리가 제안한 MC 프레임워크가 LLM의 의료 전문 지식을 마이닝하고 활용하며 추론 능력을 확장하는 데 탁월하다는 사실이 입증되었습니다. 이러한 결과를 바탕으로, 우리는 방법 내에서 일반적인 오류를 찾아내고 분류하기 위한 인적 평가와 다양한 요인이 전체 성능에 미치는 영향을 이해하기 위한 제거 연구를 추가로 수행했습니다. 코드에 대한 자세한 내용은 \url{https://github.com/gersteinlab/MedAgents}에서 확인할 수 있습니다.

    Large Language Models (LLMs), despite their remarkable progress across various general domains, encounter significant barriers in medicine and healthcare. This field faces unique challenges such as domain-specific terminologies and the reasoning over specialized knowledge. To address these obstinate issues, we propose a novel Multi-disciplinary Collaboration (MC) framework for the medical domain that leverages role-playing LLM-based agents who participate in a collaborative multi-round discussion, thereby enhancing LLM proficiency and reasoning capabilities. This training-free and interpretable framework encompasses five critical steps: gathering domain experts, proposing individual analyses, summarising these analyses into a report, iterating over discussions until a consensus is reached, and ultimately making a decision. Our work particularly focuses on the zero-shot scenario, our results on nine data sets (MedQA, MedMCQA, PubMedQA, and six subtasks from MMLU) establish that our proposed MC framework excels at mining and harnessing the medical expertise in LLMs, as well as extending its reasoning abilities. Based on these outcomes, we further conduct a human evaluation to pinpoint and categorize common errors within our method, as well as ablation studies aimed at understanding the impact of various factors on overall performance. Our code can be found at \url{https://github.com/gersteinlab/MedAgents}.

논문 링크

https://arxiv.org/abs/2311.10537

더 읽어보기

https://x.com/omarsar0/status/1726627951582511135


변화하는 기후 속 낙타: Tulu 2로 LM 적응력 향상 / Camels in a Changing Climate: Enhancing LM Adaptation with Tulu 2

논문 소개

  • 사전 학습된 언어 모델을 다운스트림 작업 및 사용자 선호도에 맞게 조정하는 데 대한 이해와 모범 사례를 향상시키기 위해 개선된 튜루 모델 제품군을 제공하며, 튜루 2 제품군은 개방형 모델 중 최첨단 성능을 달성하고 여러 벤치마크에서 GPT-3.5-Turbo-0301의 성능과 일치하거나 이를 능가합니다.

    Presents a suite of improved tülu models for advancing the understanding and best practices of adapting pretrained language models to downstream tasks and user preferences; tülu 2 suite achieves state-of-the-art performance among open models and matches or exceeds the performance of gpt-3.5-turbo-0301 on several benchmarks.

논문 초록

  • Tülu 출시 이후[Wang et al., 2023b], 더 나은 기본 모델부터 새로운 미세 조정 기법에 이르기까지 인스트럭션 튜닝을 위한 오픈 리소스가 빠르게 발전해 왔습니다. 당사는 이러한 여러 발전 사항을 테스트하고 Tülu 에 통합하여 사전 학습된 언어 모델을 다운스트림 작업 및 사용자 선호도에 맞게 조정하는 데 대한 이해와 모범 사례를 발전시키기 위한 개선된 Tülu 모델 모음인 Tülu 2를 개발했습니다. 구체적으로 출시되는 기능은 다음과 같습니다: (1) 고품질 명령어 데이터 세트의 개선된 컬렉션인Tülu -V2-mix, (2) V2 믹스에서 미세 조정된Tülu 2, LLAMA-2 모델, (3) 현재까지 가장 큰 규모의 DPO 학습 모델(Tülu 2+DPO 70B)을 포함하여 직접 선호도 최적화(DPO)로 학습된 Tülu 2, Tülu 2 모델을 출시합니다; (4) V2 믹스에서 미세 조정된 CODETülu 2, CODE LLAMA 모델로서 CODE LLAMA와 그 인스트럭션 튜닝 변형인 CODE LLAMA-Instruct보다 우수한 성능을 발휘합니다. 다양한 관점에서의 평가 결과, Tülu 2 제품군은 개방형 모델 중 최첨단 성능을 달성하고 여러 벤치마크에서 GPT-3.5-turbo-0301의 성능과 일치하거나 이를 능가하는 것으로 나타났습니다. 향후 대규모 언어 모델 적용을 위한 개방형 노력을 촉진하기 위해 모든 체크포인트, 데이터, 학습 및 평가 코드를 공개합니다.

    Since the release of Tülu [Wang et al., 2023b], open resources for instruction tuning have developed quickly, from better base models to new finetuning techniques. We test and incorporate a number of these advances into Tülu , resulting in Tülu 2, a suite of improved Tülu models for advancing the understanding and best practices of adapting pretrained language models to downstream tasks and user preferences. Concretely, we release: (1) Tülu-V2-mix, an improved collection of high-quality instruction datasets; (2) Tülu 2, LLAMA-2 models finetuned on the V2 mixture; (3) Tülu 2+DPO, Tülu 2 models trained with direct preference optimization (DPO), including the largest DPO-trained model to date (Tülu 2+DPO 70B); (4) CODE Tülu 2, CODE LLAMA models finetuned on our V2 mix that outperform CODE LLAMA and its instruction-tuned variant, CODE LLAMA-Instruct. Our evaluation from multiple perspectives shows that the Tülu 2 suite achieves state-of-the-art performance among open models and matches or exceeds the performance of GPT-3.5-turbo-0301 on several benchmarks. We release all the checkpoints, data, training and evaluation code to facilitate future open efforts on adapting large language models.

논문 링크

https://arxiv.org/abs/2311.10702

더 읽어보기

https://x.com/natolambert/status/1727350301131518454


원문

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-a05