1P by ninebow 10달전 | favorite | 댓글과 토론

개요

  • DAIR.AI에서 매주 공개하는 ML 논문들에 대한 글을 자동 번역해보았습니다.

  • 이번 주 선정된 논문들의 경향을 살펴보면, 대규모 언어 모델(Large Language Models, LLMs) 및 그 변형들에 관한 연구가 두드러집니다. "OLMo", "Advances in Multimodal LLMs", "Corrective RAG", "LLMs for Mathematical Reasoning", "Compression Algorithms for LLMs", "MoE-LLaVA", "Rephrasing the Web", "Redefining Retrieval in RAG", "Hallucination in LVLMs", "SliceGPT" 등의 논문 제목을 바탕으로, 언어 모델의 성능 향상, 응용 확장, 효율성 증대에 초점을 맞춘 연구가 활발함을 알 수 있습니다.

  • 이러한 연구 경향은 언어 처리 기술의 한계를 극복하고 더욱 복잡한 문제를 해결하려는 학계와 산업계의 지속적인 노력이 반영된 결과로 해석될 수 있습니다. 최근 들어 LLMs는 단순한 텍스트 처리를 넘어 복잡한 수학적 추론, 다중 모달 데이터 처리, 보다 정교한 정보 검색 및 재구성 등 다양한 영역으로 응용 영역이 확대되고 있습니다. 또한, 이러한 모델들의 큰 크기와 복잡성 때문에 모델 압축과 같은 기술은 모델을 실제 환경에서 더 효율적으로 배포하고 사용할 수 있게 하는 핵심 요소로 자리 잡고 있습니다. 상대적으로 적은 자원으로 대규모 모델을 운영해야 하는 경우 이러한 기술이 중요시되는 추세입니다.

  • 또한, 'Multimodal LLMs'와 'MoE-LLaVA'에 대한 연구는 텍스트 외의 여러 형태의 데이터(예: 이미지, 소리 등)를 통합하여 처리하는 방식의 발전을 의미하며, 이는 인공지능 시스템이 현실 세계의 정보를 더욱 풍부하게 이해하고 활용할 수 있는 가능성을 보여줍니다. 모델의 해석 가능성 및 신뢰성을 높이기 위한 기법으로 'Corrective RAG'와 'Redefining Retrieval in RAG'는 모델의 추론 과정과 그 결과의 정확성을 개선하려는 시도로 볼 수 있으며, 모델들이 생성하는 콘텐츠의 질을 높이는 연구로 'Hallucination in LVLMs'와 'Rephrasing the Web'가 대표적입니다. 이 모든 추세는 다가오는 미래에 더욱 지능적이고 정교한 인공지능 시스템의 등장을 예고하는 신호로 평가됩니다.


OLMo: 언어 모델 과학의 가속화 / OLMo: Accelerating the Science of Language Models

논문 소개

  • 개방형 학습 코드, 개방형 데이터, 전체 모델 가중치, 평가 코드, 미세 조정 코드가 포함된 7b 파라미터 모델인 오픈 언어 모델(OLMo)을 도입하여 많은 생성 작업에서 강력한 성능을 보여주며, 이보다 작은 버전인 olmo 1b도 있습니다.

    Introduces open language model (olmo), a 7b parameter model; it includes open training code, open data, full model weights, evaluation code, and fine-tuning code; it shows strong performance on many generative tasks; there is also a smaller version of it, olmo 1b.

논문 초록(Abstract)

  • 언어 모델(LM)은 NLP 연구와 상용 제품 모두에서 보편화되었습니다. 언어 모델의 상업적 중요성이 급증함에 따라 가장 강력한 모델도 학습 데이터, 아키텍처, 개발에 대한 중요한 세부 정보가 공개되지 않은 채 독점적인 인터페이스 뒤에 숨어 폐쇄적으로 운영되고 있습니다. 이러한 모델을 과학적으로 연구하는 데 있어 편향성과 잠재적 위험성 등 이러한 세부 사항의 중요성을 고려할 때, 연구 커뮤니티가 강력하고 진정으로 개방된 LM에 접근할 수 있어야 한다고 생각합니다. 이를 위해 이 기술 보고서에서는 언어 모델링의 과학을 구축하고 연구하기 위한 최첨단 개방형 언어 모델이자 프레임워크인 OLMo의 첫 번째 릴리스에 대해 자세히 설명합니다. 모델 가중치와 추론 코드만 공개했던 대부분의 이전 노력과는 달리, 이번 릴리스에서는 학습 데이터와 학습 및 평가 코드를 포함한 전체 프레임워크와 OLMo를 공개합니다. 이번 릴리스가 오픈 리서치 커뮤니티에 힘을 실어주고 강화하여 새로운 혁신의 물결을 일으킬 수 있기를 바랍니다.

    Language models (LMs) have become ubiquitous in both NLP research and in commercial product offerings. As their commercial importance has surged, the most powerful models have become closed off, gated behind proprietary interfaces, with important details of their training data, architectures, and development undisclosed. Given the importance of these details in scientifically studying these models, including their biases and potential risks, we believe it is essential for the research community to have access to powerful, truly open LMs. To this end, this technical report details the first release of OLMo, a state-of-the-art, truly Open Language Model and its framework to build and study the science of language modeling. Unlike most prior efforts that have only released model weights and inference code, we release OLMo and the whole framework, including training data and training and evaluation code. We hope this release will empower and strengthen the open research community and inspire a new wave of innovation.

논문 링크

https://arxiv.org/abs/2402.00838

더 읽어보기

https://x.com/omarsar0/status/1753080417530318872


MM-LLM: 멀티모달 대규모 언어 모델의 최근 발전 사항 / MM-LLMs: Recent Advances in MultiModal Large Language Models

논문 소개

  • 멀티모달 대규모 언어 모델에 대한 모델 아키텍처 및 학습 파이프라인의 설계 공식을 설명하는 포괄적인 서베이 논문입니다.

    A comprehensive survey outlining design formulations for model architecture and training pipeline around multimodal large language models.

논문 초록(Abstract)

  • 지난 한 해 동안 다중모달 대규모 언어 모델(MM-LLM)은 비용 효율적인 학습 전략을 통해 MM 입력 또는 출력을 지원하기 위해 기성 LLM을 보강하는 등 상당한 발전을 거듭해 왔습니다. 그 결과 LLM의 고유한 추론 및 의사결정 능력을 보존할 뿐만 아니라 다양한 범위의 MM 작업을 지원할 수 있게 되었습니다. 이 논문에서는 MM-LLM에 대한 추가 연구를 촉진하기 위한 포괄적인 설문조사를 제공합니다. 구체적으로, 먼저 모델 아키텍처와 학습 파이프라인에 대한 일반적인 설계 공식에 대해 설명합니다. 그런 다음, 26$의 기존 MM-LLM을 간략하게 소개하고, 각각의 특정 공식이 특징인 MM-LLM을 소개합니다. 또한 주요 벤치마크에서 MM-LLM의 성능을 검토하고 MM-LLM의 효능을 향상시키기 위한 주요 트레이닝 레시피를 요약합니다. 마지막으로, MM-LLM의 유망한 방향을 모색하는 동시에 이 분야의 최신 개발 동향을 실시간으로 추적하는 웹사이트를 운영합니다. 이번 설문조사가 MM-LLM 분야의 지속적인 발전에 기여할 수 있기를 바랍니다.

    In the past year, MultiModal Large Language Models (MM-LLMs) have undergone substantial advancements, augmenting off-the-shelf LLMs to support MM inputs or outputs via cost-effective training strategies. The resulting models not only preserve the inherent reasoning and decision-making capabilities of LLMs but also empower a diverse range of MM tasks. In this paper, we provide a comprehensive survey aimed at facilitating further research of MM-LLMs. Specifically, we first outline general design formulations for model architecture and training pipeline. Subsequently, we provide brief introductions of $26$ existing MM-LLMs, each characterized by its specific formulations. Additionally, we review the performance of MM-LLMs on mainstream benchmarks and summarize key training recipes to enhance the potency of MM-LLMs. Lastly, we explore promising directions for MM-LLMs while concurrently maintaining a real-time tracking website for the latest developments in the field. We hope that this survey contributes to the ongoing advancement of the MM-LLMs domain.

논문 링크

https://arxiv.org/abs/2401.13601

더 읽어보기

https://x.com/omarsar0/status/1751705689964089616


CRAG: 자가 수정 검색 증강 생성 / Corrective Retrieval Augmented Generation

논문 소개

  • RAG 시스템에서 생성의 견고성을 향상시키기 위해 수정 검색 증강 생성(CRAG)을 제안하고, 핵심 아이디어는 검색기의 자가 수정 구성 요소를 구현하고 증강 생성을 위해 검색된 문서의 활용도를 향상시키는 것이며, 검색 평가기는 쿼리가 주어지면 검색된 문서의 전반적인 품질을 평가하고, 웹 검색과 최적화된 지식 활용 작업을 사용하면 자동 자가 수정과 검색된 문서의 효율적인 활용도를 향상시킬 수 있습니다.

    Proposes corrective retrieval augmented generation (CRAG) to improve the robustness of generation in a rag system; the core idea is to implement a self-correct component for the retriever and improve the utilization of retrieved documents for augmenting generation; the retrieval evaluator helps to assess the overall quality of retrieved documents given a query; using web search and optimized knowledge utilization operations can improve automatic self-correction and efficient utilization of retrieved documents.

논문 초록(Abstract)

  • 대규모 언어 모델(LLM)은 생성된 텍스트의 정확성을 캡슐화하는 파라메트릭 지식만으로는 확보할 수 없기 때문에 필연적으로 환각 현상을 보일 수밖에 없습니다. 검색 증강 생성(RAG)은 LLM을 보완할 수 있는 실용적인 방법이지만 검색된 문서의 연관성에 크게 의존하기 때문에 검색이 잘못될 경우 모델이 어떻게 작동할지에 대한 우려가 제기됩니다. 이를 위해, 저희는 생성의 견고성을 개선하기 위해 수정 검색 증강 생성(CRAG)을 제안합니다. 특히, 경량 검색 평가기는 쿼리에 대해 검색된 문서의 전반적인 품질을 평가하여 다양한 지식 검색 작업을 트리거할 수 있는 신뢰도를 반환하도록 설계되었습니다. 정적이고 제한된 말뭉치에서 검색하면 최적이 아닌 문서만 반환할 수 있기 때문에 대규모 웹 검색은 검색 결과를 보강하기 위한 확장으로 활용됩니다. 또한, 검색된 문서가 핵심 정보에 선택적으로 집중하고 관련 없는 정보를 걸러낼 수 있도록 분해 후 재구성 알고리즘이 설계되어 있습니다. CRAG는 플러그 앤 플레이 방식으로 다양한 RAG 기반 접근 방식과 원활하게 결합할 수 있습니다. 짧은 형식과 긴 형식의 생성 작업을 포함하는 4개의 데이터셋에 대한 실험 결과, CRAG가 RAG 기반 접근법의 성능을 크게 향상시킬 수 있는 것으로 나타났습니다.

    Large language models (LLMs) inevitably exhibit hallucinations since the accuracy of generated texts cannot be secured solely by the parametric knowledge they encapsulate. Although retrieval-augmented generation (RAG) is a practicable complement to LLMs, it relies heavily on the relevance of retrieved documents, raising concerns about how the model behaves if retrieval goes wrong. To this end, we propose the Corrective Retrieval Augmented Generation (CRAG) to improve the robustness of generation. Specifically, a lightweight retrieval evaluator is designed to assess the overall quality of retrieved documents for a query, returning a confidence degree based on which different knowledge retrieval actions can be triggered. Since retrieval from static and limited corpora can only return sub-optimal documents, large-scale web searches are utilized as an extension for augmenting the retrieval results. Besides, a decompose-then-recompose algorithm is designed for retrieved documents to selectively focus on key information and filter out irrelevant information in them. CRAG is plug-and-play and can be seamlessly coupled with various RAG-based approaches. Experiments on four datasets covering short- and long-form generation tasks show that CRAG can significantly improve the performance of RAG-based approaches.

논문 링크

https://arxiv.org/abs/2401.15884

더 읽어보기

https://x.com/omarsar0/status/1752173216942944556


수학적 추론을 위한 대규모 언어 모델: 진전과 도전 과제 / Large Language Models for Mathematical Reasoning: Progresses and Challenges

논문 소개

  • 수학적 추론을 위한 머신러닝의 연구 개발 개요를 소개하고, 수학적 추론을 위한 머신러닝에 대한 지속적인 연구에 영감을 주기 위한 발전, 기능, 한계 및 응용에 대해 논의합니다.

    Introduces an overview of research developments in llms for mathematical reasoning; discusses advancements, capabilities, limitations, and applications to inspire ongoing research on llms for mathematics.

논문 초록(Abstract)

  • 수학적 추론은 인간 지능의 근본적인 인지 능력을 평가하는 초석 역할을 합니다. 최근에는 수학적 문제의 자동 해결을 목표로 하는 대규모 언어 모델(LLM)의 개발이 눈에 띄게 급증하고 있습니다. 그러나 수학적 문제 유형의 환경은 매우 방대하고 다양하며, 다양한 데이터 세트와 환경에서 LLM 지향 기술이 평가되고 있습니다. 이러한 다양성 때문에 급성장하는 이 분야에서 진정한 발전과 장애물을 파악하기가 어렵습니다. 이 설문조사는 네 가지 중요한 차원을 다루기 위해 노력했습니다: i) 조사된 다양한 수학 문제와 해당 데이터셋에 대한 포괄적인 탐구, ii) 수학 문제 해결을 위해 제안된 LLM 지향 기법의 스펙트럼에 대한 조사, iii) 수학 문제 해결에서 LLM에 영향을 미치는 요인 및 우려에 대한 개요, iv) 이 영역 내에서 지속되는 도전에 대한 해명. 우리가 아는 한, 이 설문조사는 수학 영역에서 LLM의 지형에 대한 최초의 광범위한 조사 중 하나로, 빠르게 진화하는 이 분야의 현재 상태, 성과 및 향후 과제에 대한 총체적인 관점을 제공합니다.

    Mathematical reasoning serves as a cornerstone for assessing the fundamental cognitive capabilities of human intelligence. In recent times, there has been a notable surge in the development of Large Language Models (LLMs) geared towards the automated resolution of mathematical problems. However, the landscape of mathematical problem types is vast and varied, with LLM-oriented techniques undergoing evaluation across diverse datasets and settings. This diversity makes it challenging to discern the true advancements and obstacles within this burgeoning field. This survey endeavors to address four pivotal dimensions: i) a comprehensive exploration of the various mathematical problems and their corresponding datasets that have been investigated; ii) an examination of the spectrum of LLM-oriented techniques that have been proposed for mathematical problem-solving; iii) an overview of factors and concerns affecting LLMs in solving math; and iv) an elucidation of the persisting challenges within this domain. To the best of our knowledge, this survey stands as one of the first extensive examinations of the landscape of LLMs in the realm of mathematics, providing a holistic perspective on the current state, accomplishments, and future challenges in this rapidly evolving field.

논문 링크

https://arxiv.org/abs/2402.00157

더 읽어보기

https://x.com/omarsar0/status/1753424518171738194


언어 모델용 압축 알고리즘에 대한 종합적인 조사 / A Comprehensive Survey of Compression Algorithms for Language Models

논문 소개

  • 가지치기, 양자화, 지식 증류, 낮은 순위 근사화, 매개변수 공유, 효율적인 아키텍처 설계와 같은 압축 알고리즘을 다룹니다.

    Covers compression algorithms like pruning, quantization, knowledge distillation, low-rank approximation, parameter sharing, and efficient architecture design.

논문 초록(Abstract)

  • 정확도를 떨어뜨리지 않으면서 언어 모델을 압축하려면 어떻게 해야 할까요? 탄소 배출량 증가, 비싼 유지보수 비용 등 언어 모델의 거대한 크기로 인한 부작용 없이 최근 언어 모델의 괄목할 만한 발전의 혜택을 누리기 위해 언어 모델 압축 알고리즘의 수가 급속도로 증가하고 있습니다. 수많은 압축 알고리즘이 언어 모델을 압축하는 데 괄목할 만한 발전을 보였지만, 아이러니하게도 알고리즘의 수가 너무 많아 새로운 트렌드를 파악하고 그 근간이 되는 기본 개념을 파악하는 것이 어려워지고 있습니다. 이 논문에서는 가지치기, 양자화, 지식 증류, 저순위 근사화, 매개변수 공유, 효율적인 아키텍처 설계 등 다양한 압축 알고리즘을 조사하고 요약합니다. 다양한 압축 알고리즘의 전반적인 동향을 정리할 뿐만 아니라 대표적인 알고리즘을 선정하여 심층 분석합니다. 압축 알고리즘의 범주별 가치와 대용량 언어 모델의 등장으로 큰 영향을 미치고 있는 저비용 압축 알고리즘의 바람직한 속성에 대해 논의합니다. 마지막으로 설문조사 결과를 바탕으로 향후 유망한 연구 주제를 소개합니다.

    How can we compress language models without sacrificing accuracy? The number of compression algorithms for language models is rapidly growing to benefit from remarkable advances of recent language models without side effects due to the gigantic size of language models, such as increased carbon emissions and expensive maintenance fees. While numerous compression algorithms have shown remarkable progress in compressing language models, it ironically becomes challenging to capture emerging trends and identify the fundamental concepts underlying them due to the excessive number of algorithms. In this paper, we survey and summarize diverse compression algorithms including pruning, quantization, knowledge distillation, low-rank approximation, parameter sharing, and efficient architecture design. We not only summarize the overall trend of diverse compression algorithms but also select representative algorithms and provide in-depth analyses of them. We discuss the value of each category of compression algorithms, and the desired properties of low-cost compression algorithms which have a significant impact due to the emergence of large language models. Finally, we introduce promising future research topics based on our survey results.

논문 링크

https://arxiv.org/abs/2401.15347

더 읽어보기

https://x.com/omarsar0/status/1752746770377974072


MoE-LLaVA: 대규모 비전 언어 모델을 위한 전문가 조합 / MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

논문 소개

  • 대규모 시각 언어 모델을 위해 여러 전문가가 함께 튜닝하여 일정한 계산 비용으로 파라미터를 대폭 줄인 희소 모델을 구축하는 이 접근 방식은 멀티모달 학습 및 모델 희소성과 관련된 성능 저하를 해결하는 데도 도움이 됩니다.

    Employs mixture of experts tuning for large vision-language models which constructs a sparse model with a substantial reduction in parameters with a constant computational cost; this approach also helps to address performance degradation associated with multi-modal learning and model sparsity.

논문 초록(Abstract)

  • 대규모 시각 언어 모델(LVLM)의 경우 모델을 확장하면 성능을 효과적으로 개선할 수 있습니다. 그러나 모델 파라미터를 확장하면 계산의 각 토큰에 대해 모든 모델 파라미터가 활성화되기 때문에 학습 및 추론 비용이 크게 증가합니다. 본 연구에서는 매개변수 수는 엄청나게 많지만 계산 비용은 일정한 희소 모델을 구축할 수 있고, 일반적으로 멀티모달 학습 및 모델 희소성과 관련된 성능 저하를 효과적으로 해결할 수 있는 새로운 학습 전략 MoE 튜닝을 LVLM을 위한 새로운 학습 전략으로 제안합니다. 또한 MoE 기반 스파스 LVLM 아키텍처인 MoE-LLaVA 프레임워크를 소개합니다. 이 프레임워크는 배포 중에 라우터를 통해 상위 k명의 전문가만 활성화하고 나머지 전문가들은 비활성 상태로 유지합니다. 유니티의 광범위한 실험을 통해 시각적 이해에 있어 MoE-LLaVA의 뛰어난 기능과 모델 출력의 환각을 줄일 수 있는 잠재력을 확인할 수 있었습니다. 놀랍게도, 30억 개의 드물게 활성화된 매개변수만으로 MoE-LLaVA는 다양한 시각적 이해 데이터셋에서 LLaVA-1.5-7B에 필적하는 성능을 보여주었으며, 심지어 물체 환각 벤치마크에서 LLaVA-1.5-13B를 능가하는 성능을 보였습니다. 유니티는 MoE-LLaVA를 통해 희소 LVLM의 기준선을 확립하고, 보다 효율적이고 효과적인 멀티모달 학습 시스템 개발을 위한 향후 연구에 귀중한 인사이트를 제공하고자 합니다. 코드는 \url{https://github.com/PKU-YuanGroup/MoE-LLaVA}에서 공개됩니다.

    For Large Vision-Language Models (LVLMs), scaling the model can effectively improve performance. However, expanding model parameters significantly increases the training and inferring costs, as all model parameters are activated for each token in the calculation. In this work, we propose a novel training strategy MoE-tuning for LVLMs, which can constructing a sparse model with an outrageous number of parameter but a constant computational cost, and effectively addresses the performance degradation typically associated with multi-modal learning and model sparsity. Furthermore, we present the MoE-LLaVA framework, a MoE-based sparse LVLM architecture. This framework uniquely activates only the top-k experts through routers during deployment, keeping the remaining experts inactive. Our extensive experiments highlight the excellent capabilities of MoE-LLaVA in visual understanding and its potential to reduce hallucinations in model outputs. Remarkably, with just 3 billion sparsely activated parameters, MoE-LLaVA demonstrates performance comparable to the LLaVA-1.5-7B on various visual understanding datasets and even surpasses the LLaVA-1.5-13B in object hallucination benchmarks. Through MoE-LLaVA, we aim to establish a baseline for sparse LVLMs and provide valuable insights for future research in developing more efficient and effective multi-modal learning systems. Code is released at \url{https://github.com/PKU-YuanGroup/MoE-LLaVA}.

논문 링크

https://arxiv.org/abs/2401.15947

더 읽어보기

https://github.com/PKU-YuanGroup/MoE-LLaVA

https://x.com/LinBin46984/status/1753403875531375003


웹 다시 쓰기: 컴퓨팅 및 데이터 효율적 언어 모델링을 위한 레시피 / Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

논문 소개

  • '위키피디아처럼' 또는 '질의응답 형식' 등 특정 스타일과 형식으로 웹 문서를 의역하라는 메시지가 표시되는 기성 지침 조정 모델을 사용하여 실제 및 합성 의역에 대해 인공지능을 공동으로 사전 학습함으로써 사전 학습 속도를 최대 3배까지 높이고 난해성을 개선하며 많은 작업에서 제로 샷 질문 답변의 정확도를 향상시킵니다.

    Uses an off-the-shelf instruction-tuned model prompted to paraphrase web documents in specific styles and formats such as “like wikipedia” or “question-answer format” to jointly pre-train llms on real and synthetic rephrases; it speeds up pre-training by ~3x, improves perplexity, and improves zero-shot question answering accuracy on many tasks.

논문 초록(Abstract)

  • 대규모 언어 모델은 대개 구조화되지 않고 노이즈가 많으며 구문이 잘못된 웹의 방대한 스크랩을 기반으로 학습됩니다. 현재의 확장 법칙에 따르면 이러한 데이터에서 학습하려면 풍부한 컴퓨팅과 데이터가 모두 필요하며, 이는 학습 중인 모델의 크기에 따라 증가합니다. 이는 사전 학습과 관련된 막대한 컴퓨팅 비용과 기간, 그리고 웹상의 고품질 데이터 부족으로 인해 실현 불가능합니다. 이 연구에서는 웹상의 문서를 '위키피디아처럼' 또는 '질의응답 형식'과 같은 특정 스타일로 의역하도록 유도하는 기성 명령어 튜닝 모델을 사용하여 실제 및 합성 의역에 대해 LLM을 공동으로 사전 학습하는 웹 의역 증강 사전 학습($\textbf{WRAP}$)을 제안합니다. 먼저, 자연적으로 노이즈가 많은 C4 데이터셋에 WRAP을 사용하면 사전 학습 속도가 $\sim3x$ 빨라진다는 것을 보여줍니다. 동일한 사전 학습 컴퓨팅 예산으로 더미의 여러 하위 집합에서 평균 10% 이상 난해도를 개선하고, 13개 과제에서 영샷 문제 정답 정확도를 2% 이상 향상시킵니다. 둘째, 재구문 스타일이 모델 성능에 미치는 영향을 조사하여 학습 데이터의 구성이 OOD 설정에서 LLM의 성능에 어떤 영향을 미칠 수 있는지에 대한 인사이트를 제공합니다. 우리가 얻은 이득은 재구문된 합성 데이터가 (i) 다운스트림 평가 스타일을 밀접하게 반영하는 스타일 다양성을 포함하고, (ii) 웹 스크랩된 데이터보다 '품질'이 높기 때문에 실제 데이터보다 활용도가 높다는 사실에 기인합니다.

    Large language models are trained on massive scrapes of the web, which are often unstructured, noisy, and poorly phrased. Current scaling laws show that learning from such data requires an abundance of both compute and data, which grows with the size of the model being trained. This is infeasible both because of the large compute costs and duration associated with pre-training, and the impending scarcity of high-quality data on the web. In this work, we propose Web Rephrase Augmented Pre-training ($\textbf{WRAP}$) that uses an off-the-shelf instruction-tuned model prompted to paraphrase documents on the web in specific styles such as "like Wikipedia" or in "question-answer format" to jointly pre-train LLMs on real and synthetic rephrases. First, we show that using WRAP on the C4 dataset, which is naturally noisy, speeds up pre-training by $\sim3x$. At the same pre-training compute budget, it improves perplexity by more than 10% on average across different subsets of the Pile, and improves zero-shot question answer accuracy across 13 tasks by more than 2%. Second, we investigate the impact of the re-phrasing style on the performance of the model, offering insights into how the composition of the training data can impact the performance of LLMs in OOD settings. Our gains are attributed to the fact that re-phrased synthetic data has higher utility than just real data because it (i) incorporates style diversity that closely reflects downstream evaluation style, and (ii) has higher 'quality' than web-scraped data.

논문 링크

https://arxiv.org/abs/2401.16380

더 읽어보기

https://x.com/pratyushmaini/status/1752337225097076809


노이즈의 힘: RAG 시스템을 위한 검색의 재정의 / The Power of Noise: Redefining Retrieval for RAG Systems

논문 소개

  • 래그 시스템의 검색 구성 요소를 개선하는 데 필요한 구성 요소에 초점을 맞춘 연구로, 관련 정보의 위치는 쿼리 근처에 배치해야 하며 그렇지 않을 경우 모델이 정보에 집중하기 어렵다는 점, 놀랍게도 관련 문서가 반드시 래그 시스템의 성능 향상으로 이어지지는 않는다는 점, 더 의외로 관련성이 없고 노이즈가 많은 문서도 올바르게 배치하면 정확도를 높이는 데 도움이 될 수 있다는 점 등을 확인합니다.

a study that focuses on the components needed to improve the retrieval component of a rag system; confirms that the position of relevant information should be placed near the query, the model will struggle to attend to the information if this is not the case; surprisingly, it finds that related documents don't necessarily lead to improved performance for the rag system; even more unexpectedly, irrelevant and noisy documents can help drive up accuracy if placed correctly.

논문 초록(Abstract)

  • 검색 증강 생성(RAG) 시스템은 기존의 대규모 언어 모델(LLM)에 비해 크게 발전한 시스템입니다. RAG 시스템은 정보 검색(IR) 단계를 통해 검색된 외부 데이터를 통합하여 생성 능력을 향상시킴으로써 사전 학습된 지식과 제한된 컨텍스트 창으로 제한되는 표준 LLM의 한계를 극복합니다. 이 분야의 대부분의 연구는 주로 RAG 시스템 내에서 LLM의 생성적 측면에 집중되어 있습니다. 본 연구는 RAG 시스템에 대한 IR 구성 요소의 영향을 철저하고 비판적으로 분석함으로써 이러한 간극을 메웁니다. 이 논문에서는 검색해야 하는 문서의 유형에 초점을 맞춰 효과적인 RAG의 신속한 구성을 위해 검색기가 갖춰야 할 특성을 분석합니다. 문서와 프롬프트의 관련성, 문서의 위치, 문맥에 포함된 문서 수 등 다양한 요소를 평가합니다. 그 결과, 관련성이 낮은 문서를 포함하면 품질이 저하될 것이라는 초기 가정과 달리 의외로 정확도가 30% 이상 향상될 수 있다는 인사이트를 발견했습니다. 이러한 결과는 검색과 언어 생성 모델을 통합하기 위한 전문화된 전략 개발의 필요성을 강조하며, 향후 이 분야의 연구를 위한 토대를 마련합니다.

    Retrieval-Augmented Generation (RAG) systems represent a significant advancement over traditional Large Language Models (LLMs). RAG systems enhance their generation ability by incorporating external data retrieved through an Information Retrieval (IR) phase, overcoming the limitations of standard LLMs, which are restricted to their pre-trained knowledge and limited context window. Most research in this area has predominantly concentrated on the generative aspect of LLMs within RAG systems. Our study fills this gap by thoroughly and critically analyzing the influence of IR components on RAG systems. This paper analyzes which characteristics a retriever should possess for an effective RAG's prompt formulation, focusing on the type of documents that should be retrieved. We evaluate various elements, such as the relevance of the documents to the prompt, their position, and the number included in the context. Our findings reveal, among other insights, that including irrelevant documents can unexpectedly enhance performance by more than 30% in accuracy, contradicting our initial assumption of diminished quality. These results underscore the need for developing specialized strategies to integrate retrieval with language generation models, thereby laying the groundwork for future research in this field.

논문 링크

https://arxiv.org/abs/2401.14887

더 읽어보기

https://x.com/omarsar0/status/1751803310267314509


대규모 시각 언어 모델의 환각에 대한 서베이 논문 / A Survey on Hallucination in Large Vision-Language Models

논문 소개

  • 대규모 시각-언어 모델(LVLM; Large Vision-Language Model)에서의 환각 문제와 환각을 완화하기 위한 기술에 대해 논의하고, lvlm 환각 평가 방법과 벤치마크를 소개하며, lvlm 환각의 원인과 이를 완화할 수 있는 잠재적 방법에 대한 팁과 유용한 분석을 제공합니다.

    Discusses hallucination issues and techniques to mitigate hallucination in large vision-language models (lvlm); it introduces lvlm hallucination evaluation methods and benchmarks; provides tips and a good analysis of the causes of lvlm hallucinations and potential ways to mitigate them.

논문 초록(Abstract)

  • 최근 대규모 시각-언어 모델(LVLM)의 개발은 실용적인 구현 가능성으로 인해 AI 환경에서 점점 더 많은 주목을 받고 있습니다. 그러나 '환각', 더 구체적으로는 사실적인 시각적 콘텐츠와 그에 상응하는 텍스트 생성 사이의 불일치는 LVLM을 활용하는 데 있어 중대한 과제를 제기합니다. 이 종합적인 설문조사에서는 LVLM과 관련된 환각을 분석하여 개요를 파악하고 향후 완화 방안을 모색하고자 합니다. 조사는 먼저 LVLM의 환각 개념을 명확히 정의하고, 다양한 환각 증상을 제시하며, LVLM 환각에 내재된 고유한 문제를 강조하는 것으로 시작합니다. 이어서, LVLM 특유의 환각을 평가하기 위해 특별히 맞춤화된 벤치마크와 방법론을 간략하게 설명합니다. 또한 학습 데이터와 모델 구성 요소에서 얻은 인사이트를 포함하여 이러한 환각의 근본 원인에 대해 자세히 살펴봅니다. 또한 환각을 완화하기 위한 기존의 방법을 비판적으로 검토합니다. 마지막으로 LVLM 내 환각과 관련된 미해결 질문과 향후 방향에 대해 논의하며 이번 조사를 마무리합니다.

    Recent development of Large Vision-Language Models (LVLMs) has attracted growing attention within the AI landscape for its practical implementation potential. However, ``hallucination'', or more specifically, the misalignment between factual visual content and corresponding textual generation, poses a significant challenge of utilizing LVLMs. In this comprehensive survey, we dissect LVLM-related hallucinations in an attempt to establish an overview and facilitate future mitigation. Our scrutiny starts with a clarification of the concept of hallucinations in LVLMs, presenting a variety of hallucination symptoms and highlighting the unique challenges inherent in LVLM hallucinations. Subsequently, we outline the benchmarks and methodologies tailored specifically for evaluating hallucinations unique to LVLMs. Additionally, we delve into an investigation of the root causes of these hallucinations, encompassing insights from the training data and model components. We also critically review existing methods for mitigating hallucinations. The open questions and future directions pertaining to hallucinations within LVLMs are discussed to conclude this survey.

논문 링크

https://arxiv.org/abs/2402.00253

더 읽어보기

https://x.com/omarsar0/status/1753449211931079101


SliceGPT: 행과 열을 삭제하여 대용량 언어 모델 압축하기 / SliceGPT: Compress Large Language Models by Deleting Rows and Columns

논문 소개

  • 각 가중치 행렬을 더 작은 밀도 행렬로 대체하는 학습 후 스파스화 체계를 제안하는 새로운 LLM 압축 기법으로, 네트워크의 임베딩 차원을 줄이고 밀도 모델의 제로샷 성능을 대부분 유지하면서 라마2-70b 및 파이-2 모델의 모델 파라미터를 최대 20%까지 제거할 수 있습니다.

    A new llm compression technique that proposes a post-training sparsification scheme that replaces each weight matrix with a smaller dense matrix; helps reduce the embedding dimension of the network and can remove up to 20% of model parameters for llama2-70b and phi-2 models while retaining most of the zero-shot performance of the dense models.

논문 초록(Abstract)

  • 대규모 언어 모델은 자연어 처리의 초석이 되었지만, 이를 사용하려면 컴퓨팅 및 메모리 리소스 측면에서 상당한 비용이 발생합니다. 스파스화는 이러한 리소스 제약을 완화할 수 있는 솔루션을 제공하며, 최근 연구에서는 학습된 모델을 사후에 스파스화할 수 있다는 사실이 밝혀졌습니다. 기존 희소화 기법은 추가적인 데이터 구조가 필요하고 현재 하드웨어로는 속도 향상에 한계가 있다는 문제에 직면해 있습니다. 이 논문에서는 각 가중치 행렬을 더 작은(밀도가 높은) 행렬로 대체하여 네트워크의 임베딩 차원을 줄이는 새로운 학습 후 희소화 방식인 SliceGPT를 소개합니다. 광범위한 실험을 통해 SliceGPT는 LLAMA2-70B, OPT 66B, Phi-2 모델에서 모델 파라미터(임베딩 포함)를 최대 25%까지 제거하면서도 고밀도 모델의 제로 샷 작업 성능을 각각 99%, 99%, 90%로 유지할 수 있음을 보여주었습니다. 슬라이스 모델은 더 적은 수의 GPU에서 실행되며 추가 코드 최적화 없이도 더 빠르게 실행됩니다. 24GB 소비자용 GPU에서는 LLAMA2-70B의 추론을 위한 총 컴퓨팅을 고밀도 모델의 64%로 줄이고, 40GB A100 GPU에서는 66%로 줄였습니다. 유니티는 트랜스포머 네트워크에서 계산 불변성이라는 새로운 인사이트를 제공하며, 이를 통해 SliceGPT가 사전 학습된 모델의 메모리 및 계산 수요를 줄일 수 있는 미래의 길을 열어줄 것으로 기대합니다. 코드는 https://github.com/microsoft/TransformerCompression 에서 확인할 수 있습니다

    Large language models have become the cornerstone of natural language processing, but their use comes with substantial costs in terms of compute and memory resources. Sparsification provides a solution to alleviate these resource constraints, and recent works have shown that trained models can be sparsified post-hoc. Existing sparsification techniques face challenges as they need additional data structures and offer constrained speedup with current hardware. In this paper we present SliceGPT, a new post-training sparsification scheme which replaces each weight matrix with a smaller (dense) matrix, reducing the embedding dimension of the network. Through extensive experimentation, we show that SliceGPT can remove up to 25% of the model parameters (including embeddings) for LLAMA2-70B, OPT 66B and Phi-2 models while maintaining 99%, 99% and 90% zero-shot task performance of the dense model respectively. Our sliced models run on fewer GPUs and run faster without any additional code optimization: on 24GB consumer GPUs we reduce the total compute for inference on LLAMA2-70B to 64% of that of the dense model; on 40GB A100 GPUs we reduce it to 66%. We offer a new insight, computational invariance in transformer networks, which enables SliceGPT and we hope it will inspire and enable future avenues to reduce memory and computation demands for pre-trained models. Code is available at: https://github.com/microsoft/TransformerCompression

논문 링크

https://arxiv.org/abs/2401.15024v1

더 읽어보기

https://github.com/microsoft/TransformerCompression

https://x.com/_akhaliq/status/1751796334531592496


원문

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-c5e


⚠️광고⚠️: 파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)