4P by ninebow 7달전 | favorite | 댓글과 토론

개요

  • DAIR.AI에서 매주 공개하는 ML 논문들에 대한 글을 자동 번역해보았습니다.

  • 이번 주에는 LLM(Large Language Models), 즉 대형 언어 모델들을 개선하고 확장하는 연구들이 주를 이루었습니다. 특히 LLM의 가성비 좋은 작동, 과학적 발견을 위한 활용, 그리고 실용적인 코드 생성을 위한 언어 모델들에 대한 논문들이 포함되어 있습니다. 뿐만 아니라 해당 모델들의 사실성을 높이기 위한 연구도 이루어지고 있는 추세로 보입니다.

  • 언어 모델, 특히 LLM들은 자연어 처리(NLP) 분야에서 각광받고 있습니다. 이는 모델들이 더욱더 인간처럼 복잡하고 다양한 언어적 작업을 처리할 수 있게 되었기 때문일 것입니다. 이러한 모델들은 체계적인 사고를 모방하거나(Contrastive CoT Prompting), 코드 개발에 있어서의 자동화 향상(A Survey on Language Models for Code) 등 다양한 영역에서 응용될 수 있습니다. 또한 LLM을 더욱 진화시키기 위한 방법들, 예를 들어 정확한 맥락 필터링을 통한 정보 검색 강화(Learning to Filter Context for RAG)나 사용자를 속이지 않는 방향의 연구(LLMs can Deceive Users) 역시 중요한 연구 동향입니다.


Emu 비디오 및 Emu 편집 / Emu Video and Emu Edit

논문 소개

  • 디퓨젼 모델을 기반으로 제어된 이미지 편집 및 텍스트-비디오 생성을 위한 새로운 모델을 제시합니다. 에뮤 비디오는 텍스트 전용, 이미지 전용 또는 텍스트와 이미지 입력을 결합하여 고품질 비디오를 생성할 수 있으며, 에뮤 편집은 텍스트 지침을 통해 자유 형식 편집을 가능하게 합니다.

    Present new models for controlled image editing and text-to-video generation based on diffusion models; emu video can generate high-quality video by using text-only, image-only, or combined text and image inputs; emu edit enables free-form editing through text instructions.

논문 링크

https://ai.meta.com/blog/…

더 읽어보기

https://x.com/AIatMeta/status/1725184026154349007


##CoN(Chain-of-Note): 검색 증강 언어 모델의 견고성 향상 / Chain-of-Note: Enhancing Robustness in Retrieval-Augmented Language Models

논문 소개

  • 노이즈가 많고 관련성이 없는 문서와 알 수 없는 시나리오를 처리할 때 검색 증강 언어 모델의 견고성과 신뢰성을 향상시키는 접근 방식; 검색된 문서에 대한 순차적인 읽기 노트를 생성하여 주어진 질문과의 관련성을 평가하고 이 정보를 통합하여 최종 답변을 공식화할 수 있게 함; CoN은 표준 검색 증강 언어 모델을 크게 능가하며 완전히 노이즈가 없는 검색 문서에서 평균 +7.9의 EM 점수, 사전 학습 지식 범위를 벗어난 실시간 질문에 대한 거부율에서 +10.5를 달성했습니다.

    An approach to improve the robustness and reliability of retrieval-augmented language models in facing noisy, irrelevant documents and in handling unknown scenarios; con generates sequential reading notes for the retrieved documents, enabling an evaluation of their relevance to the given question and integrating this information to formulate the final answer; con significantly outperforms standard retrieval-augmented language models and achieves an average improvement of +7.9 in em score given entirely noisy retrieved documents and +10.5 in rejection rates for real-time questions that fall outside the pre-training knowledge scope.

논문 초록

  • 검색 증강 언어 모델(RALM)은 대규모 언어 모델의 기능, 특히 외부 지식 소스를 활용하여 사실 착각을 줄이는 데 있어 상당한 발전을 이루었습니다. 그러나 검색된 정보의 신뢰성이 항상 보장되는 것은 아닙니다. 관련 없는 데이터를 검색하면 잘못된 응답이 나올 수 있으며, 쿼리를 해결할 수 있는 적절한 정보를 보유하고 있더라도 모델이 고유한 지식을 간과할 가능성이 있습니다. 또한 표준 RALM은 정확한 답변을 제공하기 위해 내재된 지식과 검색된 지식 모두에 대해 충분한 지식을 보유하고 있는지 평가하는 데 어려움을 겪는 경우가 많습니다. 지식이 부족한 상황에서 이러한 시스템은 답을 얻을 수 없는 경우 '알 수 없음'으로 응답하는 것이 이상적입니다. 이러한 과제에 대응하기 위해 노이즈가 많고 관련성이 없는 문서를 처리하고 알 수 없는 시나리오를 처리할 때 RALM의 견고성을 개선하기 위한 새로운 접근 방식인 CoN(Chain-of-Noting)을 도입했습니다. CoN의 핵심 아이디어는 검색된 문서에 대한 순차적인 읽기 노트를 생성하여 주어진 질문과의 관련성을 철저히 평가하고 이 정보를 통합하여 최종 답변을 공식화하는 것입니다. ChatGPT를 사용하여 CoN을 위한 학습 데이터를 생성하고, 이후 LLaMa-2 7B 모델에서 학습했습니다. 네 가지 오픈 도메인 QA 벤치마크에서 실험한 결과, CoN을 탑재한 RALM이 표준 RALM을 크게 능가하는 것으로 나타났습니다. 특히, CoN은 완전히 노이즈가 있는 검색 문서에서 EM 점수가 평균 +7.9점, 사전 학습 지식 범위를 벗어난 실시간 질문에 대한 거부율이 평균 +10.5점 향상되었습니다.

    Retrieval-augmented language models (RALMs) represent a substantial advancement in the capabilities of large language models, notably in reducing factual hallucination by leveraging external knowledge sources. However, the reliability of the retrieved information is not always guaranteed. The retrieval of irrelevant data can lead to misguided responses, and potentially causing the model to overlook its inherent knowledge, even when it possesses adequate information to address the query. Moreover, standard RALMs often struggle to assess whether they possess adequate knowledge, both intrinsic and retrieved, to provide an accurate answer. In situations where knowledge is lacking, these systems should ideally respond with "unknown" when the answer is unattainable. In response to these challenges, we introduces Chain-of-Noting (CoN), a novel approach aimed at improving the robustness of RALMs in facing noisy, irrelevant documents and in handling unknown scenarios. The core idea of CoN is to generate sequential reading notes for retrieved documents, enabling a thorough evaluation of their relevance to the given question and integrating this information to formulate the final answer. We employed ChatGPT to create training data for CoN, which was subsequently trained on an LLaMa-2 7B model. Our experiments across four open-domain QA benchmarks show that RALMs equipped with CoN significantly outperform standard RALMs. Notably, CoN achieves an average improvement of +7.9 in EM score given entirely noisy retrieved documents and +10.5 in rejection rates for real-time questions that fall outside the pre-training knowledge scope.

논문 링크

https://arxiv.org/abs/2311.09210

더 읽어보기

https://x.com/omarsar0/status/1725181141693472959


대규모 언어 모델이 과학적 발견에 미치는 영향: GPT-4를 사용한 예비 연구 / The Impact of Large Language Models on Scientific Discovery: a Preliminary Study using GPT-4

논문 소개

  • 신약 개발, 생물학, 계산 화학 등 다양한 과학 분야에서 대규모 언어 모델, 특히 GPT-4가 미치는 영향을 탐구하고, 전문가 중심의 사례 평가와 벤치마크 테스트를 통해 복잡한 과학 개념에 대한 GPT-4의 이해, 문제 해결 능력, 과학 연구 발전 가능성을 평가합니다.

    Explores the impact of large language models, particularly gpt-4, across various scientific fields including drug discovery, biology, and computational chemistry; assesses gpt-4's understanding of complex scientific concepts, its problem-solving capabilities, and its potential to advance scientific research through expert-driven case assessments and benchmark testing.

논문 초록

  • 최근 몇 년 동안 자연어 처리의 획기적인 발전으로 강력한 대규모 언어 모델(LLM)이 등장하여 자연어의 이해, 생성, 번역은 물론 언어 처리를 넘어서는 작업까지 광범위한 영역에서 놀라운 성능을 선보였습니다. 이 보고서에서는 최첨단 언어 모델인 GPT-4를 중심으로 과학적 발견의 맥락에서 LLM의 성능을 자세히 살펴봅니다. 신약 개발, 생물학, 계산 화학(밀도 함수 이론(DFT) 및 분자 역학(MD)), 재료 설계, 편미분 방정식(PDE) 등 다양한 과학 분야를 아우르는 광범위한 연구를 수행했습니다. 과학적 과제에 대한 GPT-4의 평가는 다양한 연구 영역에서 잠재력을 발견하고, 영역별 전문성을 검증하고, 과학적 진보를 가속화하고, 자원 배분을 최적화하고, 미래 모델 개발을 안내하고, 학제 간 연구를 육성하는 데 매우 중요합니다. 당사의 탐색 방법론은 주로 복잡한 과학 개념과 관계에 대한 모델의 이해도에 대한 질적 통찰력을 제공하는 전문가 중심의 사례 평가와 잘 정의된 도메인별 문제를 해결할 수 있는 모델의 역량을 정량적으로 평가하는 벤치마크 테스트로 구성됩니다. 예비 조사 결과, GPT-4는 복잡한 문제 해결 및 지식 통합 작업을 처리하는 데 적합한 것으로 나타나 다양한 과학 응용 분야에서 유망한 잠재력을 보여줬습니다. 크게 보면 GPT-4의 지식 기반, 과학적 이해, 과학적 수치 계산 능력, 다양한 과학적 예측 능력을 평가합니다.

    In recent years, groundbreaking advancements in natural language processing have culminated in the emergence of powerful large language models (LLMs), which have showcased remarkable capabilities across a vast array of domains, including the understanding, generation, and translation of natural language, and even tasks that extend beyond language processing. In this report, we delve into the performance of LLMs within the context of scientific discovery, focusing on GPT-4, the state-of-the-art language model. Our investigation spans a diverse range of scientific areas encompassing drug discovery, biology, computational chemistry (density functional theory (DFT) and molecular dynamics (MD)), materials design, and partial differential equations (PDE). Evaluating GPT-4 on scientific tasks is crucial for uncovering its potential across various research domains, validating its domain-specific expertise, accelerating scientific progress, optimizing resource allocation, guiding future model development, and fostering interdisciplinary research. Our exploration methodology primarily consists of expert-driven case assessments, which offer qualitative insights into the model's comprehension of intricate scientific concepts and relationships, and occasionally benchmark testing, which quantitatively evaluates the model's capacity to solve well-defined domain-specific problems. Our preliminary exploration indicates that GPT-4 exhibits promising potential for a variety of scientific applications, demonstrating its aptitude for handling complex problem-solving and knowledge integration tasks. Broadly speaking, we evaluate GPT-4's knowledge base, scientific understanding, scientific numerical calculation abilities, and various scientific prediction capabilities.

논문 링크

https://arxiv.org/abs/2311.07361

더 읽어보기

https://x.com/omarsar0/status/1724465107046940893


사실성에 맞게 언어 모델 미세 조정하기 / Fine-tuning Language Models for Factuality

논문 소개

  • 사람이 라벨을 붙일 필요 없이 사실성에 맞게 언어 모델을 미세 조정하고, 자동 생성된 사실성 선호도 순위에서 학습하며, 개방형 생성 설정을 목표로 하고, 사실성을 목표로 하는 RLHF 또는 디코딩 전략에 비해 보류된 주제에 대한 Llama-2의 사실성을 크게 향상시킵니다.

    Fine-tunes language model for factuality without requiring human labeling; it learns from automatically generated factuality preference rankings and targets open-ended generation settings; it significantly improves the factuality of llama-2 on held-out topics compared with rlhf or decoding strategies targeted at factuality.

논문 초록

  • 사전 학습된 대규모 언어 모델(LLM)의 유창성과 창의성 덕분에 언어 모델이 널리 사용되고 있으며, 때로는 기존 검색 엔진을 대체하는 용도로도 사용되고 있습니다. 그러나 언어 모델은 흔히 '환각'이라고 불리는 설득력 있지만 사실과 다른 주장을 하는 경향이 있습니다 이러한 오류는 의도치 않게 잘못된 정보를 퍼뜨리거나 오해를 영구화할 수 있습니다. 또한 모델 응답에 대한 수작업 사실 확인은 시간이 많이 걸리는 프로세스이기 때문에 사람이 사실 여부를 확인하는 데 많은 비용이 소요됩니다. 이번 작업에서는 사람이 라벨을 붙이지 않고도 과거 작업보다 더 개방적인 세대 설정을 대상으로 언어 모델을 더욱 사실에 가깝도록 미세 조정합니다. 이를 위해 최근 NLP의 두 가지 주요 혁신을 활용합니다. 첫째, 최근 여러 연구에서 외부 지식 기반과의 일관성 또는 단순히 대규모 모델의 신뢰도 점수를 측정하여 개방형 텍스트의 사실성을 판단하는 방법을 제안했습니다. 둘째, 직접 선호도 최적화 알고리즘을 사용하면 가능한 모델 응답에 대한 선호도 순위를 사용하여 지도 모방 이외의 목표에 대해 언어 모델을 직접 미세 조정할 수 있습니다. 기존 검색 시스템이나 새로운 검색 없는 접근 방식을 통해 자동 생성된 사실성 선호도 순위로부터 학습하면 RLHF 또는 사실성을 목표로 하는 디코딩 전략에 비해 보류된 주제에 대한 Llama-2의 사실성(생성된 주장 중 올바른 주장의 비율)이 크게 향상된다는 사실을 보여줍니다. 7B 규모에서 Llama-2 채팅과 비교했을 때, 전기 생성 및 의료 질문에 대한 답변에서 사실 오류율이 각각 58%와 40% 감소했습니다.

    The fluency and creativity of large pre-trained language models (LLMs) have led to their widespread use, sometimes even as a replacement for traditional search engines. Yet language models are prone to making convincing but factually inaccurate claims, often referred to as 'hallucinations.' These errors can inadvertently spread misinformation or harmfully perpetuate misconceptions. Further, manual fact-checking of model responses is a time-consuming process, making human factuality labels expensive to acquire. In this work, we fine-tune language models to be more factual, without human labeling and targeting more open-ended generation settings than past work. We leverage two key recent innovations in NLP to do so. First, several recent works have proposed methods for judging the factuality of open-ended text by measuring consistency with an external knowledge base or simply a large model's confidence scores. Second, the direct preference optimization algorithm enables straightforward fine-tuning of language models on objectives other than supervised imitation, using a preference ranking over possible model responses. We show that learning from automatically generated factuality preference rankings, generated either through existing retrieval systems or our novel retrieval-free approach, significantly improves the factuality (percent of generated claims that are correct) of Llama-2 on held-out topics compared with RLHF or decoding strategies targeted at factuality. At 7B scale, compared to Llama-2-chat, we observe 58% and 40% reduction in factual error rate when generating biographies and answering medical questions, respectively.

논문 링크

https://arxiv.org/abs/2311.08401

더 읽어보기

https://x.com/arankomatsuzaki/status/1724613041155608951


대조적인 생각의 연결 고리(CoT) 프롬프트 / Contrastive Chain-of-Thought Prompting

논문 소개

  • 언어 모델 추론을 향상시키기 위해 대조적 사고 연쇄 방법(CoT)을 제안합니다. 이 접근 방식은 유효한 추론과 유효하지 않은 추론 데모를 모두 제공하여 모델이 단계별로 추론하도록 안내하면서 추론 실수를 줄입니다. 또한 대조적 데모를 구성하는 자동 방법을 제안하고 침대 프롬프트보다 개선된 점을 보여줍니다.

    Proposes a contrastive chain of thought method to enhance language model reasoning; the approach provides both valid and invalid reasoning demonstrations, to guide the model to reason step-by-step while reducing reasoning mistakes; also proposes an automatic method to construct contrastive demonstrations and demonstrates improvements over cot prompting.

논문 초록

  • 언어 모델 추론을 향상시키는 데 있어 연쇄적 사고의 성공에도 불구하고, 그 근본적인 프로세스는 아직 잘 이해되지 않고 있습니다. 논리적으로 건전한 추론이 사고 연쇄에 본질적으로 중요해 보이지만, 이전 연구에 따르면 잘못된 증명을 대신 사용할 경우 그 영향이 미미하다는 사실이 놀랍게도 밝혀졌습니다. 게다가 기존의 사고 연쇄는 언어 모델에 어떤 실수를 피해야 하는지 알려주지 않기 때문에 잠재적으로 더 많은 오류를 유발할 수 있습니다. 따라서 인간이 긍정적인 예와 부정적인 예 모두에서 학습할 수 있다는 점에 착안하여 언어 모델 추론을 강화하기 위해 대조적 사고 연쇄를 제안합니다. 기존의 사고 연쇄와 비교했을 때, 우리의 접근 방식은 유효한 추론과 잘못된 추론을 모두 보여줌으로써 추론 실수를 줄이면서 모델이 단계적으로 추론하도록 안내합니다. 일반화를 개선하기 위해 대조적인 데모를 자동으로 구성하는 방법을 도입했습니다. 추론 벤치마크에 대한 실험을 통해 대조적 사고 연쇄가 사고 연쇄 프롬프트를 전반적으로 향상시키는 역할을 할 수 있음을 입증했습니다.

    Despite the success of chain of thought in enhancing language model reasoning, the underlying process remains less well understood. Although logically sound reasoning appears inherently crucial for chain of thought, prior studies surprisingly reveal minimal impact when using invalid demonstrations instead. Furthermore, the conventional chain of thought does not inform language models on what mistakes to avoid, which potentially leads to more errors. Hence, inspired by how humans can learn from both positive and negative examples, we propose contrastive chain of thought to enhance language model reasoning. Compared to the conventional chain of thought, our approach provides both valid and invalid reasoning demonstrations, to guide the model to reason step-by-step while reducing reasoning mistakes. To improve generalization, we introduce an automatic method to construct contrastive demonstrations. Our experiments on reasoning benchmarks demonstrate that contrastive chain of thought can serve as a general enhancement of chain-of-thought prompting.

논문 링크

https://arxiv.org/abs/2311.09277

더 읽어보기

https://x.com/arankomatsuzaki/status/1725340150819905723


코드 언어 모델에 대한 서베이 논문 / A Survey on Language Models for Code

논문 소개

  • 50개 이상의 모델, 30개 이상의 평가 작업 및 500개 이상의 관련 작업에 대한 검토를 포함하여 코드에 대한 LLM의 개요를 제공합니다.

    Provides an overview of llms for code, including a review of 50+ models, 30+ evaluation tasks, and 500 related works.

논문 초록

  • 이 작업에서는 50개 이상의 모델, 30개 이상의 평가 작업 및 500개 이상의 관련 작업을 포함하여 언어 모델을 사용한 코드 처리의 최근 발전 상황을 체계적으로 검토합니다. 코드 처리 모델을 GPT 제품군으로 대표되는 일반 언어 모델과 코드에 대해 특별히 사전 학습된 특수 모델(종종 맞춤형 목표에 따라)로 분류합니다. 이러한 모델 간의 관계와 차이점에 대해 논의하고, 통계 모델과 RNN에서 사전 학습된 트랜스포머와 LLM으로 코드 모델링의 역사적 변천사를 강조하며, 이는 NLP가 걸어온 과정과 정확히 일치합니다. 또한 AST, CFG, 단위 테스트와 같은 코드별 기능과 코드 언어 모델 학습에서의 적용에 대해 논의하고 이 분야의 주요 과제와 잠재적인 미래 방향을 파악합니다. 설문조사는 GitHub 저장소(https://github.com/codefuse-ai/Awesome-Code-LLM)에서 계속 업데이트됩니다.

    In this work we systematically review the recent advancements in code processing with language models, covering 50+ models, 30+ evaluation tasks, and 500 related works. We break down code processing models into general language models represented by the GPT family and specialized models that are specifically pretrained on code, often with tailored objectives. We discuss the relations and differences between these models, and highlight the historical transition of code modeling from statistical models and RNNs to pretrained Transformers and LLMs, which is exactly the same course that had been taken by NLP. We also discuss code-specific features such as AST, CFG, and unit tests, along with their application in training code language models, and identify key challenges and potential future directions in this domain. We keep the survey open and updated on github repository at https://github.com/codefuse-ai/Awesome-Code-LLM.

논문 링크

https://arxiv.org/abs/2311.07989v1

더 읽어보기

https://x.com/omarsar0/status/1725637165256761553


JARVIS-1: 메모리 증강, 멀티모달 언어 모델을 갖춘 오픈월드 멀티태스크 에이전트 / JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models

논문 소개

  • 오픈월드 마인크래프트 세계 내에서 시각적 관찰과 사람의 지시 등 복합적인 입력을 인식하고 정교한 계획을 생성하며 구현된 제어를 수행할 수 있는 오픈월드 에이전트로, 마인크래프트 세계 내 200개 이상의 작업에서 완벽에 가까운 성능을 발휘하고, 긴 수평선 다이아몬드 곡괭이 작업에서 이전 기록 대비 5배 향상된 12.5%의 완료율을 달성했습니다.

    An open-world agent that can perceive multimodal input (visual observations and human instructions), generate sophisticated plans, and perform embodied control, within the open-world minecraft universe; exhibits near-perfect performances across over 200 tasks in minecraft universe; achieves a completion rate of 12.5% in the long-horizon diamond pickaxe task, which is a 5x increase compared to previous records.

논문 초록

  • 오픈 월드에서 멀티모달 관찰을 통해 인간과 같은 계획과 제어를 달성하는 것은 보다 기능적인 제너럴리스트 에이전트를 위한 핵심 이정표입니다. 기존 접근 방식은 오픈 월드에서 특정 장기 작업을 처리할 수 있습니다. 하지만 오픈월드 작업의 수가 무한대로 늘어날 수 있고 게임 시간이 길어짐에 따라 작업 완료도를 점진적으로 향상시킬 수 있는 기능이 부족하기 때문에 여전히 어려움을 겪고 있습니다. 유니티는 대중적이면서도 도전적인 오픈월드 마인크래프트 세계관 내에서 시각적 관찰과 사람의 지시 등 복합적인 입력을 인식하고, 정교한 계획을 생성하며, 구현된 제어를 수행할 수 있는 오픈월드 에이전트인 JARVIS-1을 소개합니다. 특히 유니티는 시각적 관찰과 텍스트 지시를 계획에 매핑하는 사전 학습된 멀티모달 언어 모델을 기반으로 JARVIS-1을 개발합니다. 이 계획은 최종적으로 목표 조건에 맞는 컨트롤러에게 전달됩니다. 유니티는 자비스-1에 멀티모달 메모리를 장착하여 사전 학습된 지식과 실제 게임 생존 경험을 모두 사용하여 계획을 수립할 수 있도록 지원합니다. 유니티의 실험 결과, 자비스-1은 초급부터 중급에 이르는 마인크래프트 유니버스 벤치마크의 200개 이상의 다양한 작업에서 거의 완벽한 성능을 보여주었습니다. JARVIS-1은 긴 수평선 다이아몬드 곡괭이 작업에서 12.5%의 완료율을 달성했습니다. 이는 이전 기록에 비해 최대 5배까지 크게 향상된 수치입니다. 또한, 멀티모달 메모리 덕분에 평생 학습 패러다임에 따라 JARVIS-1이 보다 일반적인 지능과 향상된 자율성을 촉발하여 $\textit{자기 개선}$할 수 있음을 보여주었습니다. 프로젝트 페이지는 https://craftjarvis-jarvis1.github.io 에서 확인할 수 있습니다.

    Achieving human-like planning and control with multimodal observations in an open world is a key milestone for more functional generalist agents. Existing approaches can handle certain long-horizon tasks in an open world. However, they still struggle when the number of open-world tasks could potentially be infinite and lack the capability to progressively enhance task completion as game time progresses. We introduce JARVIS-1, an open-world agent that can perceive multimodal input (visual observations and human instructions), generate sophisticated plans, and perform embodied control, all within the popular yet challenging open-world Minecraft universe. Specifically, we develop JARVIS-1 on top of pre-trained multimodal language models, which map visual observations and textual instructions to plans. The plans will be ultimately dispatched to the goal-conditioned controllers. We outfit JARVIS-1 with a multimodal memory, which facilitates planning using both pre-trained knowledge and its actual game survival experiences. In our experiments, JARVIS-1 exhibits nearly perfect performances across over 200 varying tasks from the Minecraft Universe Benchmark, ranging from entry to intermediate levels. JARVIS-1 has achieved a completion rate of 12.5% in the long-horizon diamond pickaxe task. This represents a significant increase up to 5 times compared to previous records. Furthermore, we show that JARVIS-1 is able to $\textit{self-improve}$ following a life-long learning paradigm thanks to multimodal memory, sparking a more general intelligence and improved autonomy. The project page is available at https://craftjarvis-jarvis1.github.io.

논문 링크

https://arxiv.org/abs/2311.05997

더 읽어보기

https://x.com/arankomatsuzaki/status/1723882043514470629


FILCO: 검색 증강 생성을 위한 컨텍스트 필터링 학습 방식 / Learning to Filter Context for Retrieval-Augmented Generation

논문 소개

  • 두 단계를 통해 생성기에 제공되는 문맥의 품질을 향상시키는 방법을 제안합니다: 1) 어휘 및 정보 이론적 접근 방식을 기반으로 유용한 컨텍스트를 식별하고, 2) 추론 시 검색된 컨텍스트를 필터링할 수 있는 컨텍스트 필터링 모델을 학습하여 추출형 질문 답변(QA), 복잡한 멀티홉 및 긴 형식의 QA, 사실 확인 및 대화 생성 작업에서 기존 접근 방식보다 뛰어난 성능을 발휘합니다.

    Proposes a method that improves the quality of the context provided to the generator via two steps: 1) identifying useful context based on lexical and information-theoretic approaches, and 2) training context filtering models that can filter retrieved contexts at inference; outperforms existing approaches on extractive question answering (qa), complex multi-hop and long-form qa, fact verification, and dialog generation tasks.

논문 초록

  • 관련 지식의 즉각적인 검색은 개방형 도메인 질문 답변 및 사실 확인과 같은 작업을 위한 신뢰할 수 있는 시스템의 필수 요소로 입증되었습니다. 그러나 검색 시스템은 완벽하지 않기 때문에 부분적으로 또는 완전히 관련 없는 구절이 주어졌을 때 결과물을 생성하려면 생성 모델이 필요합니다. 이로 인해 문맥에 대한 의존도가 지나치게 높거나 낮을 수 있으며, 생성된 출력에 환각과 같은 문제가 발생할 수 있습니다. 이러한 문제를 완화하기 위해 (1) 어휘 및 정보 이론적 접근 방식을 기반으로 유용한 문맥을 식별하고, (2) 검색된 문맥을 테스트 시점에 필터링할 수 있는 문맥 필터링 모델을 학습하여 생성기에 제공되는 문맥의 품질을 개선하는 방법인 FILCO를 제안합니다. FLAN-T5와 LLaMa2로 6가지 지식 집약적인 작업을 실험한 결과, 추출형 질문 답변(QA), 복잡한 멀티홉 및 긴 형식의 QA, 사실 확인, 대화 생성 작업에서 기존 접근 방식보다 성능이 뛰어남을 입증했습니다. FILCO는 표준 출력 지원 여부와 관계없이 컨텍스트의 품질을 효과적으로 개선합니다.

    On-the-fly retrieval of relevant knowledge has proven an essential element of reliable systems for tasks such as open-domain question answering and fact verification. However, because retrieval systems are not perfect, generation models are required to generate outputs given partially or entirely irrelevant passages. This can cause over- or under-reliance on context, and result in problems in the generated output such as hallucinations. To alleviate these problems, we propose FILCO, a method that improves the quality of the context provided to the generator by (1) identifying useful context based on lexical and information-theoretic approaches, and (2) training context filtering models that can filter retrieved contexts at test time. We experiment on six knowledge-intensive tasks with FLAN-T5 and LLaMa2, and demonstrate that our method outperforms existing approaches on extractive question answering (QA), complex multi-hop and long-form QA, fact verification, and dialog generation tasks. FILCO effectively improves the quality of context, whether or not it supports the canonical output.

논문 링크

https://arxiv.org/abs/2311.08377v1

더 읽어보기

https://x.com/ZhiruoW/status/1724792850079252886


MART: 여러 차례의 자동 레드 티밍을 통한 LLM 안전성 향상 / MART: Improving LLM Safety with Multi-round Automatic Red-Teaming

논문 소개

  • 다라운드 자동 적대적 프롬프트 작성과 안전한 응답 생성을 통합하여 적대적 프롬프트 작성의 확장성과 llm의 안전성을 높이고, 안전 정렬이 제한된 llm의 위반률이 마트 4라운드 후 최대 84.7%까지 감소하여 광범위한 적대적 프롬프트 작성을 사용하는 llm과 비슷한 성능을 달성하는 등 llm의 안전성을 개선하기 위한 접근 방식을 제안합니다.

    Proposes an approach for improving llm safety with multi-round automatic red-teaming; incorporates automatic adversarial prompt writing and safe response generation, which increases red-teaming scalability and the safety of llms; violation rate of an llm with limited safety alignment reduces up to 84.7% after 4 rounds of mart, achieving comparable performance to llms with extensive adversarial prompt writing.

논문 초록

  • 레드팀은 대규모 언어 모델(LLM)의 안전하지 않은 동작을 완화하기 위한 일반적인 관행으로, LLM을 철저히 평가하여 잠재적인 결함을 식별하고 책임감 있고 정확한 대응으로 문제를 해결하는 것을 포함합니다. 효과적이기는 하지만 수동 레드팀은 비용이 많이 들고, 기존의 자동 레드팀은 일반적으로 안전 위험을 해결하지 않고 발견하는 경우가 많습니다. 본 논문에서는 자동 적대적 프롬프트 작성과 안전한 응답 생성을 모두 통합하여 레드팀 확장성과 대상 LLM의 안전성을 크게 향상시키는 다라운드 자동 레드팀(MART) 방법을 제안합니다. 구체적으로, 적대적 LLM과 표적 LLM은 반복적인 방식으로 서로 상호작용하며, 적대적 LLM은 표적 LLM으로부터 안전하지 않은 응답을 유도하는 도전적인 프롬프트를 생성하는 것을 목표로 하고, 표적 LLM은 이러한 적대적 프롬프트에 대해 안전에 맞게 조정된 데이터로 미세 조정됩니다. 각 라운드에서 적대적 LLM은 업데이트된 표적 LLM에 대해 더 나은 공격을 만들고 표적 LLM도 안전성 미세 조정을 통해 스스로를 개선합니다. 적대적 프롬프트 벤치마크에서 안전성이 제한된 LLM의 위반률은 4라운드의 MART 이후 최대 84.7%까지 감소하여 광범위한 적대적 프롬프트 작성을 사용하는 LLM과 비슷한 성능을 달성합니다. 특히, 비적대적 프롬프트에 대한 모델 유용성은 반복을 거듭할수록 안정적으로 유지되어 타깃 LLM이 명령어 추종에서 강력한 성능을 유지한다는 것을 나타냅니다.

    Red-teaming is a common practice for mitigating unsafe behaviors in Large Language Models (LLMs), which involves thoroughly assessing LLMs to identify potential flaws and addressing them with responsible and accurate responses. While effective, manual red-teaming is costly, and existing automatic red-teaming typically discovers safety risks without addressing them. In this paper, we propose a Multi-round Automatic Red-Teaming (MART) method, which incorporates both automatic adversarial prompt writing and safe response generation, significantly increasing red-teaming scalability and the safety of the target LLM. Specifically, an adversarial LLM and a target LLM interplay with each other in an iterative manner, where the adversarial LLM aims to generate challenging prompts that elicit unsafe responses from the target LLM, while the target LLM is fine-tuned with safety aligned data on these adversarial prompts. In each round, the adversarial LLM crafts better attacks on the updated target LLM, while the target LLM also improves itself through safety fine-tuning. On adversarial prompt benchmarks, the violation rate of an LLM with limited safety alignment reduces up to 84.7% after 4 rounds of MART, achieving comparable performance to LLMs with extensive adversarial prompt writing. Notably, model helpfulness on non-adversarial prompts remains stable throughout iterations, indicating the target LLM maintains strong performance on instruction following.

논문 링크

https://arxiv.org/abs/2311.07689

더 읽어보기

https://x.com/AIatMeta/status/1724887918685425829


기술 보고서: 대규모 언어 모델은 압박을 받을 때 전략적으로 사용자를 속일 수 있습니다 / Technical Report: Large Language Models can Strategically Deceive their Users when Put Under Pressure

논문 소개

  • 로보어드바이저로 구동되는 자율 주식 거래 에이전트의 사용을 살펴보고, 에이전트가 내부자 정보에 따라 행동하고 거래 결정의 이유를 숨기는 것을 발견하며, 유용하고 안전한 로보어드바이저가 지시나 속임수 학습 없이도 실제 상황에서 사용자를 전략적으로 속일 수 있음을 보여줍니다.

    Explores the use of an autonomous stock trading agent powered by llms; finds that the agent acts upon insider tips and hides the reason behind the trading decision; shows that helpful and safe llms can strategically deceive users in a realistic situation without direction instructions or training for deception.

논문 초록

  • 도움이 되고, 무해하며, 정직하도록 학습된 대규모 언어 모델이 지시를 받지 않고도 잘못된 행동을 보이고 전략적으로 사용자를 속일 수 있는 상황을 시연합니다. 구체적으로는 실제와 같은 시뮬레이션 환경에서 GPT-4를 에이전트로 배포하여 자율적인 주식 거래 에이전트의 역할을 맡깁니다. 이 환경에서 모델은 수익성 있는 주식 거래에 대한 내부자 정보를 입수하고 내부자 거래가 회사 경영진에 의해 승인되지 않는다는 사실을 알고 있음에도 불구하고 이를 실행합니다. 이 모델은 관리자에게 보고할 때 거래 결정의 진정한 이유를 일관되게 숨깁니다. 추론 스크래치 패드에 대한 모델 액세스 권한을 제거하고, 시스템 지침을 변경하여 잘못된 행동을 방지하려고 시도하고, 모델이 받는 압력의 양을 변경하고, 적발될 위험에 대한 인지된 위험을 변경하고, 기타 간단한 환경 변경을 시도하는 등 설정을 변경할 때 이러한 행동이 어떻게 달라지는지 간략하게 조사했습니다. 우리가 아는 한, 이것은 도움이 되고 무해하며 정직하도록 학습된 대규모 언어 모델이 직접적인 지시나 속임수 학습 없이 실제 상황에서 사용자를 전략적으로 속이는 데모는 이번이 처음입니다.

    We demonstrate a situation in which Large Language Models, trained to be helpful, harmless, and honest, can display misaligned behavior and strategically deceive their users about this behavior without being instructed to do so. Concretely, we deploy GPT-4 as an agent in a realistic, simulated environment, where it assumes the role of an autonomous stock trading agent. Within this environment, the model obtains an insider tip about a lucrative stock trade and acts upon it despite knowing that insider trading is disapproved of by company management. When reporting to its manager, the model consistently hides the genuine reasons behind its trading decision. We perform a brief investigation of how this behavior varies under changes to the setting, such as removing model access to a reasoning scratchpad, attempting to prevent the misaligned behavior by changing system instructions, changing the amount of pressure the model is under, varying the perceived risk of getting caught, and making other simple changes to the environment. To our knowledge, this is the first demonstration of Large Language Models trained to be helpful, harmless, and honest, strategically deceiving their users in a realistic situation without direct instructions or training for deception.

논문 링크

https://arxiv.org/abs/2311.07590

더 읽어보기

https://x.com/ESYudkowsky/status/1725226563992715521


원문

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-e3d