[2024/03/18 ~ 03/24] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)
(discuss.pytorch.kr)- DAIR.AI에서 매주 공개하는 ML 논문들에 대한 글을 자동 번역해보았습니다.
-
이번 주에 선정된 논문들에는 대체로 대규모 언어 모델(LLMs)을 활용한 연구들이 많이 보입니다. 특히, 'Tool Use in LLMs', 'Step-by-Step Comparisons Make LLMs Better Reasoners', 'LLM4Decompile', 'Agent-FLAN', 'LLMs Leak Proprietary Information', 'Retrieval-Augmented Fine-Tuning'과 같은 제목에서 알 수 있듯이, 이들 논문은 LLMs의 다양한 적용 범위와 성능 향상 방법, 그리고 보안 문제까지 다루고 있는 것으로 보입니다.
-
이러한 경향은 최근 몇 년간 인공지능 분야에서 LLMs가 주목 받으면서, 다양한 연구 분야에서 그 활용 범위를 모색하고자 하는 노력의 결과로 볼 수 있습니다. 특히, 기존의 작업들을 더 효율적으로 처리하기 위한 방법론 뿐만 아니라, 도구 사용이나 문제 해결 과정에서의 추론 능력 향상, 소프트웨어 역공학과 같은 새로운 적용 분야 탐색, 그리고 모델의 안정성과 보안에 대한 연구 등은 LLMs의 발전 가능성을 넓히고 있습니다. 또한, 이러한 연구들은 LLMs가 실제 환경에서 어떻게 활용될 수 있는지, 그리고 이와 관련된 잠재적 문제점들은 무엇인지에 대한 이해를 심화시키는 데 중요한 역할을 하고 있다고 할 수 있습니다.
-
이와 더불어, 'Evolutionary Model Merge', 'DROID' 같은 논문들은 모델의 통합과 발전 과정에 대한 연구를 제안하면서, 모델의 성능을 지속적으로 개선하고 최적화하는 방법에 대한 관심 역시 높아지고 있음을 보여줍니다. 이는 LLMs 뿐만 아니라 다양한 인공지능 기술의 발전과 통합에 있어 중요한 방향성을 제시하고 있으며, 앞으로의 연구에서도 계속해서 중요한 주제가 될 것으로 예상됩니다. 따라서, 이번 주 선정된 논문들은 LLMs와 관련된 연구의 현재 경향과 향후 방향성에 대해 귀중한 통찰을 제공합니다.
Grok-1
논문 소개
- 기본 모델 가중치 및 네트워크 아키텍처의 공개 릴리스를 포함하는 314B 매개 변수가 있는 전문가 혼합 모델; MoE 모델은 주어진 토큰에 대해 가중치의 25%를 활성화하며 사전 학습 컷-오프 날짜는 2023년 10월입니다.
a mixture-of-experts model with 314B parameters which includes the open release of the base model weights and network architecture; the MoE model activates 25% of the weights for a given token and its pretraining cutoff date is October 2023.
논문 링크
더 읽어보기
https://discuss.pytorch.kr/t/x-ai-grok/3793/1
https://x.com/ibab_ml/status/1769447989192675748
모델 병합 레시피의 진화적 최적화 / Evolutionary Optimization of Model Merging Recipes
논문 소개
- 오픈소스 모델을 결합하기 위해 진화를 사용하여 기초 모델 개발을 자동화하는 접근 방식; 크로스 도메인 병합을 촉진하여 일본 수학 LLM이 이러한 작업에 대해 명시적으로 학습되지 않았음에도 불구하고 일본 LLM 벤치마크에서 최신 성능을 달성하고 심지어 훨씬 더 많은 매개 변수를 가진 모델을 능가하는 성과를 거뒀습니다.
an approach for automating foundation model development using evolution to combine open-source models; facilitates cross-domain merging where a Japanese Math LLM achieved state-of-the-art performance on Japanese LLM benchmarks, even surpassing models with significantly more parameters, despite not explicitly trained for these tasks.
논문 초록(Abstract)
- 강력한 기초 모델 생성을 자동화하기 위한 진화 알고리즘의 새로운 적용 사례를 소개합니다. 모델 병합은 비용 효율성으로 인해 LLM 개발의 유망한 접근법으로 부상했지만, 현재 인간의 직관과 도메인 지식에 의존하고 있어 그 잠재력이 제한적입니다. 여기서는 광범위한 추가 학습 데이터나 컴퓨팅 없이도 다양한 오픈 소스 모델의 효과적인 조합을 자동으로 발견하고 집단 지성을 활용하여 이러한 한계를 극복하는 진화적 접근 방식을 제안합니다. 이 접근 방식은 매개변수 공간과 데이터 흐름 공간 모두에서 작동하므로 개별 모델의 가중치를 넘어서는 최적화가 가능합니다. 이 접근 방식은 도메인 간 병합을 용이하게 하여 수학 추론 기능을 갖춘 일본어 LLM과 같은 모델을 생성할 수도 있습니다. 놀랍게도 일본 수학 LLM은 이러한 작업에 대해 명시적으로 학습되지 않았음에도 불구하고 기존의 다양한 일본 LLM 벤치마크에서 최고 수준의 성능을 달성했으며 심지어 훨씬 더 많은 매개변수를 가진 모델을 능가했습니다. 또한, 이러한 접근 방식을 통해 생성된 문화 인식 일본어 VLM은 일본 문화에 특화된 콘텐츠를 설명하는 데 있어 기존 일본어 VLM을 능가하는 효과를 입증했습니다. 이 작업은 새로운 최첨단 모델을 오픈 소스 커뮤니티에 다시 기여할 뿐만 아니라 자동화된 모델 구성에 대한 새로운 패러다임을 도입하여 기초 모델 개발에 대한 대안적이고 효율적인 접근 방식을 모색할 수 있는 길을 열어줍니다.
We present a novel application of evolutionary algorithms to automate the creation of powerful foundation models. While model merging has emerged as a promising approach for LLM development due to its cost-effectiveness, it currently relies on human intuition and domain knowledge, limiting its potential. Here, we propose an evolutionary approach that overcomes this limitation by automatically discovering effective combinations of diverse open-source models, harnessing their collective intelligence without requiring extensive additional training data or compute. Our approach operates in both parameter space and data flow space, allowing for optimization beyond just the weights of the individual models. This approach even facilitates cross-domain merging, generating models like a Japanese LLM with Math reasoning capabilities. Surprisingly, our Japanese Math LLM achieved state-of-the-art performance on a variety of established Japanese LLM benchmarks, even surpassing models with significantly more parameters, despite not being explicitly trained for such tasks. Furthermore, a culturally-aware Japanese VLM generated through our approach demonstrates its effectiveness in describing Japanese culture-specific content, outperforming previous Japanese VLMs. This work not only contributes new state-of-the-art models back to the open-source community, but also introduces a new paradigm for automated model composition, paving the way for exploring alternative, efficient approaches to foundation model development.
논문 링크
https://arxiv.org/abs/2403.13187
더 읽어보기
https://x.com/SakanaAILabs/status/1770613032198279663
TacticAI: 축구 전술을 위한 AI 비서 / TacticAI: an AI assistant for football tactics
논문 소개
- 리버풀 FC의 분야별 전문가와 협력하여 개발 및 평가한 축구 전술용 AI 보조 시스템으로, 코치에게 코너킥 루틴을 위한 대체 선수 설정을 샘플로 탐색하고 성공 가능성이 가장 높은 전술을 선택할 수 있는 방법을 제공하며, TacticAI의 모델 제안은 기존 전술보다 90%의 경우 선호되며 효과적인 코너킥 검색 시스템을 제공합니다.
an AI-powered assistant for football tactics developed and evaluated in collaboration with domain experts from Liverpool FC; the systems offer coaches a way to sample and explore alternative player setups for a corner kick routine and select the tactic with the highest predicted likelihood of success; TacticAI’s model suggestions are favored over existing tactics 90% of the time and it offers an effective corner kick retrieval system.
논문 초록(Abstract)
- 라이벌 팀이 사용하는 전술의 주요 패턴을 파악하고 효과적인 대응책을 개발하는 것은 현대 축구의 핵심입니다. 그러나 이를 알고리즘적으로 수행하는 것은 아직 해결되지 않은 연구 과제로 남아 있습니다. 이러한 미충족 수요를 해결하기 위해 유니티는 리버풀 FC의 분야별 전문가들과 긴밀히 협력하여 개발하고 평가한 AI 축구 전술 어시스턴트인 TacticAI를 제안합니다. 코치에게 가장 직접적인 개입과 개선의 기회를 제공하는 코너킥 분석에 초점을 맞췄습니다. TacticAI는 예측 및 생성 요소를 모두 통합하여 코치들이 각 코너킥 루틴에 대한 대체 선수 셋업을 효과적으로 샘플링하고 탐색하여 성공 가능성이 가장 높은 선수를 선택할 수 있도록 지원합니다. 유니티는 리시버와 슈팅 시도 예측, 선수 포지션 조정 추천 등 다양한 벤치마크 작업을 통해 TacticAI를 검증합니다. 리버풀 FC의 축구 분야 전문가들과 함께 실시한 정성적 연구를 통해 TacticAI의 유용성을 검증했습니다. 연구 결과, TacticAI의 모델 제안은 실제 전술과 구별할 수 없을 뿐만 아니라 90%의 경우 기존 전술보다 선호도가 높았으며, 효과적인 코너킥 검색 시스템을 제공하는 것으로 나타났습니다. TacticAI는 기하학적 딥러닝을 통해 데이터 효율성을 달성함으로써 골드 스탠다드 데이터의 가용성이 제한적임에도 불구하고 이러한 결과를 달성할 수 있었습니다.
Identifying key patterns of tactics implemented by rival teams, and developing effective responses, lies at the heart of modern football. However, doing so algorithmically remains an open research challenge. To address this unmet need, we propose TacticAI, an AI football tactics assistant developed and evaluated in close collaboration with domain experts from Liverpool FC. We focus on analysing corner kicks, as they offer coaches the most direct opportunities for interventions and improvements. TacticAI incorporates both a predictive and a generative component, allowing the coaches to effectively sample and explore alternative player setups for each corner kick routine and to select those with the highest predicted likelihood of success. We validate TacticAI on a number of relevant benchmark tasks: predicting receivers and shot attempts and recommending player position adjustments. The utility of TacticAI is validated by a qualitative study conducted with football domain experts at Liverpool FC. We show that TacticAI’s model suggestions are not only indistinguishable from real tactics, but also favoured over existing tactics 90% of the time, and that TacticAI offers an effective corner kick retrieval system. TacticAI achieves these results despite the limited availability of gold-standard data, achieving data efficiency through geometric deep learning.
논문 링크
https://www.nature.com/articles/s41467-024-45965-x
더 읽어보기
https://discuss.pytorch.kr/t/tacticai-ai-feat-deepmind-fc/3841
https://x.com/GoogleDeepMind/status/1770121564085707082
LLM에서 도구 사용 / Tool Use in LLMs
논문 소개
- 도구 사용 패러다임의 공식적인 정의, LLM이 도구 사용을 활용하는 시나리오, 이 접근 방식이 효과적인 작업 등 LLM의 도구 사용에 대한 개요를 제공하며, 복잡한 도구 사용에 대한 분석과 LM 툴링 작업 전반의 테스트베드 및 평가 지표를 요약해 제공합니다.
provides an overview of tool use in LLMs, including a formal definition of the tool-use paradigm, scenarios where LLMs leverage tool usage, and for which tasks this approach works well; it also provides an analysis of complex tool usage and summarize testbeds and evaluation metrics across LM tooling works.
논문 초록 (Abstract)
언어 모델(LM)은 강력하지만 주로 텍스트 생성 작업에 사용됩니다. 복잡한 기술이 필요한 작업의 경우 도구의 성능이 크게 향상되었습니다. 성능을 크게 향상시켰습니다. 하지만 많은 작품에서 '도구'라는 용어를 다양한 "도구"라는 용어를 채택하고 있어 의문을 제기합니다: 도대체 도구란 무엇인가? 그렇다면 도구는 어디에서 도구는 LM에게 어떻게 도움이 될까요? 이 설문 조사에서는 도구에 대한 통일된 정의를 제공합니다. LM이 사용하는 외부 프로그램으로서의 도구에 대한 통일된 정의를 제공하고, LM의 도구 사용 시나리오와 접근 방식에 대한 LM 툴링 시나리오와 접근 방식에 대한 체계적인 검토를 수행합니다. 이 검토를 바탕으로 다음과 같은 결과를 도출했습니다. 다양한 툴링 방법의 효율성을 측정하여 경험적으로 연구합니다. 다양한 벤치마크에서 필요한 컴퓨팅 및 성능 향상을 측정하여 다양한 툴링 방법의 효율성을 경험적으로 연구합니다, 그리고 이 분야의 몇 가지 과제와 향후 연구 가능성을 강조합니다.
Language models (LMs) are powerful yet mostly for text generation tasks. Tools have substantially enhanced their performance for tasks that require complex skills. However, many works adopt the term “tool” in different ways, raising the question: What is a tool anyway? Subsequently, where and how do tools help LMs? In this survey, we provide a unified definition of tools as external programs used by LMs, and perform a systematic review of LM tooling scenarios and approaches. Grounded on this review, we empirically study the efficiency of various tooling methods by measuring their required compute and performance gains on various benchmarks, and highlight some challenges and potential future research in the field.
논문 링크
https://zorazrw.github.io/files/WhatAreToolsAnyway.pdf
더 읽어보기
https://x.com/omarsar0/status/1770497515898433896
RankPrompt: 단계별 비교를 통해 언어 모델을 더 나은 추론자로 만들기 / RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners
논문 소개
- LLM이 추가 리소스 없이 응답의 순위를 스스로 매길 수 있는 프롬프트 방식인 RankPrompt를 제안합니다. 이 셀프 랭킹 방식은 체계적인 단계별 비교 평가를 통해 후보의 순위를 매기고, 데모로 비교 연쇄를 생성하는 LLM의 기능을 활용하므로 잘 작동하는 것으로 보이며, RankPrompt는 많은 산술 및 상식 추론 작업에서 ChatGPT와 GPT-4의 추론 성능을 크게 향상시킵니다.
proposes RankPrompt, a prompting method to enable LLMs to self-rank their responses without additional resources; this self-ranking approach ranks candidates through a systematic, step-by-step comparative evaluation; it seems to work well as it leverages the capabilities of LLMs to generate chains of comparisons as demonstrations; RankPrompt significantly enhances the reasoning performance of ChatGPT and GPT-4 on many arithmetic and commonsense reasoning tasks.
논문 초록(Abstract)
- 대규모 언어 모델(LLM)은 다양한 추론 작업에서 인상적인 성능을 발휘해 왔습니다. 하지만 ChatGPT와 같은 최첨단 LLM도 추론 과정에서 논리적 오류가 발생하기 쉽습니다. 작업별 검증자를 배포하거나 여러 추론 경로에 걸쳐 투표하는 등의 기존 솔루션은 광범위한 사람의 주석이 필요하거나 응답이 일관되지 않은 시나리오에서 실패합니다. 이러한 문제를 해결하기 위해 추가 리소스 없이도 LLM이 응답의 순위를 스스로 매길 수 있는 새로운 프롬프트 방법인 RankPrompt를 도입했습니다. RankPrompt는 순위 지정 문제를 다양한 응답 간의 일련의 비교로 세분화하여 LLM의 고유한 기능을 활용하여 맥락에 맞는 예시로서 비교 체인을 생성합니다. 11개의 산술 및 상식 추론 과제에 대한 실험 결과, RankPrompt는 최대 13%까지 개선된 ChatGPT 및 GPT-4의 추론 성능을 크게 향상시키는 것으로 나타났습니다. 또한, RankPrompt는 개방형 작업에 대한 LLM 기반 자동 평가에서 탁월한 성능을 발휘하여 AlpacaEval 데이터 세트에서 74%의 시간 동안 사람의 판단과 일치하는 것으로 나타났습니다. 또한 응답 순서와 일관성의 변화에 대한 견고함도 보여줍니다. 이러한 결과를 종합하면 언어 모델로부터 고품질 피드백을 이끌어내는 효과적인 방법으로서 RankPrompt가 검증되었습니다.
Large Language Models (LLMs) have achieved impressive performance across various reasoning tasks. However, even state-of-the-art LLMs such as ChatGPT are prone to logical errors during their reasoning processes. Existing solutions, such as deploying task-specific verifiers or voting over multiple reasoning paths, either require extensive human annotations or fail in scenarios with inconsistent responses. To address these challenges, we introduce RankPrompt, a new prompting method that enables LLMs to self-rank their responses without additional resources. RankPrompt breaks down the ranking problem into a series of comparisons among diverse responses, leveraging the inherent capabilities of LLMs to generate chains of comparison as contextual exemplars. Our experiments across 11 arithmetic and commonsense reasoning tasks show that RankPrompt significantly enhances the reasoning performance of ChatGPT and GPT-4, with improvements of up to 13%. Moreover, RankPrompt excels in LLM-based automatic evaluations for open-ended tasks, aligning with human judgments 74% of the time in the AlpacaEval dataset. It also exhibits robustness to variations in response order and consistency. Collectively, our results validate RankPrompt as an effective method for eliciting high-quality feedback from language models.
논문 링크
https://arxiv.org/abs/2403.12373
더 읽어보기
https://x.com/omarsar0/status/1770492690129359135
LLM4Decompile: 대규모 언어 모델로 바이너리 코드 디컴파일하기 / LLM4Decompile: Decompiling Binary Code with Large Language Models
논문 소개
- 10억 개에서 33억 개 매개변수에 이르는 오픈 액세스 디컴파일 LLM 제품군; 이러한 모델은 40억 개의 C 소스 코드와 해당 어셈블리 코드에 대해 학습; 저자들은 또한 디컴파일을 위한 재호환성 및 재실행 가능성을 평가하고 프로그램 의미론의 관점에서 평가하기 위한 데이터 세트인 Decompile-Eval을 소개하며, LLM4Decompile은 GPT-4보다 50% 향상된 어셈블리 코드의 21%를 디컴파일하는 기능을 시연하고 있습니다.
a family of open-access decompilation LLMs ranging from 1B to 33B parameters; these models are trained on 4 billion tokens of C source code and corresponding assembly code; the authors also introduce Decompile-Eval, a dataset for assessing re-compatibility and re-executability for decompilation and evaluating with a perspective of program semantics; LLM4Decompile demonstrates the capability to decompile 21% of the assembly code, achieving a 50% improvement over GPT-4.
논문 초록(Abstract)
- 디컴파일은 컴파일된 코드를 사람이 읽을 수 있는 소스 코드로 복원하는 것을 목표로 하지만 이름과 구조와 같은 세부 사항으로 인해 어려움을 겪습니다. 대규모 언어 모델(LLM)은 프로그래밍 작업에 대한 가능성을 보여주며 디컴파일에 대한 적용 동기를 부여합니다. 그러나 디컴파일을 위한 오픈 소스 LLM은 존재하지 않습니다. 게다가 기존의 디컴파일 평가 시스템은 주로 토큰 수준의 정확성을 고려하기 때문에 프로그램의 가장 중요한 특징인 코드 실행 가능성을 거의 무시하고 있습니다. 따라서 저희는 40억 개의 C 소스 코드와 해당 어셈블리 코드로 사전 학습된 10억에서 33억 개에 이르는 최초의 오픈 액세스 디컴파일 LLM을 공개합니다. 이 오픈 소스 LLM은 해당 분야의 추가 개발을 위한 기준이 될 수 있습니다. 실질적인 프로그램 평가를 위해 디컴파일을 위한 재컴파일 가능성 및 재실행 가능성을 고려하는 최초의 데이터 세트인 Decompile-Eval을 소개합니다. 이 벤치마크는 프로그램 의미론의 관점에서 디컴파일 모델을 평가하는 것의 중요성을 강조합니다. 실험 결과, LLM4Decompile은 어셈블리 코드의 21%를 정확하게 디컴파일할 수 있는 것으로 나타났으며, 이는 GPT-4보다 50% 향상된 성능입니다. 코드, 데이터 세트 및 모델은 https://github.com/albertan017/LLM4Decompile 에서 공개됩니다
Decompilation aims to restore compiled code to human-readable source code, but struggles with details like names and structure. Large language models (LLMs) show promise for programming tasks, motivating their application to decompilation. However, there does not exist any open-source LLM for decompilation. Moreover, existing decompilation evaluation systems mainly consider token-level accuracy and largely ignore code executability, which is the most important feature of any program. Therefore, we release the first open-access decompilation LLMs ranging from 1B to 33B pre-trained on 4 billion tokens of C source code and the corresponding assembly code. The open-source LLMs can serve as baselines for further development in the field. To ensure practical program evaluation, we introduce Decompile-Eval, the first dataset that considers re-compilability and re-executability for decompilation. The benchmark emphasizes the importance of evaluating the decompilation model from the perspective of program semantics. Experiments indicate that our LLM4Decompile has demonstrated the capability to accurately decompile 21% of the assembly code, which achieves a 50% improvement over GPT-4. Our code, dataset, and models are released at https://github.com/albertan017/LLM4Decompile
논문 링크
https://arxiv.org/abs/2403.05286v1
더 읽어보기
https://discuss.pytorch.kr/t/llm4decompile-llm-decompile/3809
https://github.com/albertan017/LLM4Decompile
https://x.com/omarsar0/status/1771218791399092351
Agent-FLAN: 대규모 언어 모델을 위한 데이터 설계 및 효과적인 에이전트 튜닝 방법 / Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models
논문 소개
- 에이전트를 위한 언어 모델을 효과적으로 미세 조정하는 데이터와 방법을 설계하여 에이전트-FLAN이라고 하며, 이를 통해 다양한 에이전트 평가 데이터 세트에서 이전 최고 작품보다 3.5% 더 나은 성능을 발휘하는 Llama2-7B를 구현하고, 에이전트-FLAN은 모델 크기를 확장할 때 환각 문제를 크게 완화하고 일반적으로 LLM을 개선하면서 에이전트의 기능을 일관되게 향상시킵니다;
Designs data and methods to effectively fine-tune language models for agents, referred to as Agent-FLAN; this enables Llama2-7B to outperform prior best works by 3.5% across various agent evaluation datasets; Agent-FLAN greatly alleviates the hallucination issues and consistently improves the agent capability of LLMs when scaling model sizes while generally improving the LLM;
논문 초록(Abstract)
- 오픈 소스 대규모 언어 모델(LLM)은 다양한 NLP 작업에서 큰 성공을 거두었지만 에이전트로서 작동할 때는 여전히 API 기반 모델에 비해 훨씬 열등합니다. 에이전트 기능을 일반 LLM에 통합하는 방법은 매우 중요하고 시급한 문제가 되고 있습니다. 이 백서에서는 먼저 세 가지 주요 관찰 결과, 즉 (1) 현재 에이전트 훈련 코퍼스는 형식 추종과 에이전트 추론이 모두 얽혀 있어 사전 훈련 데이터의 분포와 크게 다르다는 점, (2) LLM은 에이전트 작업에 필요한 능력에 따라 학습 속도가 다르다는 점, (3) 현재 접근 방식은 환각을 도입하여 에이전트의 능력을 향상시킬 때 부작용이 있다는 점을 제시합니다. 위의 연구 결과를 바탕으로 에이전트를 위한 언어 모델을 효과적으로 미세 조정할 수 있는 에이전트-FLAN을 제안합니다. 훈련 코퍼스를 세심하게 분해하고 재설계함으로써 에이전트-FLAN은 다양한 에이전트 평가 데이터 세트에서 이전의 우수작을 3.5% 능가하는 성능을 발휘할 수 있게 해줍니다. 종합적으로 구축된 음성 샘플을 통해 에이전트-FLAN은 확립된 평가 벤치마크를 기반으로 환각 문제를 크게 완화합니다. 또한 모델 크기를 확장할 때 LLM의 에이전트 기능을 지속적으로 개선하는 동시에 LLM의 일반적인 기능을 약간 향상시킵니다. 코드는 https://github.com/InternLM/Agent-FLAN 에서 확인할 수 있습니다.
Open-sourced Large Language Models (LLMs) have achieved great success in various NLP tasks, however, they are still far inferior to API-based models when acting as agents. How to integrate agent ability into general LLMs becomes a crucial and urgent problem. This paper first delivers three key observations: (1) the current agent training corpus is entangled with both formats following and agent reasoning, which significantly shifts from the distribution of its pre-training data; (2) LLMs exhibit different learning speeds on the capabilities required by agent tasks; and (3) current approaches have side-effects when improving agent abilities by introducing hallucinations. Based on the above findings, we propose Agent-FLAN to effectively Fine-tune LANguage models for Agents. Through careful decomposition and redesign of the training corpus, Agent-FLAN enables Llama2-7B to outperform prior best works by 3.5% across various agent evaluation datasets. With comprehensively constructed negative samples, Agent-FLAN greatly alleviates the hallucination issues based on our established evaluation benchmark. Besides, it consistently improves the agent capability of LLMs when scaling model sizes while slightly enhancing the general capability of LLMs. The code will be available at https://github.com/InternLM/Agent-FLAN.
논문 링크
https://arxiv.org/abs/2403.12881v1
더 읽어보기
https://github.com/InternLM/Agent-FLAN
https://x.com/_akhaliq/status/1770302813152690259
API로 보호되는 LLM의 로그로 인해 독점 정보가 유출되는 경우 / Logits of API-Protected LLMs Leak Proprietary Information
논문 소개
- 로그를 사용하여 API로 보호된 LLM에 대한 대량의 비공개 정보를 학습할 수 있음을 보여줍니다. 이 접근 방식은 상대적으로 적은 수의 API 쿼리로 OpenAI의 gpt-3.5-turbo의 임베딩 크기를 약 4,096개로 추정하며, 사용된 공격에 대한 가드레일도 제안하고 있습니다.
shows that it’s possible to learn a large amount of non-public information about an API-protected LLM using the logits; with a relatively small number of API queries, the approach estimates that the embedding size of OpenAI's gpt-3.5-turbo to be about 4,096; the paper also proposes guardrails against the attacks used.
논문 초록(Abstract)
- 대규모 언어 모델(LLM)의 상용화로 인해 독점 모델에 대한 높은 수준의 API 전용 액세스가 일반적인 관행으로 자리 잡았습니다. 이 연구에서는 모델 아키텍처에 대해 보수적인 가정을 하더라도 비교적 적은 수의 API 쿼리(예: OpenAI의 gpt-3.5-turbo의 경우 1,000달러 미만)로 API로 보호되는 LLM에 대한 놀라울 정도로 많은 양의 비공개 정보를 학습할 수 있음을 보여 줍니다. 이번 연구 결과의 핵심은 대부분의 최신 LLM이 소프트맥스 병목현상으로 인해 모델 출력이 전체 출력 공간의 선형 하위 공간으로 제한된다는 점입니다. 우리는 이것이 모델 이미지 또는 모델 서명에 적합하다는 것을 보여주며, 이를 통해 LLM의 숨겨진 크기를 효율적으로 발견하고, 전체 어휘 출력을 얻고, 다양한 모델 업데이트를 감지 및 구분하고, 단일 전체 LLM 출력이 주어지면 소스 LLM을 식별하고, 심지어 출력 계층 파라미터를 추정하는 등 저렴한 비용으로 여러 기능을 활용할 수 있습니다. 경험적 조사를 통해 이러한 방법의 효과를 확인했으며, 이를 통해 OpenAI의 gpt-3.5 터보의 임베딩 크기를 약 4,096개로 추정할 수 있었습니다. 마지막으로, LLM 제공업체가 이러한 공격을 방어할 수 있는 방법과 이러한 기능을 버그가 아닌 기능으로 간주하여 투명성과 책임성을 강화하는 방법에 대해 논의합니다.
The commercialization of large language models (LLMs) has led to the common practice of high-level API-only access to proprietary models. In this work, we show that even with a conservative assumption about the model architecture, it is possible to learn a surprisingly large amount of non-public information about an API-protected LLM from a relatively small number of API queries (e.g., costing under $1,000 for OpenAI's gpt-3.5-turbo). Our findings are centered on one key observation: most modern LLMs suffer from a softmax bottleneck, which restricts the model outputs to a linear subspace of the full output space. We show that this lends itself to a model image or a model signature which unlocks several capabilities with affordable cost: efficiently discovering the LLM's hidden size, obtaining full-vocabulary outputs, detecting and disambiguating different model updates, identifying the source LLM given a single full LLM output, and even estimating the output layer parameters. Our empirical investigations show the effectiveness of our methods, which allow us to estimate the embedding size of OpenAI's gpt-3.5-turbo to be about 4,096. Lastly, we discuss ways that LLM providers can guard against these attacks, as well as how these capabilities can be viewed as a feature (rather than a bug) by allowing for greater transparency and accountability.
논문 링크
https://arxiv.org/abs/2403.09539
더 읽어보기
https://x.com/DimitrisPapail/status/1768654579254579385
DROID: 대규모 야생 로봇 조작 데이터 세트 / DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset
논문 소개
- 보다 유능하고 강력한 로봇 조작 정책을 훈련하고 구축하기 위한 오픈소스 대규모 로봇 조작 데이터세트로, 564개 장면과 86개 작업에서 수집된 76,000개의 데모 궤적을 포함하고 있으며 DROID로 훈련하면 더 높은 성능의 정책과 일반화로 이어질 수 있습니다.
an open-source, large-scale robot manipulation dataset to train and build more capable and robust robotic manipulation policies; it contains 76K demonstration trajectories, collected across 564 scenes and 86 tasks; training with DROID leads to higher performing policies and generalization.
논문 초록(Abstract)
- 대규모의 다양한 고품질 로봇 조작 데이터 세트의 생성은 보다 유능하고 강력한 로봇 조작 정책으로 나아가는 중요한 디딤돌입니다. 하지만 다양한 환경에서 로봇 조작 데이터를 수집하려면 물류 및 안전 문제가 발생하고 하드웨어와 인력에 상당한 투자가 필요합니다. 그 결과 오늘날 가장 일반적인 로봇 조작 정책조차도 대부분 장면과 작업의 다양성이 제한된 소수의 환경에서 수집된 데이터로 학습됩니다. 이 연구에서는 12개월 동안 북미, 아시아, 유럽에서 50명의 데이터 수집가가 564개의 장면과 84개의 작업에서 수집한 76,000개의 데모 궤적 또는 350시간의 상호 작용 데이터가 포함된 다양한 로봇 조작 데이터 세트인 DROID(Distributed Robot Interaction Dataset)를 소개합니다. DROID를 사용한 훈련이 더 높은 성능과 향상된 일반화 능력을 갖춘 정책으로 이어진다는 것을 입증했습니다. 전체 데이터 세트, 정책 학습 코드, 로봇 하드웨어 설정을 재현하기 위한 자세한 가이드를 오픈소스로 공개합니다.
The creation of large, diverse, high-quality robot manipulation datasets is an important stepping stone on the path toward more capable and robust robotic manipulation policies. However, creating such datasets is challenging: collecting robot manipulation data in diverse environments poses logistical and safety challenges and requires substantial investments in hardware and human labour. As a result, even the most general robot manipulation policies today are mostly trained on data collected in a small number of environments with limited scene and task diversity. In this work, we introduce DROID (Distributed Robot Interaction Dataset), a diverse robot manipulation dataset with 76k demonstration trajectories or 350 hours of interaction data, collected across 564 scenes and 84 tasks by 50 data collectors in North America, Asia, and Europe over the course of 12 months. We demonstrate that training with DROID leads to policies with higher performance and improved generalization ability. We open source the full dataset, policy learning code, and a detailed guide for reproducing our robot hardware setup.
논문 링크
https://arxiv.org/abs/2403.12945
더 읽어보기
https://x.com/chelseabfinn/status/1770311755140575413
RAFT: 도메인별 RAG에 맞게 언어 모델 조정하기 / RAFT: Adapting Language Model to Domain Specific RAG
논문 소개
- RAG의 장점과 미세 조정을 결합하여 '오픈북' 도메인 내 설정에서 질문에 답하는 모델의 능력을 향상시키고, 이를 RAFT의 CoT 스타일 응답과 결합하면 추론을 개선하는 데 도움이 됩니다.
combines the benefits of RAG and fine-tuning to improve a model's ability to answer questions in "open-book" in-domain settings; combining it with RAFT's CoT-style response helps to improve reasoning.
논문 초록(Abstract)
- 대규모 텍스트 데이터 코퍼스를 대상으로 대규모 언어 모델(LLM)을 사전 학습하는 것은 이제 표준 패러다임이 되었습니다. 많은 다운스트림 애플리케이션에 이러한 LLM을 사용할 때는 RAG 기반 프롬프트 또는 미세 조정을 통해 사전 학습된 모델에 새로운 지식(예: 시간이 촉박한 뉴스 또는 비공개 도메인 지식)을 추가적으로 구워 넣는 것이 일반적입니다. 그러나 모델이 이러한 새로운 지식을 얻기 위한 최적의 방법론은 아직 미해결 과제로 남아 있습니다. 이 백서에서는 도메인 내 '오픈북' 설정에서 질문에 답하는 모델의 능력을 향상시키는 훈련 레시피인 검색 증강 미세 조정(RAFT)을 소개합니다. RAFT에서는 질문과 검색된 문서 세트가 주어지면 질문에 답하는 데 도움이 되지 않는 문서를 무시하도록 모델을 훈련시키는데, 이를 방해 문서라고 부릅니다. RAFT는 질문에 답하는 데 도움이 되는 관련 문서에서 올바른 순서를 그대로 인용함으로써 이를 수행합니다. 이는 RAFT의 연쇄적 사고 스타일 응답과 결합되어 모델의 추론 능력을 향상시키는 데 도움이 됩니다. 도메인별 RAG에서 RAFT는 PubMed, HotpotQA, Gorilla 데이터 세트 전반에서 모델의 성능을 지속적으로 개선하여 사전 학습된 LLM을 도메인 내 RAG로 개선하는 사후 학습 레시피를 제시합니다. RAFT의 코드와 데모는 github.com/ShishirPatil/gorilla에서 오픈 소스로 제공됩니다.
Pretraining Large Language Models (LLMs) on large corpora of textual data is now a standard paradigm. When using these LLMs for many downstream applications, it is common to additionally bake in new knowledge (e.g., time-critical news, or private domain knowledge) into the pretrained model either through RAG-based-prompting, or fine-tuning. However, the optimal methodology for the model to gain such new knowledge remains an open question. In this paper, we present Retrieval Augmented FineTuning (RAFT), a training recipe that improves the model's ability to answer questions in a "open-book" in-domain settings. In RAFT, given a question, and a set of retrieved documents, we train the model to ignore those documents that don't help in answering the question, which we call, distractor documents. RAFT accomplishes this by citing verbatim the right sequence from the relevant document that would help answer the question. This coupled with RAFT's chain-of-thought-style response helps improve the model's ability to reason. In domain-specific RAG, RAFT consistently improves the model's performance across PubMed, HotpotQA, and Gorilla datasets, presenting a post-training recipe to improve pre-trained LLMs to in-domain RAG. RAFT's code and demo are open-sourced at github.com/ShishirPatil/gorilla.
논문 링크
https://arxiv.org/abs/2403.10131
더 읽어보기
https://discuss.pytorch.kr/t/raft-rag-llm-rag-finetuning/3842
https://x.com/cwolferesearch/status/1770912695765660139
원문
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-01b
이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.
⚠️광고⚠️: 파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)