[2023/12/11 ~ 12/17] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)
(discuss.pytorch.kr)개요
-
DAIR.AI에서 매주 공개하는 ML 논문들에 대한 글을 자동 번역해보았습니다.
-
이번 주에 선택된 논문들을 살펴보면, 'LLM(Large Language Models)'에 대한 연구가 주를 이루고 있다는 점이 눈에 띕니다. 구체적으로, 수학 분야에 있어서의 발견, 일반화 문제, 의학 분야의 적용, 인간 데이터를 넘어서는 학습 방법 등 다양한 주제에 걸쳐 LLM의 활용도와 성능 향상에 대한 분석이 진행된 것으로 보입니다.
-
이러한 경향은 최근 몇 년간 인공지능 분야에서 LLM의 발전이 주목받고 있음을 반영합니다. 특히, OpenAI의 GPT-3 같은 대형 언어 모델이 등장하면서 이 모델들이 다양한 분야에 적용될 수 있는 가능성이 크게 확장되었습니다. 이는 LLM가 단순한 텍스트 처리를 넘어서 복잡한 문제 해결에 있어서도 중요한 역할을 할 수 있음을 시사하며, 이번 주 논문들에서 수학과 의학이라는 전통적인 분야에까지 영향력을 확장하고 있는 것으로 보입니다. 또한, 투명성과 개방성을 중시하는 추세는 연구 및 응용 분야에 있어서의 신뢰성과 협력의 중요성을 강조하고 있습니다.
-
또한 'Weak-to-strong Generalization'이나 'Beyond Human Data for LLMs' 같은 논문들은 LLM의 일반화 능력과 학습 방법론에 대한 연구를 시사하며, 이는 현재 LLM가 갖고 있는 제한적인 학습 환경에서 벗어나 보다 강력한 학습 메커니즘을 개발하려는 시도로 볼 수 있습니다. 이러한 추세는 LLM 연구가 단순히 성능 향상에 주력하는 것을 넘어서 모델의 일반화 능력과 효용성을 획기적으로 증진시키고자 하는 방향으로 진행되고 있음을 나타내고 있습니다.
수리 과학 분야의 발견을 위한 LLM / LLMs for Discoveries in Mathematical Sciences
논문 소개
- 수학 및 컴퓨터 과학에서 새로운 해법을 찾기 위해 LLM을 사용, 사전 학습된 LLM과 체계적인 평가자를 결합하고 이를 반복하여 낮은 점수를 받은 프로그램을 새로운 지식을 발견하는 높은 점수의 프로그램으로 발전시키는 펀서치(funsearch) 제안, 수학적 발견 및 기타 실제 문제를 해결하기 위해서는 LLM 환각으로부터 보호하는 것이 중요하다는 것이 이 연구의 핵심 결과 중 하나입니다.
Uses llms to search for new solutions in mathematics & computer science; proposes funsearch which combines a pre-trained llm with a systematic evaluator and iterates over them to evolve low-scoring programs into high-scoring ones discovering new knowledge; one of the key findings in this work is that safeguarding against llm hallucinations is important to produce mathematical discoveries and other real-world problems.
논문 링크
https://www.nature.com/articles/s41586-023-06924-6
더 읽어보기
https://x.com/GoogleDeepMind/status/1735332722208284797
약 대 강 일반화 / Weak-to-strong Generalization
논문 소개
- 약한 모델 감독이 더 강한 모델의 모든 기능을 이끌어낼 수 있는지 연구하고, 약한 모델이 생성한 레이블에 대해 강력한 사전 학습 모델을 순진하게 미세 조정하면 약한 감독자보다 더 나은 성능을 낼 수 있음을 발견하고, GPT-2 수준의 감독자로 GPT-4를 미세 조정하면 NLP 작업에서 GPT-3.5 수준에 가까운 성능을 회복할 수 있음을 보고합니다.
Studies whether weak model supervision can elicit the full capabilities of stronger models; finds that when naively fine-tuning strong pretrained models on weak model generated labels they can perform better than their weak supervisors; reports that finetuning gpt-4 with a gpt-2-level supervisor it’s possible to recover close to gpt-3.5-level performance on nlp tasks.
논문 링크
https://cdn.openai.com/papers/weak-to-strong-generalization.pdf
더 읽어보기
https://x.com/OpenAI/status/1735349718765715913
오디오 박스 / Audiobox
논문 소개
- 다양한 오디오 모달리티를 생성할 수 있는 플로우 매칭 기반의 통합 모델, 설명 기반 및 예제 기반 프롬프트를 설계하여 제어 가능성을 높이고 음성 및 사운드 생성 패러다임을 통합, 레이블이 없는 대량의 오디오를 사전 학습할 수 있도록 자체 감독 인필 목표를 조정, 음성 및 사운드 생성 성능이 우수하고 새로운 보컬 및 음향 스타일로 오디오를 생성하는 새로운 방법의 잠금 해제.
A unified model based on flow-matching capable of generating various audio modalities; designs description-based and example-based prompting to enhance controllability and unify speech and sound generation paradigms; adapts a self-supervised infilling objective to pre-train on large quantities of unlabeled audio; performs well on speech and sound generation and unlocks new methods for generating audio with novel vocal and acoustic styles.
논문 링크
https://ai.meta.com/research/publications/…
더 읽어보기
https://x.com/AIatMeta/status/1734257634008531453
수학적 언어 모델: 설문 조사 / Mathematical Language Models: A Survey
논문 소개
- 수학적 과제에 대한 LLM의 진행 상황에 대한 설문조사, 수학 단어 문제 풀이 및 정리 증명과 같은 프롬프트 기법 및 과제에 관한 LLM 연구에 대한 논문과 리소스를 다룹니다.
A survey on the progress of llms on mathematical tasks; covers papers and resources on llm research around prompting techniques and tasks such as math word problem-solving and theorem proving.
논문 초록
- 최근 몇 년 동안 수학 영역에서 사전 학습 언어 모델(PLM)과 대규모 언어 모델(LLM)을 아우르는 언어 모델(LM)을 활용하는 데 괄목할 만한 발전이 있었습니다. 이 논문에서는 수학적 LM에 대한 포괄적인 조사를 실시하여 중추적인 연구 노력을 과제와 방법론이라는 두 가지 관점에서 체계적으로 분류합니다. 그 결과 수많은 수학적 LM이 제안되었으며, 이를 다시 교수법 학습, 도구 기반 방법, 기본 CoT 기법, 고급 CoT 방법론으로 세분화하여 살펴볼 수 있었습니다. 또한 이 설문조사에는 학습 데이터세트, 벤치마크 데이터세트, 증강 데이터세트를 포함한 60개 이상의 수학 데이터세트를 수집하는 작업이 수반됩니다. 수학적 LM 분야의 주요 과제를 해결하고 미래의 궤적을 묘사하는 이 설문조사는 이 분야를 발전시키는 데 투자하는 연구자들 사이에서 미래의 혁신을 촉진하고 영감을 줄 수 있는 귀중한 자료로 자리매김하고 있습니다.
In recent years, there has been remarkable progress in leveraging Language Models (LMs), encompassing Pre-trained Language Models (PLMs) and Large-scale Language Models (LLMs), within the domain of mathematics. This paper conducts a comprehensive survey of mathematical LMs, systematically categorizing pivotal research endeavors from two distinct perspectives: tasks and methodologies. The landscape reveals a large number of proposed mathematical LLMs, which are further delineated into instruction learning, tool-based methods, fundamental CoT techniques, and advanced CoT methodologies. In addition, our survey entails the compilation of over 60 mathematical datasets, including training datasets, benchmark datasets, and augmented datasets. Addressing the primary challenges and delineating future trajectories within the field of mathematical LMs, this survey is positioned as a valuable resource, poised to facilitate and inspire future innovation among researchers invested in advancing this domain.
논문 링크
https://arxiv.org/abs/2312.07622
더 읽어보기
https://x.com/omarsar0/status/1735323577392542084
LLM360: 완전히 투명한 오픈소스 LLM을 향한 여정 / LLM360: Towards Fully Transparent Open-Source LLMs
논문 소개
- 엔드투엔드 머신러닝 학습 프로세스를 투명하고 재현 가능하게 만들어 개방적이고 협업적인 AI 연구를 지원하는 LLM360을 제안하고, 학습 코드, 데이터, 중간 체크포인트 및 분석을 포함하여 처음부터 미리 학습된 7b 파라미터 머신러닝, 앰버 및 크리스탈코더를 출시합니다.
Proposes llm360 to support open and collaborative ai research by making the end-to-end llm training process transparent and reproducible; releases 7b parameter llms pre-trained from scratch, amber and crystalcoder, including their training code, data, intermediate checkpoints, and analyses.
논문 초록
- 최근 LLaMA, 팔콘, 미스트랄과 같은 오픈소스 대규모 언어 모델(LLM)이 급증하면서 AI 실무자와 연구자에게 다양한 옵션이 제공되고 있습니다. 그러나 대부분의 LLM은 최종 모델 가중치나 추론 코드와 같은 부분적인 아티팩트만 공개하고 있으며, 기술 보고서는 점점 더 높은 수준의 설계 선택과 표면 통계로 범위를 제한하고 있습니다. 이러한 선택은 LLM 학습에 대한 투명성을 떨어뜨리고 학습 과정에서 팀이 많은 세부 사항을 다시 발견하도록 함으로써 현장의 발전을 저해합니다. 유니티는 모든 학습 코드와 데이터, 모델 체크포인트, 중간 결과를 커뮤니티에 공개하는 LLM의 완전한 오픈소스화를 위한 이니셔티브인 LLM360을 발표했습니다. LLM360의 목표는 모든 사람이 엔드투엔드 LLM 학습 과정을 투명하고 재현 가능하게 만들어 개방적이고 협력적인 AI 연구를 지원하는 것입니다. 유니티는 LLM360의 첫 번째 단계로 학습 코드, 데이터, 중간 체크포인트 및 분석을 포함하여 처음부터 미리 학습된 두 개의 7B 파라미터 LLM인 Amber와 CrystalCoder를 공개합니다(https://www.llm360.ai). 유니티는 이러한 오픈소스 노력을 통해 LLM의 한계를 지속적으로 확장하기 위해 최선을 다하고 있습니다. 더 크고 강력한 모델이 개발 중이며 향후 출시될 예정입니다.
The recent surge in open-source Large Language Models (LLMs), such as LLaMA, Falcon, and Mistral, provides diverse options for AI practitioners and researchers. However, most LLMs have only released partial artifacts, such as the final model weights or inference code, and technical reports increasingly limit their scope to high-level design choices and surface statistics. These choices hinder progress in the field by degrading transparency into the training of LLMs and forcing teams to rediscover many details in the training process. We present LLM360, an initiative to fully open-source LLMs, which advocates for all training code and data, model checkpoints, and intermediate results to be made available to the community. The goal of LLM360 is to support open and collaborative AI research by making the end-to-end LLM training process transparent and reproducible by everyone. As a first step of LLM360, we release two 7B parameter LLMs pre-trained from scratch, Amber and CrystalCoder, including their training code, data, intermediate checkpoints, and analyses (at https://www.llm360.ai). We are committed to continually pushing the boundaries of LLMs through this open-source effort. More large-scale and stronger models are underway and will be released in the future.
논문 링크
https://arxiv.org/abs/2312.06550
더 읽어보기
https://x.com/omarsar0/status/1734591071575744820
의학 분야의 대규모 언어 모델에 대한 조사: 원리, 응용 및 과제 / A Survey of Large Language Models in Medicine: Principles, Applications, and Challenges
논문 소개
- 의학 분야의 머신러닝에 대한 종합적인 설문조사(300개 이상의 논문 분석)로, 의학 분야의 머신러닝이 직면한 원칙, 적용, 과제에 대한 개요를 포함합니다.
A comprehensive survey (analyzing 300+ papers) on llms in medicine; includes an overview of the principles, applications, and challenges faced by llms in medicine.
논문 초록
- ChatGPT와 같은 대규모 언어 모델(LLM)은 인상적인 인간 언어 이해 및 생성 능력으로 인해 상당한 주목을 받고 있습니다. 따라서 의사와 환자 치료를 지원하기 위해 의학 분야에서 LLM을 적용하는 것은 인공지능과 임상 의학 모두에서 유망한 연구 방향으로 떠오르고 있습니다. 이러한 추세를 반영하여 본 설문조사에서는 의학 분야에서의 인공신경망의 원리, 응용, 그리고 직면한 과제에 대한 포괄적인 개요를 제공합니다. 특히 다음과 같은 질문을 다루고자 합니다: 1) 의료용 LLM은 어떻게 구축될 수 있는가? 2) 의학 LLM의 다운스트림 성과는 무엇인가요? 3) 실제 임상에서 의료용 LLM을 어떻게 활용할 수 있을까요? 4) 의료용 LLM을 사용하면서 어떤 문제가 발생하는가? 5) 어떻게 하면 의료용 LLM을 더 잘 구축하고 활용할 수 있는가? 결과적으로 이 설문조사는 의학 분야에서 LLM의 기회와 도전 과제에 대한 인사이트를 제공하고 실용적이고 효과적인 의학 LLM을 구축하기 위한 귀중한 자료로 활용하고자 합니다. 의학 LLM에 관한 실용적인 가이드는 정기적으로 업데이트되는 목록은 https://github.com/AI-in-Health/MedLLMsPracticalGuide 에서 확인할 수 있습니다.
Large language models (LLMs), such as ChatGPT, have received substantial attention due to their impressive human language understanding and generation capabilities. Therefore, the application of LLMs in medicine to assist physicians and patient care emerges as a promising research direction in both artificial intelligence and clinical medicine. To reflect this trend, this survey provides a comprehensive overview of the principles, applications, and challenges faced by LLMs in medicine. Specifically, we aim to address the following questions: 1) How can medical LLMs be built? 2) What are the downstream performances of medical LLMs? 3) How can medical LLMs be utilized in real-world clinical practice? 4) What challenges arise from the use of medical LLMs? and 5) How can we better construct and utilize medical LLMs? As a result, this survey aims to provide insights into the opportunities and challenges of LLMs in medicine and serve as a valuable resource for constructing practical and effective medical LLMs. A regularly updated list of practical guides on medical LLMs can be found at https://github.com/AI-in-Health/MedLLMsPracticalGuide.
논문 링크
https://arxiv.org/abs/2311.05112
더 읽어보기
https://x.com/omarsar0/status/1734599425568231513
휴먼 데이터 그 이상: 언어 모델로 문제 해결을 위한 자가 학습 확장하기 / Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models
논문 소개
- 사람이 생성한 데이터에 대한 의존도를 크게 줄일 수 있는 피드백을 통한 자가 학습 접근 방식을 제안하고, 모델 생성 데이터와 보상 기능을 결합하여 문제 해결 작업에서 머신러닝의 성능을 향상시킵니다.
Proposes an approach for self-training with feedback that can substantially reduce dependence on human-generated data; the model-generated data combined with a reward function improves the performance of llms on problem-solving tasks.
논문 초록
- 사람이 생성한 데이터에 대해 언어 모델(LM)을 미세 조정하는 것은 여전히 널리 사용되고 있습니다. 그러나 이러한 모델의 성능은 고품질의 인간 데이터의 양과 다양성에 의해 제한되는 경우가 많습니다. 이 논문에서는 스칼라 피드백에 액세스할 수 있는 작업, 예를 들어 정답을 확인할 수 있는 수학 문제에서 인간 데이터를 뛰어넘을 수 있는지 살펴봅니다. 이를 위해 (1) 모델에서 샘플을 생성하고 이진 피드백을 사용해 필터링한 다음, (2) 이 샘플에 대해 모델을 미세 조정하고 (3) 이 과정을 몇 차례 반복하는 기대 최대화에 기반한 간단한 자가 학습 방법, 즉 ReST $^{EM}$ 을 살펴봅니다. PaLM-2 모델을 사용하여 고급 수학 추론 및 앱 코딩 벤치마크를 테스트한 결과, ReST $^{EM}$ 는 모델 크기에 따라 유리하게 확장되며 인간 데이터에 대해서만 미세 조정하는 것보다 훨씬 뛰어나다는 것을 발견했습니다. 전반적으로 이번 연구 결과는 피드백을 통한 자가 학습이 사람이 생성한 데이터에 대한 의존도를 크게 줄일 수 있음을 시사합니다.
Fine-tuning language models(LMs) on human-generated data remains a prevalent practice. However, the performance of such models is often limited by the quantity and diversity of high-quality human data. In this paper, we explore whether we can go beyond human data on tasks where we have access to scalar feedback, for example, on math problems where one can verify correctness. To do so, we investigate a simple self-training method based on expectation-maximization, which we call ReST $^{EM}$, where we (1) generate samples from the model and filter them using binary feedback, (2) fine-tune the model on these samples, and (3) repeat this process a few times. Testing on advanced MATH reasoning and APPS coding benchmarks using PaLM-2 models, we find that ReST $^{EM}$ scales favorably with model size and significantly surpasses fine-tuning only on human data. Overall, our findings suggest self-training with feedback can substantially reduce dependence on human-generated data.
논문 링크
https://arxiv.org/abs/2312.06585
더 읽어보기
https://x.com/omarsar0/status/1734953578274386002
가우시안 슬램 / Gaussian-SLAM
논문 소개
- 속도와 효율성을 저하시키지 않으면서 실제 장면을 사실적으로 재구성할 수 있는 뉴럴 RGBD 슬램 방식은 기존 방식의 한계를 극복하기 위해 장면 표현을 위한 고전적인 3D 가우시안 방식을 확장한 것입니다.
A neural rgbd slam method capable of photorealistically reconstructing real-world scenes without compromising speed and efficiency; extends classical 3d gaussians for scene representation to overcome the limitations of the previous methods.
논문 링크
https://vladimiryugay.github.io/gaussian_slam/
더 읽어보기
https://x.com/vlyug/status/1734683948440252480
Pearl: 프로덕션에 바로 적용 가능한 강화 학습 에이전트 / Pearl: A Production-ready Reinforcement Learning Agent
논문 소개
- 연구자와 실무자가 관찰 가능성이 제한적이고 피드백이 희박하며 확률성이 높은 환경에 적응하는 인공지능 에이전트를 개발할 수 있는 새로운 프로덕션 지원 인공지능 에이전트 소프트웨어 패키지를 소개합니다.
Introduces a new production-ready rl agent software package that enables researchers and practitioners to develop rl ai agents that adapt to environments with limited observability, sparse feedback, and high stochasticity.
논문 초록
- 강화 학습(RL)은 장기적인 목표 달성을 위한 다용도 프레임워크를 제공합니다. 이러한 범용성 덕분에 지연된 보상 처리, 부분적인 관찰 가능성 처리, 탐색 및 착취 딜레마 해결, 온라인 성능 향상을 위한 오프라인 데이터 활용, 안전 제약 조건 충족 보장 등 실제 지능형 시스템이 직면하는 광범위한 문제를 공식화할 수 있습니다. 이러한 문제를 해결하기 위해 RL 연구 커뮤니티에서 상당한 진전을 이루었음에도 불구하고, 기존의 오픈소스 RL 라이브러리는 RL 솔루션 파이프라인의 일부에만 집중하고 다른 측면은 거의 방치하는 경향이 있습니다. 이 논문에서는 이러한 문제를 모듈식 방식으로 수용하도록 명시적으로 설계된 프로덕션 지원 RL 에이전트 소프트웨어 패키지인 Pearl을 소개합니다. 이 논문에서는 예비 벤치마크 결과를 제시할 뿐만 아니라 Pearl의 업계 채택 사례를 통해 실제 사용 준비가 완료되었음을 보여줍니다. Pearl은 Github에서 github.com/facebookresearch/pearl 로 오픈소스화되어 있으며, 공식 웹사이트는 pearlagent.github.io 에 있습니다.
Reinforcement Learning (RL) offers a versatile framework for achieving long-term goals. Its generality allows us to formalize a wide range of problems that real-world intelligent systems encounter, such as dealing with delayed rewards, handling partial observability, addressing the exploration and exploitation dilemma, utilizing offline data to improve online performance, and ensuring safety constraints are met. Despite considerable progress made by the RL research community in addressing these issues, existing open-source RL libraries tend to focus on a narrow portion of the RL solution pipeline, leaving other aspects largely unattended. This paper introduces Pearl, a Production-ready RL agent software package explicitly designed to embrace these challenges in a modular fashion. In addition to presenting preliminary benchmark results, this paper highlights Pearl's industry adoptions to demonstrate its readiness for production usage. Pearl is open sourced on Github at github.com/facebookresearch/pearl and its official website is located at pearlagent.github.io.
논문 링크
https://arxiv.org/abs/2312.03814
더 읽어보기
https://x.com/ZheqingZhu/status/1732880717263352149
Quip / Quip
논문 소개
- 학습된 모델 가중치를 낮은 정밀도 형식으로 압축하여 메모리 요구 사항을 줄이고, 격자 코드북과 비일관성 처리를 결합하여 2비트 양자화 모델을 생성하며, 2비트 양자화 LLM와 비정량화 16비트 모델 간의 격차를 크게 줄입니다.
Compresses trained model weights into a lower precision format to reduce memory requirements; the approach combines lattice codebooks with incoherence processing to create 2 bit quantized models; significantly closes the gap between 2 bit quantized llms and unquantized 16 bit models.
논문 링크
https://cornell-relaxml.github.io/quip-sharp/
더 읽어보기
https://x.com/tsengalb99/status/1733222467953422702
원문
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-c22