3P by ninebow 5달전 | favorite | 댓글과 토론

개요

  • DAIR.AI에서 매주 공개하는 ML 논문들에 대한 글을 자동 번역해보았습니다.

  • 이번 주에 선정된 논문들을 살펴보면 대규모 언어 모델(Large Language Models, LLMs)과 멀티모달 모델(Multimodal Models), 그리고 비주얼 언어 모델(Visual Language Models)과 같은 영역들에 대한 관심이 두드러진다는 것을 알 수 있습니다. "Knowledge Fusion of LLMs", "Resource-efficient LLMs & Multimodal Models" 그리고 "Red Teaming Visual Language Models"와 같은 논문들은 이 주요 추세들을 반영하며, 고용량의 모델들과 그 효율성, 멀티모달 학습 및 시각적데이터 처리능력 향상에 대한 연구 개발을 제시하고 있습니다.

  • 이러한 경향은 최근 몇 년 동안 인공지능 기술, 특히 자연어 처리(Natural Language Processing, NLP)와 컴퓨터 비전(Computer Vision) 영역에서 복합적인 데이터를 이해하고 처리하는 능력의 중요성이 증가함에 따라 나타나고 있습니다. 대규모 언어 모델은 다양한 언어 이해 작업에서 높은 성능을 기록하고 있으며, 멀티모달 모델은 다양한 유형의 데이터 (텍스트, 이미지, 오디오 등)를 조합하여 인간 같은 이해를 목표로 하는 연구에 있어 필수적인 요소로 자리 잡고 있습니다. 또한, 시각적 랭귀지 모델은 이미지와 시각적 콘텐츠에 대한 언어적 접근을 가능하게 하여 더욱 풍부하고 상호작용적인 AI시스템을 구축하는데 중요한 역할을 하고 있습니다.

  • 이렇게 타이틀과 소개를 통해 파악된 추세는 고도화된 AI 모델들의 성능 향상뿐만 아니라, 생산성과 효율성의 새로운 기준을 설정하는 것을 목표로 한 연구가 많아지고 있음을 시사합니다. 대규모 모델의 자원 효율성 개선을 다루는 논문들은 에너지 소비와 연산 비용 측면에서의 지속 가능한 AI 발전을 추구하는 현재의 연구 흐름을 반영합니다. 이는 또한 인공지능이 실제 산업 및 사회적 응용에서 더욱 광범위하게 채택되기 위해 반드시 해결해야 할 문제들을 다루는 학계와 산업계의 노력을 강조하는 부분이기도 합니다.


무엇이든 심층 분석: 레이블이 지정되지 않은 대규모 데이터의 힘 활용하기 / Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data

논문 소개

  • 어떤 상황에서도 어떤 이미지도 처리할 수 있는 강력한 단안 심도 추정 솔루션, 라벨이 없는 대규모 데이터(최대 6,200만개)에 자동으로 주석을 달아 일반화 오류를 줄이고, 대규모 라벨이 없는 데이터의 힘을 활용할 수 있는 효과적인 전략을 제안하며, 일반화 능력 외에도 미세 조정을 통해 새로운 최첨단 기술을 확립하고 향상된 깊이 조절 제어망까지 구현했습니다.

    A robust monocular depth estimation solution that can deal with any images under any circumstance; automatically annotates large-scale unlabeled data (~62m) which helps to reduce generalization error; proposes effective strategies to leverage the power of the large-scale unlabeled data; besides generalization ability, it established new state-of-the-art through fine-tuning and even results in an enhanced depth-conditioned controlnet.

논문 초록(Abstract)

  • 이 연구에서는 강력한 단안 깊이 추정을 위한 매우 실용적인 솔루션인 Depth Anything을 소개합니다. 새로운 기술 모듈을 추구하지 않고, 어떤 상황에서도 모든 이미지를 처리할 수 있는 간단하면서도 강력한 파운데이션 모델을 구축하는 것을 목표로 합니다. 이를 위해 라벨이 없는 대규모 데이터(약 6,200만 개)를 수집하고 자동으로 주석을 달 수 있는 데이터 엔진을 설계하여 데이터셋을 확장함으로써 데이터 범위를 크게 확대하고 일반화 오류를 줄일 수 있습니다. 데이터 스케일업의 가능성을 높이는 간단하면서도 효과적인 두 가지 전략을 살펴봅니다. 첫째, 데이터 증강 도구를 활용하여 보다 도전적인 최적화 목표를 설정합니다. 이를 통해 모델이 추가적인 시각적 지식을 적극적으로 찾고 강력한 표현을 획득하도록 유도합니다. 둘째, 모델이 사전 학습된 인코더로부터 풍부한 시맨틱 전구체를 상속받도록 하는 보조 감독을 개발합니다. 6개의 공개 데이터 세트와 무작위로 캡처한 사진을 포함하여 제로 샷 기능을 광범위하게 평가합니다. 그 결과 인상적인 일반화 능력을 보여주었습니다. 또한 NYUv2 및 KITTI의 메트릭 깊이 정보로 미세 조정을 통해 새로운 SOTA를 설정합니다. 더 나은 깊이 모델은 또한 더 나은 깊이 조절 컨트롤넷으로 이어집니다. 자세한 내용은 https://github.com/LiheYoung/Depth-Anything 에서 확인할 수 있습니다.

    This work presents Depth Anything, a highly practical solution for robust monocular depth estimation. Without pursuing novel technical modules, we aim to build a simple yet powerful foundation model dealing with any images under any circumstances. To this end, we scale up the dataset by designing a data engine to collect and automatically annotate large-scale unlabeled data (~62M), which significantly enlarges the data coverage and thus is able to reduce the generalization error. We investigate two simple yet effective strategies that make data scaling-up promising. First, a more challenging optimization target is created by leveraging data augmentation tools. It compels the model to actively seek extra visual knowledge and acquire robust representations. Second, an auxiliary supervision is developed to enforce the model to inherit rich semantic priors from pre-trained encoders. We evaluate its zero-shot capabilities extensively, including six public datasets and randomly captured photos. It demonstrates impressive generalization ability. Further, through fine-tuning it with metric depth information from NYUv2 and KITTI, new SOTAs are set. Our better depth model also results in a better depth-conditioned ControlNet. Our models are released at https://github.com/LiheYoung/Depth-Anything.

논문 링크

https://arxiv.org/abs/2401.10891v1

더 읽어보기

https://x.com/_akhaliq/status/1749284669936275463


대규모 언어 모델의 지식 융합 / Knowledge Fusion of Large Language Models

논문 소개

  • 여러 학습조직의 지식을 외부화하고 그 역량을 목표 학습조직으로 이전하는 것을 핵심 아이디어로 하는 퓨즈엘름을 제안하고, 소스 학습조직의 생성 분포를 활용하여 집단적 지식과 개인의 강점을 모두 외부화하고 지속적인 학습을 통해 목표 학습조직으로 이전하며, 퓨즈엘름이 추론, 상식, 코드 생성 등 다양한 기능에 걸쳐 목표 모델의 성능을 향상시킬 수 있음을 발견합니다.

    Proposes fusellm with the core idea of externalizing knowledge from multiple llms and transferring their capabilities to a target llm; leverages the generative distributions of source llms to externalize both their collective knowledge and individual strengths and transfer them to the target llm through continual training; finds that the fusellm can improve the performance of the target model across a range of capabilities such as reasoning, common sense, and code generation.

논문 초록(Abstract)

  • 대규모 언어 모델(LLM)을 처음부터 학습시키면 고유한 기능과 강점을 가진 모델을 생성할 수 있지만, 상당한 비용이 발생하고 기능이 중복될 수 있습니다. 또는 이미 학습된 기존 LLM을 보다 강력한 모델로 병합하는 것도 비용 효율적이고 매력적인 접근 방식입니다. 그러나 이러한 LLM의 아키텍처가 다양하기 때문에 가중치를 직접 혼합하는 것은 비현실적입니다. 이 논문에서는 기존 LLM의 기능을 결합하여 하나의 LLM으로 통합하는 것을 목표로 하는 LLM을 위한 지식 융합 개념을 소개합니다. 소스 LLM의 생성 분포를 활용하여 그들의 집단적 지식과 고유한 강점을 외부화함으로써 잠재적으로 개별 소스 LLM의 기능을 뛰어넘는 목표 모델의 기능을 향상시킵니다. 유니티는 다양한 벤치마크와 작업에서 서로 다른 아키텍처를 가진 세 가지 인기 LLM인 라마-2, MPT, OpenLLaMA를 사용하여 접근 방식을 검증합니다. 그 결과, LLM을 융합하면 추론, 상식, 코드 생성 등 다양한 기능에서 목표 모델의 성능을 향상시킬 수 있음을 확인했습니다. 코드, 모델 가중치 및 데이터는 \url{https://github.com/fanqiwan/FuseLLM}에 공개되어 있습니다.

    While training large language models (LLMs) from scratch can generate models with distinct functionalities and strengths, it comes at significant costs and may result in redundant capabilities. Alternatively, a cost-effective and compelling approach is to merge existing pre-trained LLMs into a more potent model. However, due to the varying architectures of these LLMs, directly blending their weights is impractical. In this paper, we introduce the notion of knowledge fusion for LLMs, aimed at combining the capabilities of existing LLMs and transferring them into a single LLM. By leveraging the generative distributions of source LLMs, we externalize their collective knowledge and unique strengths, thereby potentially elevating the capabilities of the target model beyond those of any individual source LLM. We validate our approach using three popular LLMs with different architectures--Llama-2, MPT, and OpenLLaMA--across various benchmarks and tasks. Our findings confirm that the fusion of LLMs can improve the performance of the target model across a range of capabilities such as reasoning, commonsense, and code generation. Our code, model weights, and data are public at \url{https://github.com/fanqiwan/FuseLLM}.

논문 링크

https://arxiv.org/abs/2401.10491

더 읽어보기

https://github.com/fanqiwan/FuseLLM

https://x.com/omarsar0/status/1749267663900057620


맘바바이트: 토큰이 필요 없는 선택적 상태 공간 모델 / MambaByte: Token-free Selective State Space Model

논문 소개

  • 원시 바이트에서 직접 학습하도록 맘바 SSM을 조정합니다. 바이트는 자동 회귀 변환기가 제대로 확장하지 못하는 긴 시퀀스로 이어집니다. 이 작업은 더 빠른 추론과 관련된 큰 이점을 보고하며 심지어 하위 단어 변환기보다 성능이 더 뛰어납니다.

    Adapts mamba ssm to learn directly from raw bytes; bytes lead to longer sequences which autoregressive transformers will scale poorly on; this work reports huge benefits related to faster inference and even outperforms subword transformers.

논문 초록(Abstract)

  • 토큰 없는 언어 모델은 원시 바이트에서 직접 학습하고 하위 단어 토큰화의 편향을 제거합니다. 그러나 바이트 단위로 작업하면 시퀀스가 상당히 길어지고 표준 자동 회귀 트랜스포머는 이러한 설정에서 제대로 확장되지 않습니다. 저희는 바이트 시퀀스에 대해 자동 회귀적으로 학습된 Mamba 상태 공간 모델을 토큰 없이 변형한 MambaByte를 실험해 보았습니다. 실험 결과, 다른 바이트 수준 모델에 비해 MambaByte의 계산 효율성이 월등히 높은 것으로 나타났습니다. 또한, 맘바바이트는 최첨단 서브워드 트랜스포머와 경쟁할 수 있으며 심지어는 그 성능을 뛰어넘는다는 사실도 확인했습니다. 또한, 길이가 선형적으로 확장되기 때문에 맘바바이트는 트랜스포머에 비해 빠른 추론의 이점을 제공합니다. 이번 연구 결과는 토큰이 필요 없는 언어 모델링을 구현하는 데 있어 맘바바이트의 가능성을 입증합니다.

    Token-free language models learn directly from raw bytes and remove the bias of subword tokenization. Operating on bytes, however, results in significantly longer sequences, and standard autoregressive Transformers scale poorly in such settings. We experiment with MambaByte, a token-free adaptation of the Mamba state space model, trained autoregressively on byte sequences. Our experiments indicate the computational efficiency of MambaByte compared to other byte-level models. We also find MambaByte to be competitive with and even outperform state-of-the-art subword Transformers. Furthermore, owing to linear scaling in length, MambaByte benefits from fast inference compared to Transformers. Our findings establish the viability of MambaByte in enabling token-free language modeling.

논문 링크

https://arxiv.org/abs/2401.13660

더 읽어보기

https://x.com/omarsar0/status/1750366964759859633


디퓨즈 선택: 가상 체험을 위한 잠재 디퓨젼 모델에서 이미지 컨디셔닝 인페인팅 강화하기 / Diffuse to Choose: Enriching Image Conditioned Inpainting in Latent Diffusion Models for Virtual Try-All

논문 소개

  • 확산 기반 이미지 컨디셔닝 인페인팅 모델로, 주어진 씬 콘텐츠에서 정확한 의미적 조작을 가능하게 하면서 빠른 추론과 높은 충실도의 균형을 맞추는 동시에 기존의 제로 샷 확산 인페인팅 방법과 심지어 드림페인트와 같은 소수 샷 확산 개인화 알고리즘보다 뛰어난 성능을 발휘합니다.

    A diffusion-based image-conditioned inpainting model to balance fast inference with high-fidelity while enabling accurate semantic manipulations in a given scene content; outperforms existing zero-shot diffusion inpainting methods and even few-shot diffusion personalization algorithms such as dreampaint.

논문 초록(Abstract)

  • 온라인 쇼핑이 성장함에 따라 구매자가 자신의 환경에서 제품을 가상으로 시각화할 수 있는 기능, 즉 '가상 체험'이 중요해졌습니다. 최근의 디퓨젼 모델은 본질적으로 월드 모델을 포함하고 있어 인페인팅 컨텍스트 내에서 이 작업에 적합합니다. 그러나 기존의 이미지 컨디셔닝 디퓨젼 모델은 제품의 세밀한 디테일을 포착하지 못하는 경우가 많습니다. 반면, 드림페인트와 같은 개인화 기반 모델은 상품의 디테일을 잘 보존하지만 실시간 애플리케이션에 최적화되어 있지 않습니다. 유니티는 주어진 장면 콘텐츠에서 정확한 의미적 조작을 보장하면서 빠른 추론과 주어진 참조 항목의 고충실도 디테일 유지의 균형을 효율적으로 맞추는 새로운 확산 기반 이미지 조건부 인페인팅 모델인 'Diffuse to Choose'를 소개합니다. 유니티의 접근 방식은 참조 이미지의 세분화된 특징을 메인 디퓨젼 모델의 잠재적 특징 맵에 직접 통합하는 동시에 참조 항목의 디테일을 더욱 보존하기 위해 지각 손실을 적용하는 것을 기반으로 합니다. 유니티는 사내 및 공개적으로 사용 가능한 데이터셋에 대해 광범위한 테스트를 수행했으며, 그 결과 Diffuse to Choose가 기존의 제로 샷 확산 인페인팅 방식은 물론 드림페인트 같은 소수 샷 확산 개인화 알고리즘보다 우수하다는 것을 입증했습니다.

    As online shopping is growing, the ability for buyers to virtually visualize products in their settings-a phenomenon we define as "Virtual Try-All"-has become crucial. Recent diffusion models inherently contain a world model, rendering them suitable for this task within an inpainting context. However, traditional image-conditioned diffusion models often fail to capture the fine-grained details of products. In contrast, personalization-driven models such as DreamPaint are good at preserving the item's details but they are not optimized for real-time applications. We present "Diffuse to Choose," a novel diffusion-based image-conditioned inpainting model that efficiently balances fast inference with the retention of high-fidelity details in a given reference item while ensuring accurate semantic manipulations in the given scene content. Our approach is based on incorporating fine-grained features from the reference image directly into the latent feature maps of the main diffusion model, alongside with a perceptual loss to further preserve the reference item's details. We conduct extensive testing on both in-house and publicly available datasets, and show that Diffuse to Choose is superior to existing zero-shot diffusion inpainting methods as well as few-shot diffusion personalization algorithms like DreamPaint.

논문 링크

https://arxiv.org/abs/2401.13795

더 읽어보기

https://x.com/_akhaliq/status/1750737690553692570


WARM: 체중 평균 보상 모델의 장점에 대하여 / WARM: On the Benefits of Weight Averaged Reward Models

논문 소개

  • 여러 보상 모델을 미세 조정한 다음 가중치 공간에서 평균을 내는 가중 평균 보상 모델(warm)을 도입하여 기존 예측 앙상블에 비해 효율성을 개선하고, LLM 예측의 품질과 정렬을 개선합니다.

    Introduces weighted averaged rewards models (warm) that involve fine-tuning multiple rewards models and then averaging them in the weight space; average weighting improves efficiency compared to traditional prediction ensembling; it improves the quality and alignment of llm predictions.

논문 초록(Abstract)

  • 강화 학습(RLHF)을 통해 대규모 언어 모델(LLM)을 인간의 선호도에 맞추는 것은 보상 해킹으로 이어질 수 있는데, LLM이 보상 모델(RM)의 오류를 악용하여 기본 목표를 달성하지 않고 겉보기에 높은 보상을 달성하는 것입니다. 유니티는 보상 해킹을 완화하기 위해 RM을 설계할 때 두 가지 주요 과제, 즉 RL 프로세스 중 분포의 변화와 사람 선호도의 불일치를 파악합니다. 이에 대한 해결책으로 먼저 여러 개의 RM을 미세 조정한 다음 가중치 공간에서 평균을 내는 가중평균보상모델(WARM)을 제안합니다. 이 전략은 동일한 사전 학습을 공유할 때 미세 조정된 가중치가 선형적으로 연결된 상태를 유지한다는 관찰에 따른 것입니다. 가중치를 평균화함으로써 WARM은 기존의 예측 앙상블에 비해 효율성을 개선하는 동시에 분포 변화에 따른 신뢰성과 선호도 불일치에 대한 견고성을 향상시킵니다. 베스트 오브 N 및 RL 방법을 사용한 요약 작업에 대한 실험 결과, WARM은 LLM 예측의 전반적인 품질과 정렬을 개선하는 것으로 나타났습니다. 예를 들어, WARM으로 미세 조정된 정책 RL은 단일 RM으로 미세 조정된 정책 RL에 비해 79.4%의 승률을 보였습니다.

    Aligning large language models (LLMs) with human preferences through reinforcement learning (RLHF) can lead to reward hacking, where LLMs exploit failures in the reward model (RM) to achieve seemingly high rewards without meeting the underlying objectives. We identify two primary challenges when designing RMs to mitigate reward hacking: distribution shifts during the RL process and inconsistencies in human preferences. As a solution, we propose Weight Averaged Reward Models (WARM), first fine-tuning multiple RMs, then averaging them in the weight space. This strategy follows the observation that fine-tuned weights remain linearly mode connected when sharing the same pre-training. By averaging weights, WARM improves efficiency compared to the traditional ensembling of predictions, while improving reliability under distribution shifts and robustness to preference inconsistencies. Our experiments on summarization tasks, using best-of-N and RL methods, shows that WARM improves the overall quality and alignment of LLM predictions; for example, a policy RL fine-tuned with WARM has a 79.4% win rate against a policy RL fine-tuned with a single RM.

논문 링크

https://arxiv.org/abs/2401.12187

더 읽어보기

https://x.com/ramealexandre/status/1749719471806157304


리소스 효율적인 LLM 및 멀티모달 기반 모델에 대한 설문 조사 / A Survey of Resource-efficient LLM and Multimodal Foundation Models

논문 소개

  • 리소스 효율적인 ML 및 멀티모달 기반 모델에 대한 조사, 아키텍처, 알고리즘, 실제 시스템 설계 및 구현을 포함한 ML 효율성 연구에 대한 포괄적인 분석과 인사이트를 제공합니다.

    A survey of resource-efficient llms and multimodal foundations models; provides a comprehensive analysis and insights into ml efficiency research, including architectures, algorithms, and practical system designs and implementations.

논문 초록(Abstract)

  • 대규모 언어 모델(LLM), 비전 트랜스포머(ViT), 디퓨전 및 LLM 기반 멀티모달 모델을 포함한 대규모 기반 모델은 학습에서 배포에 이르는 전체 머신러닝 수명 주기에 혁신을 일으키고 있습니다. 하지만 이러한 모델이 제공하는 다양성과 성능의 상당한 발전은 하드웨어 리소스 측면에서 상당한 대가를 치르게 됩니다. 확장 가능하고 환경적으로 지속 가능한 방식으로 이러한 대규모 모델의 성장을 지원하기 위해 리소스 효율적인 전략을 개발하는 데 상당한 관심이 집중되고 있습니다. 이 설문조사는 알고리즘과 시스템 측면을 모두 조사하여 이러한 연구의 중요성을 심층적으로 다룹니다. 최첨단 모델 아키텍처와 교육/서비스 알고리즘부터 실제 시스템 설계 및 구현에 이르기까지 광범위한 주제를 포괄하는 기존 문헌에서 수집한 종합적인 분석과 귀중한 인사이트를 제공합니다. 이 조사의 목표는 현재의 접근 방식이 대규모 재단 모델이 제기하는 리소스 문제를 어떻게 해결하고 있는지에 대한 전반적인 이해를 제공하고, 이 분야에서 미래의 혁신에 잠재적으로 영감을 주는 것입니다.

    Large foundation models, including large language models (LLMs), vision transformers (ViTs), diffusion, and LLM-based multimodal models, are revolutionizing the entire machine learning lifecycle, from training to deployment. However, the substantial advancements in versatility and performance these models offer come at a significant cost in terms of hardware resources. To support the growth of these large models in a scalable and environmentally sustainable way, there has been a considerable focus on developing resource-efficient strategies. This survey delves into the critical importance of such research, examining both algorithmic and systemic aspects. It offers a comprehensive analysis and valuable insights gleaned from existing literature, encompassing a broad array of topics from cutting-edge model architectures and training/serving algorithms to practical system designs and implementations. The goal of this survey is to provide an overarching understanding of how current approaches are tackling the resource challenges posed by large foundation models and to potentially inspire future breakthroughs in this field.

논문 링크

https://arxiv.org/abs/2401.08092v1

더 읽어보기

https://x.com/omarsar0/status/1749208653926654010


레드팀 시각 언어 모델 / Red Teaming Visual Language Models

논문 소개

  • 먼저 10개의 하위 작업(예: 이미지 오도, 멀티모달 탈옥, 얼굴 공정성 등)으로 구성된 레드 팀핑 데이터셋을 제시하고, 10개의 유명 오픈소스 VLM(Vision-Language Models)가 레드 팀핑에 다양한 수준으로 어려움을 겪고 있으며 gpt-4v와 최대 31%의 성능 격차가 있음을 발견하고, 제안된 레드 팀핑 데이터셋을 사용하여 SFT(Supervised Fine-tuning)와 함께 llava-v1.5에 레드 팀핑 정렬을 적용하여 테스트 세트에서 모델 성능을 10% 향상시켰습니다.

    First presents a red teaming dataset of 10 subtasks (e.g., image misleading, multi-modal jailbreaking, face fairness, etc); finds that 10 prominent open-sourced vlms struggle with the red teaming in different degrees and have up to 31% performance gap with gpt-4v; also applies red teaming alignment to llava-v1.5 with sft using the proposed red teaming dataset, which improves model performance by 10% in the test set.

논문 초록(Abstract)

  • VLM(비전-언어 모델)은 LLM(대규모 언어 모델)의 기능을 확장하여 멀티모달 입력을 수용합니다. 특정 테스트 사례(레드 티밍이라고 함)를 통해 LLM이 유해하거나 부정확한 콘텐츠를 생성하도록 유도할 수 있음이 확인되었기 때문에 유사한 시나리오, 특히 텍스트와 시각적 입력이 결합된 경우 VLM이 어떻게 작동하는지는 여전히 의문으로 남아 있습니다. 이 문제를 탐구하기 위해 4개의 주요 측면(충실성, 프라이버시, 안전성, 공정성) 아래 10개의 하위 작업(예: 이미지 오도, 멀티모달 탈옥, 얼굴 공정성 등)을 포함하는 새로운 레드팀 데이터 세트 RTVLM을 제시합니다. 크리테오의 RTVLM은 이러한 4가지 측면에서 현재의 VLM을 벤치마킹한 최초의 레드팀 데이터 세트입니다. 세부 분석 결과, 10개의 유명 오픈소스 VLM이 레드팀링에서 다양한 수준으로 어려움을 겪고 있으며 GPT-4V와 최대 31%의 성능 격차가 있는 것으로 나타났습니다. 또한 RTVLM을 사용한 감독 미세 조정(SFT)을 통해 LLaVA-v1.5에 레드팀 정렬을 간단히 적용한 결과, RTVLM 테스트 세트에서 10%, MM-Hal에서 13%, MM-Bench에서 눈에 띄는 성능 저하 없이 모델의 성능이 강화되어 일반 정렬 데이터를 사용한 다른 LLaVA 기반 모델을 능가했습니다. 이를 통해 현재 오픈소스 VLM에는 여전히 레드팀 정렬이 부족하다는 것을 알 수 있습니다. 유니티의 코드와 데이터셋은 오픈소스로 공개될 예정입니다.

    VLMs (Vision-Language Models) extend the capabilities of LLMs (Large Language Models) to accept multimodal inputs. Since it has been verified that LLMs can be induced to generate harmful or inaccurate content through specific test cases (termed as Red Teaming), how VLMs perform in similar scenarios, especially with their combination of textual and visual inputs, remains a question. To explore this problem, we present a novel red teaming dataset RTVLM, which encompasses 10 subtasks (e.g., image misleading, multi-modal jail-breaking, face fairness, etc) under 4 primary aspects (faithfulness, privacy, safety, fairness). Our RTVLM is the first red-teaming dataset to benchmark current VLMs in terms of these 4 different aspects. Detailed analysis shows that 10 prominent open-sourced VLMs struggle with the red teaming in different degrees and have up to 31% performance gap with GPT-4V. Additionally, we simply apply red teaming alignment to LLaVA-v1.5 with Supervised Fine-tuning (SFT) using RTVLM, and this bolsters the models' performance with 10% in RTVLM test set, 13% in MM-Hal, and without noticeable decline in MM-Bench, overpassing other LLaVA-based models with regular alignment data. This reveals that current open-sourced VLMs still lack red teaming alignment. Our code and datasets will be open-source.

논문 링크

https://arxiv.org/abs/2401.12915

더 읽어보기

https://x.com/omarsar0/status/1750170361843384790


뤼미에르: 비디오 생성을 위한 시공간 디퓨젼 모델 / Lumiere: A Space-Time Diffusion Model for Video Generation

논문 소개

  • 사실적이고 일관된 움직임이 있는 비디오를 합성하기 위한 텍스트-비디오 시공간 디퓨젼 모델, 단일 패스를 통해 비디오의 전체 시간 길이를 한 번에 생성하는 시공간 u-넷 아키텍처 도입, 최첨단 텍스트-비디오 생성 결과를 달성하고 이미지-비디오, 비디오 인페인팅, 스타일화 생성 등 다양한 콘텐츠 제작 작업 및 비디오 편집 애플리케이션을 지원합니다.

    A text-to-video space-time diffusion model for synthesizing videos with realistic and coherent motion; introduces a space-time u-net architecture to generate the entire temporal duration of a video at once via a single pass; achieves state-of-the-art text-to-video generation results and supports a wide range of content creation tasks and video editing applications, including image-to-video, video inpainting, and stylized generation.

논문 초록(Abstract)

  • 비디오 합성의 핵심 과제인 사실적이고 다양하며 일관된 움직임을 표현하는 비디오 합성을 위해 고안된 텍스트-비디오 디퓨젼 모델인 뤼미에르(Lumiere)를 소개합니다. 이를 위해 유니티는 모델의 단일 패스를 통해 비디오의 전체 시간 길이를 한 번에 생성하는 시공간 U-Net 아키텍처를 도입했습니다. 이는 원거리 키프레임을 합성한 후 시간적 초해상도를 합성하는 기존 비디오 모델과 달리, 본질적으로 전체적인 시간적 일관성을 확보하기 어려운 접근 방식입니다. 공간적 및 (중요한) 시간적 다운샘플링과 업샘플링을 모두 배포하고 사전 학습된 텍스트-이미지 디퓨젼 모델을 활용함으로써, 이 모델은 여러 시공간 스케일로 처리하여 풀프레임 속도의 저해상도 비디오를 직접 생성하는 방법을 학습합니다. 최첨단 텍스트-투-비디오 생성 결과를 시연하고, 이미지-투-비디오, 비디오 인페인팅, 스타일화된 생성 등 다양한 콘텐츠 제작 작업과 비디오 편집 애플리케이션을 쉽게 지원하는 설계를 보여줍니다.

    We introduce Lumiere -- a text-to-video diffusion model designed for synthesizing videos that portray realistic, diverse and coherent motion -- a pivotal challenge in video synthesis. To this end, we introduce a Space-Time U-Net architecture that generates the entire temporal duration of the video at once, through a single pass in the model. This is in contrast to existing video models which synthesize distant keyframes followed by temporal super-resolution -- an approach that inherently makes global temporal consistency difficult to achieve. By deploying both spatial and (importantly) temporal down- and up-sampling and leveraging a pre-trained text-to-image diffusion model, our model learns to directly generate a full-frame-rate, low-resolution video by processing it in multiple space-time scales. We demonstrate state-of-the-art text-to-video generation results, and show that our design easily facilitates a wide range of content creation tasks and video editing applications, including image-to-video, video inpainting, and stylized generation.

논문 링크

https://arxiv.org/abs/2401.12945

더 읽어보기

https://discuss.pytorch.kr/t/lumiere-google/3357

https://x.com/GoogleAI/status/1751003814931689487


메두사: 다중 디코딩 헤드를 갖춘 간단한 LLM 추론 가속 프레임워크 / Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads

논문 소개

  • 여러 개의 후속 토큰을 병렬로 예측하는 여러 개의 디코딩 헤드를 사용하는 LLM 추론 가속화를 위한 간단한 프레임워크로, 병렬화를 통해 디코딩 단계 수를 크게 줄여 생성 품질 저하 없이 2.2배 이상의 속도 향상을 달성할 수 있으며, 메두사-2는 속도를 2.3~3.6배로 더욱 향상시켰습니다.

    A simple framework for llm inference acceleration using multiple decoding heads that predict multiple subsequent tokens in parallel; parallelization substantially reduces the number of decoding steps; it can achieve over 2.2x speedup without compromising generation quality, while medusa-2 further improves the speedup to 2.3-3.6x.

논문 초록(Abstract)

  • 대규모 언어 모델(LLM)의 추론 프로세스는 자동 회귀 디코딩 프로세스에 병렬 처리 기능이 없기 때문에 대부분의 연산이 가속기의 메모리 대역폭에 의해 제한되는 경우가 많습니다. 이 문제를 해결하기 위해 추측적 디코딩과 같은 방법이 제안되었지만, 별도의 초안 모델을 확보하고 유지해야 하는 문제로 인해 구현에 어려움을 겪고 있습니다. 이 논문에서는 여러 후속 토큰을 병렬로 예측하기 위해 디코딩 헤드를 추가로 추가하여 LLM 추론을 강화하는 효율적인 방법인 메두사를 소개합니다. 메두사는 트리 기반 어텐션 메커니즘을 사용하여 여러 후보 연속을 구성하고 각 디코딩 단계에서 이를 동시에 검증합니다. 병렬 처리를 활용함으로써 메두사는 단일 단계 지연 시간 측면에서 최소한의 오버헤드만 발생시키면서 필요한 디코딩 단계의 수를 크게 줄입니다. 다양한 사용 사례의 요구 사항을 충족하기 위해 메두사에는 두 가지 수준의 미세 조정 절차가 있습니다: 메두사-1: 메두사는 프로즌 백본 LLM 위에서 직접 미세 조정되어 무손실 추론 가속을 가능하게 합니다. 메두사-2: 메두사는 백본 LLM과 함께 미세 조정되어 메두사 헤드의 예측 정확도를 높이고 속도를 높일 수 있지만, 백본 모델의 기능을 보존하는 특별한 학습 레시피가 필요합니다. 또한, 학습 데이터가 없는 상황을 처리하기 위한 자가 증류와 생성 품질을 유지하면서 수용률을 높이기 위한 일반적인 수용 체계를 포함하여 메두사의 유용성을 개선하거나 확장하는 몇 가지 확장을 제안합니다. 다양한 크기와 학습 절차의 모델에 대해 메두사를 평가합니다. 실험 결과, 메두사-1은 생성 품질 저하 없이 2.2배 이상의 속도 향상을 달성할 수 있으며, 메두사-2는 속도를 2.3~3.6배로 더욱 향상시킬 수 있음을 입증했습니다.

    The inference process in Large Language Models (LLMs) is often limited due to the absence of parallelism in the auto-regressive decoding process, resulting in most operations being restricted by the memory bandwidth of accelerators. While methods such as speculative decoding have been suggested to address this issue, their implementation is impeded by the challenges associated with acquiring and maintaining a separate draft model. In this paper, we present Medusa, an efficient method that augments LLM inference by adding extra decoding heads to predict multiple subsequent tokens in parallel. Using a tree-based attention mechanism, Medusa constructs multiple candidate continuations and verifies them simultaneously in each decoding step. By leveraging parallel processing, Medusa introduces only minimal overhead in terms of single-step latency while substantially reducing the number of decoding steps required. We present two levels of fine-tuning procedures for Medusa to meet the needs of different use cases: Medusa-1: Medusa is directly fine-tuned on top of a frozen backbone LLM, enabling lossless inference acceleration. Medusa-2: Medusa is fine-tuned together with the backbone LLM, enabling better prediction accuracy of Medusa heads and higher speedup but needing a special training recipe that preserves the backbone model's capabilities. Moreover, we propose several extensions that improve or expand the utility of Medusa, including a self-distillation to handle situations where no training data is available and a typical acceptance scheme to boost the acceptance rate while maintaining generation quality. We evaluate Medusa on models of various sizes and training procedures. Our experiments demonstrate that Medusa-1 can achieve over 2.2x speedup without compromising generation quality, while Medusa-2 further improves the speedup to 2.3-3.6x.

논문 링크

https://arxiv.org/abs/2401.10774v1

더 읽어보기

https://discuss.pytorch.kr/t/…

https://x.com/jiayq/status/1749461664393810350


에이전트보드: 멀티턴 LLM 에이전트에 대한 분석 평가 위원회 / AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents

논문 소개

  • 오픈소스 평가 프레임워크가 포함된 종합적인 벤치마크를 통해 분석적 평가를 수행하여 LM 에이전트의 기능과 한계를 평가하고 에이전트 행동을 파악하여 더 강력하고 견고한 LM 에이전트를 구축할 수 있습니다.

    A comprehensive benchmark with an open-source evaluation framework to perform analytical evaluation of llm agents; helps to assess the capabilities and limitations of llm agents and demystifies agent behaviors which leads to building stronger and robust llm agents.

논문 초록(Abstract)

  • 범용 에이전트로서 대규모 언어 모델(LLM)을 평가하는 것은 그 기능을 이해하고 실제 애플리케이션에 쉽게 통합하기 위해 필수적입니다. 하지만 평가 과정에는 상당한 어려움이 따릅니다. 특히 부분적으로 관찰 가능한 환경을 유지하고 다각적인 상호작용을 보장하는 데 있어 통합 프레임워크 내에서 다양한 시나리오에 걸쳐 에이전트 성능을 벤치마킹하는 것이 가장 큰 장애물입니다. 게다가 현재의 평가 프레임워크는 대부분 최종 성공률에 초점을 맞추기 때문에 프로세스 중 인사이트가 거의 드러나지 않고 모델 능력에 대한 심층적인 이해를 제공하지 못합니다. 이러한 문제를 해결하기 위해 유니티는 LLM 에이전트의 분석적 평가에 맞춤화된 선구적인 종합 벤치마크이자 오픈소스 평가 프레임워크인 에이전트보드를 도입했습니다. 에이전트보드는 점진적인 발전을 포착하는 세분화된 진행률 메트릭과 대화형 시각화를 통해 다각적인 분석을 위해 에이전트를 쉽게 평가할 수 있는 종합적인 평가 툴킷을 제공합니다. 이를 통해 LLM 에이전트의 역량과 한계를 명확히 파악할 수 있을 뿐만 아니라 에이전트의 성과에 대한 해석 가능성도 높일 수 있습니다. 궁극적으로 에이전트보드는 에이전트 행동을 이해하고 더 강력한 LLM 에이전트 개발을 가속화하는 데 중요한 역할을 합니다.

    Evaluating large language models (LLMs) as general-purpose agents is essential for understanding their capabilities and facilitating their integration into practical applications. However, the evaluation process presents substantial challenges. A primary obstacle is the benchmarking of agent performance across diverse scenarios within a unified framework, especially in maintaining partially-observable environments and ensuring multi-round interactions. Moreover, current evaluation frameworks mostly focus on the final success rate, revealing few insights during the process and failing to provide a deep understanding of the model abilities. To address these challenges, we introduce AgentBoard, a pioneering comprehensive benchmark and accompanied open-source evaluation framework tailored to analytical evaluation of LLM agents. AgentBoard offers a fine-grained progress rate metric that captures incremental advancements as well as a comprehensive evaluation toolkit that features easy assessment of agents for multi-faceted analysis through interactive visualization. This not only sheds light on the capabilities and limitations of LLM agents but also propels the interpretability of their performance to the forefront. Ultimately, AgentBoard serves as a significant step towards demystifying agent behaviors and accelerating the development of stronger LLM agents.

논문 링크

https://arxiv.org/abs/2401.13178v1

더 읽어보기

https://x.com/ma_chang_nlp/status/1750369056539218082


원문

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-5c8


⚠️광고⚠️: 파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)