4P by ninebow 9달전 | favorite | 댓글 6개

[2024/03/11 ~ 03/17] 이번 어텐션 주요 ML 논문 (Top ML Papers of the Week)

  • DAIR.AI에서 매주 공개하는 ML 논문들에 대한 글을 자동 번역해보았습니다.

  • 이번 주에는 대규모 언어 모델(Large Language Models, LLMs)에 대한 논문들이 주요한 트렌드로 나타났습니다. 여러 논문들은 LLMs에 초점을 맞추어 다양한 문제를 해결하거나 이해하고자한 점에서 그러한 경향을 볼 수 있습니다. 예를 들어, "SIMA", "Retrieval Augmented Thoughts", "LMs Can Teach Themselves to Think Before Speaking", "Knowledge Conflicts for LLMs" 및 "LLMs Predict Neuroscience Results" 등의 논문들이 대규모 언어 모델을 이용하거나 그 성능과 관련된 문제를 다루고 있습니다. 또한 "Stealing Part of a Production Language Model"과 같은 논문은 보안과 관련된 측면에서 언어 모델을 연구하고 있는 것을 보여줍니다.

  • 이러한 경향은 최근 몇 년 동안 인공지능 연구 커뮤니티에서 대규모 언어 모델들이 가져온 혁신적 변화와 그 영향력을 반영하는 것으로 보입니다. 대규모 언어 모델들은 자연어 처리(Natural Language Processing, NLP)뿐만 아니라, 다양한 도메인에서 효과적인 파운데이션 모델로서 위치를 확립하고 있습니다. 이처럼 LLMs는 다양한 언어 이해 및 생성 작업에 있어 높은 성능을 보이며, 나아가 응용 연구에서도 광범위하게 탐색되고 있습니다. 추가로 "Multimodal LLM Pre-training"과 같은 논문은 LLMs가 이미지, 음성 등 다른 형태의 데이터와 결합하여 멀티모달 학습 능력을 강화하는 최신 연구 동향을 나타냅니다.

  • 이런 분석을 바탕으로 예상해보면, 앞으로도 LLMs에 관한 연구는 자연어 이해를 더욱 개선하고, 다양한 새로운 응용 분야로 확장되며, 인공지능 기술의 발전에 중요한 역할을 할 것입니다. LLMs의 성능 향상뿐만 아니라, 응용 연구, 보안, 그리고 윤리적 문제까지 아우르는 광범위한 문제들이 탐구될 것으로 보여집니다.


SIMA / SIMA

논문 소개

  • 광범위한 3D 가상 환경 및 비디오 게임에서 자연어 지시를 따르는 3D 가상 환경용 제너럴리스트 AI 에이전트로, 탐색, 사물 상호작용, 메뉴 사용 등 600가지 기본 기술을 평가합니다. 언어가 성능에 큰 영향을 미치는 것으로 보입니다.

    A generalist ai agent for 3d virtual environments that follows natural-language instructions in a broad range of 3d virtual environments and video games; sima is evaluated across 600 basic skills, spanning navigation, object interaction, and menu use. language seems to be a huge factor in performance.

논문 초록(Abstract)

모든 3D 환경에서 임의의 언어 지시를 따를 수 있는 구현된 AI 시스템을 구축하는 것은 일반 AI 개발의 핵심 과제입니다. 이 목표를 달성하려면 복잡한 작업을 수행하기 위해 지각과 구체화된 행동에 기반한 언어 지각과 구체화된 동작을 학습해야 복잡한 작업을 수행할 수 있습니다. 확장 가능하고 지시 가능한, 멀티월드 에이전트(SIMA) 프로젝트는 에이전트가 다양한 가상 3D 환경에서 자유 형식의 지시를 따르도록 훈련함으로써 이 문제를 해결합니다. 다양한 가상 3D 환경과 개방형 상업용 비디오 게임을 포함한 다양한 범위의 지시를 따르도록 에이전트를 교육합니다. 유니티의 목표는 모든 시뮬레이션에서 인간이 할 수 있는 모든 작업을 수행할 수 있는 모든 시뮬레이션 3D 환경에서 사람이 할 수 있는 모든 작업을 수행할 수 있는 에이전트를 개발하는 것입니다. 유니티의 접근 방식은 언어 기반에 중점을 두고 일반성에 중점을 두고 최소한의 가정을 전제로 합니다. 유니티의 에이전트는 인간과 유사한 일반 인터페이스를 사용하여 인간과 유사한 일반적인 인터페이스를 사용하여 실시간으로 환경과 상호 작용합니다. 키보드와 마우스를 이용한 동작을 출력합니다. 이러한 일반적인 접근 방식은 어렵지만 다음과 같은 장점이 있습니다. 에이전트가 시각적으로 복잡하고 의미적으로 풍부한 여러 환경에서 언어를 기반으로 하는 동시에 새로운 환경에서도 에이전트를 쉽게 실행할 수 있습니다. 이 백서에서는 우리의 동기와 목표, 초기 진행 상황, 여러 가지 다양한 연구에 대한 유망한 예비 결과 및 환경과 다양한 상용 비디오 게임에 대한 유망한 예비 결과를 설명합니다.

Building embodied AI systems that can follow arbitrary language instructions in any 3D environment is a key challenge for creating general AI. Accomplishing this goal requires learning to ground language in perception and embodied actions, in order to accomplish complex tasks. The Scalable, Instructable, Multiworld Agent (SIMA) project tackles this by training agents to follow free-form instructions across a diverse range of virtual 3D environments, including curated research environments as well as openended, commercial video games. Our goal is to develop an instructable agent that can accomplish anything a human can do in any simulated 3D environment. Our approach focuses on language-driven generality while imposing minimal assumptions. Our agents interact with environments in real-time using a generic, human-like interface: the inputs are image observations and language instructions and the outputs are keyboard-and-mouse actions. This general approach is challenging, but it allows agents to ground language across many visually complex and semantically rich environments while also allowing us to readily run agents in new environments. In this paper we describe our motivation and goal, the initial progress we have made, and promising preliminary results on several diverse research environments and a variety of commercial video games.

논문 링크

https://storage.googleapis.com/deepmind-media/DeepMind.com/…

더 읽어보기

https://discuss.pytorch.kr/t/gn-google-sima-3d-ai/3764

https://x.com/GoogleDeepMind/status/1767918515585994818


RAT: 검색 증강 사고로 맥락 인식 추론을 이끌어내는 장기-단위 생성 / RAT: Retrieval Augmented Thoughts Elicit Context-Aware Reasoning in Long-Horizon Generation

논문 소개

  • 정보 검색을 통해 생각의 사슬을 반복적으로 수정하면 긴 지평선 생성 작업에서 LLM 추론과 생성을 크게 개선할 수 있음을 보여줍니다. 핵심 아이디어는 각 생각 단계가 작업 쿼리, 현재 및 과거의 생각 단계에 관련된 검색된 정보로 수정된다는 것입니다. 검색 증강 생각(rat)은 gpt-4 및 codellama-7b 같은 다른 모델에 적용하여 긴-단위의 생성 작업(예, 창의적 글쓰기 및 구체화된 작업 계획); 쥐는 제로 샷 프롬프트 방식이며 제로 샷 침대 프롬프트, 바닐라 걸레 및 기타 기준선을 포함한 기준선을 크게 개선합니다.

    Shows that iteratively revising a chain of thoughts with information retrieval can significantly improve llm reasoning and generation in long-horizon generation tasks; the key idea is that each thought step is revised with relevant retrieved information to the task query, the current and past thought steps; retrieval augmented thoughts (rat) can be applied to different models like gpt-4 and codellama-7b to improve long-horizon generation tasks (e.g., creative writing and embodied task planning); rat is a zero-shot prompting approach and provides significant improvements to baselines that include zero-shot cot prompting, vanilla rag, and other baselines.

논문 초록(Abstract)

  • 우리는 정보 검색의 도움으로 생각의 사슬을 반복적으로 수정하는 것이 어떻게 장시간 생성 작업에서 대규모 언어 모델의 추론 및 생성 능력을 크게 향상시키는 동시에 환각을 크게 완화시키는지 탐구합니다. 특히 제안된 방법인 검색 증강 사고(RAT)는 초기 제로 샷 CoT가 생성된 후 작업 쿼리와 관련된 검색 정보, 현재 및 과거 사고 단계를 하나씩 수정하여 각 사고 단계를 하나씩 수정합니다. GPT-3.5, GPT-4, CodeLLaMA-7b에 RAT를 적용하면 코드 생성에서 평균 13.63%, 수학적 추론에서 16.96%, 창의적 글쓰기에서 19.2%, 구체화된 작업 계획에서 42.78%의 평가 점수가 상대적으로 상승하여 다양한 장기 생성 과제에서 성능이 크게 향상됩니다. 데모 페이지는 https://craftjarvis.github.io/RAT 에서 확인할 수 있습니다

    We explore how iterative revising a chain of thoughts with the help of information retrieval significantly improves large language models' reasoning and generation ability in long-horizon generation tasks, while hugely mitigating hallucination. In particular, the proposed method -- retrieval-augmented thoughts (RAT) -- revises each thought step one by one with retrieved information relevant to the task query, the current and the past thought steps, after the initial zero-shot CoT is generated. Applying RAT to GPT-3.5, GPT-4, and CodeLLaMA-7b substantially improves their performances on various long-horizon generation tasks; on average of relatively increasing rating scores by 13.63% on code generation, 16.96% on mathematical reasoning, 19.2% on creative writing, and 42.78% on embodied task planning. The demo page can be found at https://craftjarvis.github.io/RAT

논문 링크

https://arxiv.org/abs/2403.05313

더 읽어보기

https://x.com/omarsar0/status/1767251740443746435


Quiet-STaR: 언어 모델이 말하기 전에 스스로 생각하는 법을 배울 수 있습니다 / Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking

논문 소개

  • 언어 모델(lms)이 보다 일반적이고 확장 가능한 방식으로 추론을 학습할 수 있도록 조용한 별이라는 별의 일반화를 제시하고, 조용한 별을 사용하면 lms가 각 토큰에서 미래의 텍스트를 설명하기 위한 근거를 생성할 수 있으며, 내부 생각을 효율적으로 생성하여 lm의 예측을 개선하는 데 도움이 되는 토큰별 병렬 샘플링 알고리즘을 제안하고, 근거 생성은 보강을 사용하여 개선됩니다.

    Presents a generalization of star, called quiet-star, to enable language models (lms) to learn to reason in more general and scalable ways; quiet-star enables lms to generate rationales at each token to explain future text; it proposes a token-wise parallel sampling algorithm that helps improve lm predictions by efficiently generating internal thoughts; the rationale generation is improved using reinforce.

논문 초록(Abstract)

  • 글을 쓰거나 말을 할 때 사람들은 때때로 잠시 멈추고 생각에 잠깁니다. 추론에 초점을 맞춘 작품에서는 종종 추론을 질문에 답하거나 대리 작업을 완료하는 방법으로 묘사하지만, 추론은 거의 모든 서면 텍스트에 내재되어 있습니다. 예를 들어, 이는 증명의 행 사이에 명시되지 않은 단계나 대화의 근간이 되는 마음 이론에 적용됩니다. 독학 추론자(STaR, 젤릭만 외, 2022)에서는 질문에 답할 때 몇 가지 예시에서 추론하고 정답으로 이어지는 예시에서 학습함으로써 유용한 사고를 학습합니다. 이상적으로는 언어 모델이 임의의 텍스트에서 명시되지 않은 근거를 추론하는 방법을 학습할 수 있어야 하지만, 이는 매우 제한적인 환경입니다. 저희는 언어 모델이 미래의 텍스트를 설명하기 위해 각 토큰에서 근거를 생성하는 방법을 학습하여 예측력을 향상시키는 STaR의 일반화 버전인 Quiet-STaR을 소개합니다. 우리는 1) 연속을 생성하는 데 드는 계산 비용, 2) LM이 처음에 내부 생각을 생성하거나 사용하는 방법을 모른다는 사실, 3) 개별 다음 토큰을 넘어 예측해야 할 필요성 등 주요 과제를 해결합니다. 이러한 문제를 해결하기 위해 저희는 생각의 시작과 끝을 나타내는 학습 가능한 토큰과 확장된 교사 강제 기법을 사용하는 토큰 기반 병렬 샘플링 알고리즘을 제안합니다. 고무적인 점은 생성된 근거가 예측하기 어려운 토큰을 모델링하고 어려운 질문에 직접 답하는 LM의 능력을 향상시키는 데 큰 도움이 된다는 것입니다. 특히, 인터넷 텍스트 말뭉치에 대해 Quiet-STaR로 LM을 지속적으로 사전 학습시킨 결과, GSM8K(5.9% $\rightarrow$ 10.9%)와 CommonsenseQA(36.3% $\rightarrow$ 47.2%)에서 제로 샷 개선이 있었으며 자연 텍스트에서 어려운 토큰에 대한 당혹감이 개선되는 것을 관찰할 수 있었습니다. 결정적으로, 이러한 개선은 이러한 작업에 대한 미세 조정이 필요하지 않습니다. Quiet-STaR은 보다 일반적이고 확장 가능한 방식으로 추론하는 방법을 학습할 수 있는 LM을 향한 한 걸음입니다.

    When writing and talking, people sometimes pause to think. Although reasoning-focused works have often framed reasoning as a method of answering questions or completing agentic tasks, reasoning is implicit in almost all written text. For example, this applies to the steps not stated between the lines of a proof or to the theory of mind underlying a conversation. In the Self-Taught Reasoner (STaR, Zelikman et al. 2022), useful thinking is learned by inferring rationales from few-shot examples in question-answering and learning from those that lead to a correct answer. This is a highly constrained setting -- ideally, a language model could instead learn to infer unstated rationales in arbitrary text. We present Quiet-STaR, a generalization of STaR in which LMs learn to generate rationales at each token to explain future text, improving their predictions. We address key challenges, including 1) the computational cost of generating continuations, 2) the fact that the LM does not initially know how to generate or use internal thoughts, and 3) the need to predict beyond individual next tokens. To resolve these, we propose a tokenwise parallel sampling algorithm, using learnable tokens indicating a thought's start and end, and an extended teacher-forcing technique. Encouragingly, generated rationales disproportionately help model difficult-to-predict tokens and improve the LM's ability to directly answer difficult questions. In particular, after continued pretraining of an LM on a corpus of internet text with Quiet-STaR, we find zero-shot improvements on GSM8K (5.9%$\rightarrow$10.9%) and CommonsenseQA (36.3%$\rightarrow$47.2%) and observe a perplexity improvement of difficult tokens in natural text. Crucially, these improvements require no fine-tuning on these tasks. Quiet-STaR marks a step towards LMs that can learn to reason in a more general and scalable way.

논문 링크

https://arxiv.org/abs/2403.09629

더 읽어보기

https://x.com/omarsar0/status/1768681638009975088


LLM을 위한 지식 충돌: 설문 조사 / Knowledge Conflicts for LLMs: A Survey

논문 소개

  • 이 설문조사 논문에서는 LLM으로 작업할 때 흔히 발생하는 지식 충돌 문제를 문맥-메모리, 문맥 간, 메모리 내 충돌로 분류하고, 이러한 지식 충돌 문제를 완화할 수 있는 원인과 잠재적인 방법에 대한 인사이트를 제공합니다.

    An overview of the common issue of knowledge conflict when working with llms; the survey paper categorizes these conflicts into context-memory, inter-context, and intra-memory conflict; it also provides insights into causes and potential ways to mitigate these knowledge conflict issues.

논문 초록(Abstract)

  • 이 설문조사는 대규모 언어 모델(LLM)의 지식 충돌에 대한 심층 분석을 제공하여 문맥 지식과 파라메트릭 지식을 혼합할 때 직면하는 복잡한 문제를 강조합니다. 여기서는 문맥-메모리, 문맥 간, 메모리 내 충돌이라는 세 가지 범어텐션 지식 충돌에 초점을 맞추고 있습니다. 이러한 충돌은 특히 노이즈와 잘못된 정보가 흔한 실제 애플리케이션에서 LLM의 신뢰성과 성능에 큰 영향을 미칠 수 있습니다. 이 설문조사는 이러한 충돌을 분류하고, 그 원인을 탐구하고, 충돌 시 LLM의 동작을 살펴보고, 사용 가능한 솔루션을 검토함으로써 LLM의 견고성을 개선하기 위한 전략을 조명하여 이 진화하는 분야의 연구를 발전시키는 데 귀중한 자료로 활용하는 것을 목표로 합니다.

    This survey provides an in-depth analysis of knowledge conflicts for large language models (LLMs), highlighting the complex challenges they encounter when blending contextual and parametric knowledge. Our focus is on three categories of knowledge conflicts: context-memory, inter-context, and intra-memory conflict. These conflicts can significantly impact the trustworthiness and performance of LLMs, especially in real-world applications where noise and misinformation are common. By categorizing these conflicts, exploring the causes, examining the behaviors of LLMs under such conflicts, and reviewing available solutions, this survey aims to shed light on strategies for improving the robustness of LLMs, thereby serving as a valuable resource for advancing research in this evolving area.

논문 링크

https://arxiv.org/abs/2403.08319

더 읽어보기

https://x.com/omarsar0/status/1768288774532858003


프로덕션 언어 모델의 일부 훔치기 / Stealing Part of a Production Language Model

논문 소개

  • ChatGPT 또는 PaLM-2와 같은 프로덕션 언어 모델에서 정보를 추출하는 최초의 모델 탈취 공격을 소개하고, 일반적인 API 액세스를 통해 트랜스포머 기반 모델의 임베딩 투영 레이어를 복구하는 것이 가능하다는 것을 보여주며, 20달러 미만의 비용으로 openai ada 및 babbage 모델에서 전체 투영 행렬을 추출한 예를 들어 설명합니다.

    Presents the first model-stealing attack that extracts information from production language models like chatgpt or palm-2; shows that it's possible to recover the embedding projection layer of a transformer-based model through typical api access; as an example, the entire projection matrix was extracted from the openai ada and babbage models for under $20.

논문 초록(Abstract)

  • OpenAI의 ChatGPT나 Google의 PaLM-2와 같은 블랙박스 프로덕션 언어 모델에서 정확하고 중요하지 않은 정보를 추출하는 최초의 모델 탈취 공격을 소개합니다. 특히, 이 공격은 일반적인 API 액세스를 통해 트랜스포머 모델의 임베딩 투영 레이어(대칭까지)를 복구합니다. 20달러 미만의 비용으로 OpenAI의 Ada 및 Babbage 언어 모델의 전체 투영 행렬을 추출할 수 있습니다. 이를 통해 이 블랙박스 모델의 숨겨진 차원이 각각 1024와 2048임을 처음으로 확인했습니다. 또한 gpt-3.5 터보 모델의 정확한 숨겨진 차원 크기를 복구하고 전체 투영 행렬을 복구하는 데 2,000달러 미만의 쿼리 비용이 들 것으로 추정했습니다. 마지막으로 잠재적인 방어 및 완화 방안을 제시하고, 공격을 확장할 수 있는 향후 가능한 작업의 의미에 대해 논의합니다.

    We introduce the first model-stealing attack that extracts precise, nontrivial information from black-box production language models like OpenAI's ChatGPT or Google's PaLM-2. Specifically, our attack recovers the embedding projection layer (up to symmetries) of a transformer model, given typical API access. For under $20 USD, our attack extracts the entire projection matrix of OpenAI's Ada and Babbage language models. We thereby confirm, for the first time, that these black-box models have a hidden dimension of 1024 and 2048, respectively. We also recover the exact hidden dimension size of the gpt-3.5-turbo model, and estimate it would cost under $2,000 in queries to recover the entire projection matrix. We conclude with potential defenses and mitigations, and discuss the implications of possible future work that could extend our attack.

논문 링크

https://arxiv.org/abs/2403.06634

더 읽어보기

https://x.com/omarsar0/status/1767641831079067694


Branch-Train-MiX: 전문가 LLM을 전문가 혼합 LLM으로 혼합하기 / Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM

논문 소개

  • 전문가 학습을 위한 보다 계산 효율적인 접근 방식으로 전문가 학습을 전문가 혼합 학습에 혼합하는 것을 제안합니다. 이 접근 방식은 더 큰 제너럴리스트 학습이나 여러 개의 개별 전문 학습을 학습하는 것보다 더 효율적인 것으로 나타났으며, 먼저 여러 도메인에 특화된 시드 학습(즉, 전문가 학습)의 여러 복사본을 병렬로 학습하고 모에 피드 포워드 계층을 사용하여 단일 학습으로 병합한 다음 전체 통합 모델의 미세 조정을 수행합니다.

    Proposes mixing expert llms into a mixture-of-experts llm as a more compute-efficient approach for training llms; it's shown to be more efficient than training a larger generalist llm or several separate specialized llms; the approach, btx, first trains (in parallel) multiple copies of a seed llm specialized in different domains (i.e., expert llms) and merges them into a single llm using moe feed-forward layers, followed by fine-tuning of the overall unified model.

논문 초록(Abstract)

  • 저희는 코딩, 수학 추론, 세계 지식 등 여러 전문 영역에서 역량을 갖추도록 대규모 언어 모델(LLM)을 학습하는 효율적인 방법을 연구합니다. BTX(Branch-Train-MiX)라는 이름의 이 방법은 높은 처리량과 통신 비용 절감으로 전문가를 학습하기 위해 분기된 시드 모델에서 시작합니다. 개별 전문가가 비동기적으로 학습된 후, BTX는 전문가 혼합(MoE) 계층에서 전문가로서 피드포워드 파라미터를 취합하고 나머지 파라미터를 평균한 다음, 토큰 수준 라우팅을 학습하기 위해 MoE 미세 조정 단계를 거칩니다. BTX는 라우팅 학습을 위한 MoE 미세 조정 단계가 없는 분기-열차-병합 방법과 전문가를 비동기적으로 학습하는 단계를 생략하는 스파스 업사이클링이라는 두 가지 특수한 경우를 일반화합니다. 다른 접근 방식과 비교했을 때 BTX는 정확도와 효율성의 절충점을 가장 잘 달성합니다.

    We investigate efficient methods for training Large Language Models (LLMs) to possess capabilities in multiple specialized domains, such as coding, math reasoning and world knowledge. Our method, named Branch-Train-MiX (BTX), starts from a seed model, which is branched to train experts in embarrassingly parallel fashion with high throughput and reduced communication cost. After individual experts are asynchronously trained, BTX brings together their feedforward parameters as experts in Mixture-of-Expert (MoE) layers and averages the remaining parameters, followed by an MoE-finetuning stage to learn token-level routing. BTX generalizes two special cases, the Branch-Train-Merge method, which does not have the MoE finetuning stage to learn routing, and sparse upcycling, which omits the stage of training experts asynchronously. Compared to alternative approaches, BTX achieves the best accuracy-efficiency tradeoff.

논문 링크

https://arxiv.org/abs/2403.07816

더 읽어보기

https://x.com/jaseweston/status/1767727740952682667


대규모 언어 모델은 신경과학 결과 예측에서 인간 전문가를 능가합니다 / Large language models surpass human experts in predicting neuroscience results

논문 소개

  • 신경과학 결과를 예측하는 머신러닝의 능력을 평가하기 위한 벤치마크인 브레인벤치를 제안하고, 머신러닝이 실험 결과 예측에서 전문가를 능가한다는 사실을 발견하고, 신경과학 문헌에 맞춰 조정된 머신러닝이 더 우수한 성능을 보인다는 사실을 밝혀냈습니다.

    Proposes a benchmark, brainbench, for evaluating the ability of llms to predict neuroscience results; finds that llms surpass experts in predicting experimental outcomes; an llm tuned on neuroscience literature was shown to perform even better.

논문 초록(Abstract)

  • 과학적 발견은 종종 수십 년에 걸친 연구를 종합하는 데 달려 있으며, 이 작업은 잠재적으로 인간의 정보 처리 능력을 능가할 수 있습니다. 대규모 언어 모델(LLM)이 해결책을 제시합니다. 방대한 과학 문헌에서 학습된 LLM은 잡음이 많지만 서로 연관된 연구 결과를 통합하여 인간 전문가보다 더 나은 새로운 결과를 예측할 수 있습니다. 이러한 가능성을 평가하기 위해 신경과학 결과 예측을 위한 미래지향적 벤치마크인 BrainBench를 만들었습니다. 실험 결과를 예측하는 데 있어 LLM이 전문가를 능가하는 것으로 나타났습니다. 신경과학 문헌을 기반으로 튜닝한 LLM인 BrainGPT는 더 나은 성능을 보였습니다. 인간 전문가와 마찬가지로 LLM도 자신의 예측에 확신이 있을 때 예측이 맞을 가능성이 높았으며, 이는 인간과 LLM이 함께 협력하여 발견하는 미래를 예고합니다. 이러한 접근 방식은 신경과학에만 국한된 것이 아니며 다른 지식 집약적인 분야에도 적용할 수 있습니다.

    Scientific discoveries often hinge on synthesizing decades of research, a task that potentially outstrips human information processing capacities. Large language models (LLMs) offer a solution. LLMs trained on the vast scientific literature could potentially integrate noisy yet interrelated findings to forecast novel results better than human experts. To evaluate this possibility, we created BrainBench, a forward-looking benchmark for predicting neuroscience results. We find that LLMs surpass experts in predicting experimental outcomes. BrainGPT, an LLM we tuned on the neuroscience literature, performed better yet. Like human experts, when LLMs were confident in their predictions, they were more likely to be correct, which presages a future where humans and LLMs team together to make discoveries. Our approach is not neuroscience-specific and is transferable to other knowledge-intensive endeavors.

논문 링크

https://arxiv.org/abs/2403.03230

더 읽어보기

https://x.com/ProfData/status/1765689739682754824


C4AI Command-R

논문 소개

  • 추론, 요약, 질문 답변 등의 사용 사례에 최적화된 컨텍스트 길이 128k의 35b 매개 변수 모델, 10개 언어로 평가된 다국어 생성 기능, 고성능 도구 사용 및 래그 기능을 갖춘 command-r은 연구 목적으로 출시되었습니다.

    A 35b parameter model, with a context length of 128k, optimized for use cases that include reasoning, summarization, and question answering; command-r has the capability for multilingual generation evaluated in 10 languages and performant tool use and rag capabilities; it has been released for research purposes.

논문 링크

https://huggingface.co/CohereForAI/c4ai-command-r-v01

더 읽어보기

https://x.com/CohereForAI/status/1767275927505977455


임베딩의 코사인 유사성은 정말 유사성에 관한 것인가요? / Is Cosine-Similarity of Embeddings Really About Similarity?

논문 소개

  • 정규화된 선형 모델에서 파생된 임베딩을 연구하고 코사인 유사성이 어떻게 임의적이고 의미 없는 유사성을 산출할 수 있는지 분석적으로 도출하고, 일부 선형 모델의 경우 유사성이 고유하지 않고 정규화에 의해 제어되는 경우도 있음을 발견하고, 저자는 코사인 유사성을 맹목적으로 사용하는 것을 경계하고 고려 사항과 대안을 제시합니다.

    Studies embeddings derived from regularized linear models and derive analytically how cosine-similarity can yield arbitrary and meaningless similarities; also finds that for some linear models, the similarities are not even unique and others are controlled by regularization; the authors caution against blindly using cosine similarity and presents considerations and alternatives.

논문 초록(Abstract)

  • 코사인 유사도는 두 벡터 사이의 각도의 코사인, 즉 정규화 사이의 도트 곱을 말합니다. 코사인 유사도를 학습된 저차원 특징 임베딩에 적용하여 고차원 객체 간의 의미적 유사성을 정량화하는 데 널리 사용됩니다. 이는 실제로 임베딩된 벡터 사이의 정규화되지 않은 도트 곱보다 더 잘 작동할 수도 있지만 때로는 더 나쁠 수도 있습니다. 이러한 경험적 관찰에 대한 통찰력을 얻기 위해, 저희는 정규화된 선형 모델에서 파생된 임베딩을 연구하며, 여기서 폐쇄형 솔루션은 분석적 통찰력을 용이하게 합니다. 코사인 유사성이 어떻게 임의의, 따라서 의미 없는 '유사성'을 산출할 수 있는지 분석적으로 도출합니다 일부 선형 모델에서는 유사성이 고유하지 않은 반면, 다른 모델에서는 유사성이 정규화에 의해 암묵적으로 제어됩니다. 딥 모델을 학습할 때 다양한 정규화의 조합이 사용되는데, 이는 결과 임베딩의 코사인 유사성을 취할 때 암시적이거나 의도하지 않은 영향을 미쳐 결과를 불투명하고 자의적으로 만들 수 있다는 점에서 선형 모델 이상의 의미에 대해 논의합니다. 이러한 인사이트를 바탕으로 코사인 유사도를 맹목적으로 사용하지 않도록 주의하고 대안을 제시합니다.

    Cosine-similarity is the cosine of the angle between two vectors, or equivalently the dot product between their normalizations. A popular application is to quantify semantic similarity between high-dimensional objects by applying cosine-similarity to a learned low-dimensional feature embedding. This can work better but sometimes also worse than the unnormalized dot-product between embedded vectors in practice. To gain insight into this empirical observation, we study embeddings derived from regularized linear models, where closed-form solutions facilitate analytical insights. We derive analytically how cosine-similarity can yield arbitrary and therefore meaningless `similarities.' For some linear models the similarities are not even unique, while for others they are implicitly controlled by the regularization. We discuss implications beyond linear models: a combination of different regularizations are employed when learning deep models; these have implicit and unintended effects when taking cosine-similarities of the resulting embeddings, rendering results opaque and possibly arbitrary. Based on these insights, we caution against blindly using cosine-similarity and outline alternatives.

논문 링크

https://arxiv.org/abs/2403.05440

더 읽어보기

https://x.com/_reachsumit/status/1767045820384477575


MM1: 멀티모달 LLM 사전 교육을 통한 방법, 분석 및 인사이트 / MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

논문 소개

  • 다양한 아키텍처 구성 요소를 연구하고 이미지 캡션, 인터리브 이미지-텍스트, 텍스트 전용 데이터를 신중하게 혼합하는 것이 최첨단 성능의 핵심임을 발견하고, 사전 학습 지표에서 소타를 달성하고 향상된 컨텍스트 내 학습, 다중 이미지 추론, 몇 샷의 사고 사슬 프롬프트를 가능하게 하는 등의 속성을 포함하는 최대 30b 파라미터의 멀티모달 모델군을 제안하는 등 멀티모달 LLM 사전 학습에 대한 방법, 분석 및 인사이트를 포괄적으로 제공합니다.

    Provides a comprehensive overview of methods, analysis, and insights into multimodal llm pre-training; studies different architecture components and finds that carefully mixing image-caption, interleaved image-text, and text-only data is key for state-of-the-art performance; it also proposes a family of multimodal models up to 30b parameters that achieve sota in pre-training metrics and include properties such as enhanced in-context learning, multi-image reasoning, enabling few-shot chain-of-thought prompting.

논문 초록(Abstract)

  • 이 작업에서는 성능이 뛰어난 다중모달 대규모 언어 모델(MLLM)을 구축하는 방법에 대해 설명합니다. 특히 다양한 아키텍처 구성 요소와 데이터 선택의 중요성에 대해 연구합니다. 이미지 인코더, 비전 언어 커넥터, 다양한 사전 학습 데이터 선택에 대한 신중하고 포괄적인 절제를 통해 몇 가지 중요한 설계 교훈을 확인했습니다. 예를 들어, 이미지-캡션, 인터리브 이미지-텍스트, 텍스트 전용 데이터를 신중하게 조합하여 대규모 멀티모달 사전 학습을 수행하는 것이 여러 벤치마크에서 다른 공개된 사전 학습 결과와 비교하여 최첨단(SOTA) 몇 샷 결과를 달성하는 데 중요하다는 사실을 입증했습니다. 또한 이미지 해상도 및 이미지 토큰 수와 함께 이미지 인코더가 상당한 영향을 미치는 반면, 비전 언어 커넥터 설계는 상대적으로 중요하지 않다는 것을 보여줍니다. 제시된 레시피를 확장하여 사전 학습 지표에서 SOTA인 고밀도 모델과 전문가 혼합(MoE) 변형으로 구성된 최대 30B 파라미터의 멀티모달 모델 제품군인 MM1을 구축하고 다양한 기존 멀티모달 벤치마크에서 감독 미세 조정을 거쳐 경쟁력 있는 성능을 달성했습니다. 대규모 사전 학습 덕분에 MM1은 향상된 컨텍스트 내 학습, 다중 이미지 추론과 같은 매력적인 속성을 갖추고 있으며, 이를 통해 몇 번의 샷으로 생각의 연쇄를 유도할 수 있습니다.

    In this work, we discuss building performant Multimodal Large Language Models (MLLMs). In particular, we study the importance of various architecture components and data choices. Through careful and comprehensive ablations of the image encoder, the vision language connector, and various pre-training data choices, we identified several crucial design lessons. For example, we demonstrate that for large-scale multimodal pre-training using a careful mix of image-caption, interleaved image-text, and text-only data is crucial for achieving state-of-the-art (SOTA) few-shot results across multiple benchmarks, compared to other published pre-training results. Further, we show that the image encoder together with image resolution and the image token count has substantial impact, while the vision-language connector design is of comparatively negligible importance. By scaling up the presented recipe, we build MM1, a family of multimodal models up to 30B parameters, consisting of both dense models and mixture-of-experts (MoE) variants, that are SOTA in pre-training metrics and achieve competitive performance after supervised fine-tuning on a range of established multimodal benchmarks. Thanks to large-scale pre-training, MM1 enjoys appealing properties such as enhanced in-context learning, and multi-image reasoning, enabling few-shot chain-of-thought prompting.

논문 링크

https://arxiv.org/abs/2403.09611

더 읽어보기

https://discuss.pytorch.kr/t/apple-llm-mm1-x/3772

https://x.com/DrJimFan/status/1769053019939967080


원문

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-6a6


이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

⚠️광고⚠️: 파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

자동 번역툴 어떤거 쓰셨는지 알려주세요.

넵, DeepL 사용하고 있습니다 ㅎㅎ
최근에 한국어도 번역 어휘집을 만들 수 있게 돼서 사용해봤는데 문제가 orz...

RAT 부분의 논문 소개에서 rat, rag가 각각 쥐, 걸레로 번역된 거 같습니다
아마 모델이 소문자를 그대로 읽어낸 거 같아요

다음과 같이 수정하였습니다. 감사합니다! :D

  • 정보 검색을 통해 생각의 사슬(CoT)을 반복적으로 수정하면 장기-단위의 생성 작업에서 LLM 추론과 생성을 크게 개선할 수 있음을 보여줍니다. 핵심 아이디어는 각 생각 단계가 작업 쿼리, 현재 및 과거의 생각 단계에 관련된 검색된 정보로 수정된다는 것입니다. 검색 증강 생각(RAT)은 GPT-4 및 CodeLlama-7b 같은 다른 모델에 적용하여 긴-단위의 생성 작업(예, 창의적 글쓰기 및 구체화된 작업 계획); RAT는 제로 샷 프롬프트 방식이며 제로 샷 침대 프롬프트, 기본 RAG 및 기타 기준선을 포함한 기준선을 크게 개선합니다.

헛 그렇네요; 원문 수정해두겠습니다 ㅎㅎ
감사합니다!

앗, 제목이... '이번 주의 주요 ML 논문'으로 변경 부탁드립니다;;