Meta, Llama 3 공개

(ai.meta.com)

22P by xguru 2024-04-19 | ★ favorite | 댓글 2개

Llama 3의 첫 두 가지 모델(사전학습 및 명령어 미세조정된 8B와 70B 모델)을 공개
광범위한 업계 벤치마크들에서 최첨단 성능을 보여주며, 향상된 추론 등 새로운 기능을 제공
현재 사용 가능한 최고의 독점 모델과 동등한 수준의 최고의 오픈 모델을 구축하고자 함. 개발자 피드백을 반영하고, 빠르게 자주 릴리즈하는 것을 목표로 함
Llama Guard 2, Code Shield, CyberSec Eval 2 등의 새로운 신뢰 및 안전 도구 도입
향후 몇 달 내에 새로운 기능, 더 긴 컨텍스트 윈도우, 추가 모델 크기, 향상된 성능 등을 도입할 예정이며, Llama 3 연구 논문도 공유할 예정
AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM, Snowflake 등에서 곧 사용 가능해질 예정이며, AMD, AWS, Dell, Intel, NVIDIA, Qualcomm 등의 하드웨어 플랫폼에서도 지원될 예정
Llama 3 기술로 구축된 Meta AI는 이제 세계 최고 수준의 AI 어시스턴트 중 하나로, 사용자의 지능을 높이고 부담을 덜어줄 수 있음

Llama 3의 성능

8B와 70B 파라미터 Llama 3 모델은 Llama 2에 비해 큰 도약을 이루었으며, 해당 규모에서 LLM 모델의 새로운 최고 수준을 달성
사전 학습 및 사후 학습의 개선 덕분에 사전 학습되고 명령어 미세 조정된 모델은 8B와 70B 파라미터 규모에서 현존하는 최고의 모델임
사후 학습 절차의 개선으로 거짓 거부율이 상당히 감소하고, 정렬이 개선되었고, 모델 응답의 다양성이 증가함
또한 추론, 코드 생성, 명령어 따르기 등의 기능이 크게 개선되어 Llama 3가 더 조종 가능해짐(Steerable)
Llama 3 개발 과정에서 표준 벤치마크에서의 모델 성능을 살펴보고, 실제 시나리오에 대한 성능 최적화도 추구함
이를 위해 12가지 핵심 사용 사례를 다루는 1,800개의 프롬프트가 포함된 새로운 고품질 인간 평가 세트를 개발함
이 평가 세트를 통해 70B 명령어-추종 모델이 실제 시나리오에서 유사한 크기의 경쟁 모델에 비해 강력한 성능을 보여주는 것으로 나타남
사전 학습된 모델 또한 해당 규모에서 LLM 모델의 새로운 최첨단 기술을 달성
훌륭한 언어 모델을 개발하기 위해서는 혁신, 확장, 단순성 최적화가 중요하다고 믿음
Llama 3 프로젝트 전반에 걸쳐 모델 아키텍처, 사전 학습 데이터, 사전 학습 확장, 명령어 미세 조정의 네 가지 핵심 요소에 초점을 맞추어 이 설계 철학을 채택함

모델 아키텍처

Llama 3에서는 비교적 표준적인 디코더 전용 트랜스포머 아키텍처를 선택함
Llama 2와 비교하여 몇 가지 주요 개선 사항이 있음
- Llama 3는 언어를 훨씬 더 효율적으로 인코딩하는 128K 토큰의 어휘를 가진 토크나이저를 사용하여 모델 성능을 상당히 개선함
- Llama 3 모델의 추론 효율성을 개선하기 위해 8B와 70B 크기 모두에 걸쳐 그룹화된 쿼리 주의(GQA)를 채택함
- 셀프 어텐션이 문서 경계를 넘지 않도록 마스크를 사용해 8,192개의 토큰 시퀀스로 모델을 훈련

학습 데이터

최고의 언어 모델을 학습시키기 위해서는 대규모 고품질 학습 데이터셋의 큐레이션이 가장 중요함
Llama 3는 공개적으로 사용 가능한 소스에서 수집된 15T 이상의 토큰으로 사전 학습됨
학습 데이터셋은 Llama 2에 사용된 것보다 7배 더 크며, 4배 더 많은 코드를 포함함
향후 다국어 사용 사례를 준비하기 위해 Llama 3 사전 학습 데이터셋의 5% 이상이 30개 이상의 언어를 다루는 고품질 비영어 데이터로 구성됨

사전 학습 확장

Llama 3 모델에서 사전 학습 데이터를 효과적으로 활용하기 위해 사전 학습 확장에 상당한 노력을 기울임
특히 다운스트림 벤치마크 평가를 위한 일련의 상세한 스케일링 법칙을 개발함
이러한 스케일링 법칙을 통해 최적의 데이터 믹스를 선택하고 학습 컴퓨팅을 최상으로 사용하는 방법에 대해 정보에 입각한 결정을 내릴 수 있음

명령어 미세 조정

채팅 사용 사례에서 사전 학습된 모델의 잠재력을 완전히 발휘하기 위해 명령어 조정 접근 방식에 대해서도 혁신을 이룸
사후 학습에 대한 접근 방식은 지도 학습 미세 조정(SFT), 거부 샘플링, 근접 정책 최적화(PPO), 직접 정책 최적화(DPO)의 조합임
SFT에 사용되는 프롬프트의 품질과 PPO 및 DPO에 사용되는 선호도 순위는 정렬된 모델의 성능에 과도한 영향을 미침

Llama 3로 구축하기

Meta의 비전은 개발자가 Llama 3을 맞춤 설정하여 관련 사용 사례를 지원하고 모범 사례를 쉽게 채택하고 개방형 생태계를 개선할 수 있도록 하는 것임
이번 릴리스에서는 Llama Guard 2 및 Cybersec Eval 2와 함께 업데이트된 구성 요소를 포함한 새로운 신뢰 및 안전 도구와 LLM에서 생성한 안전하지 않은 코드를 필터링하기 위한 추론 시간 가드레일인 Code Shield를 도입함
또한 Llama 3을 LLM을 쉽게 작성, 미세 조정 및 실험할 수 있는 새로운 PyTorch 기본 라이브러리인 torchtune과 함께 개발함

책임감 있는 개발과 배포를 위한 시스템 수준 접근법

Llama 3 모델은 최대한 도움이 되면서도 업계 최고 수준의 책임감 있는 배포 접근 방식을 보장하도록 설계됨
이를 위해 Llama의 책임감 있는 개발과 배포를 위한 새로운 시스템 수준 접근법을 채택함
Llama 모델을 개발자가 고유한 최종 목표를 염두에 두고 설계하는 시스템의 기본 요소로 간주함
명령어 미세 조정은 모델의 안전성을 보장하는 데 중요한 역할을 함
명령어 미세 조정된 모델은 내부 및 외부 노력을 통해 안전성에 대해 레드팀(테스트)을 거침
이러한 노력은 반복적이며 릴리스되는 모델의 안전성 미세 조정에 사용됨
Llama Guard 모델은 프롬프트 및 응답 안전의 기반이 되며 애플리케이션 요구 사항에 따라 새로운 분류를 쉽게 만들 수 있음
새로운 Llama Guard 2는 업계 표준 지원을 위해 최근 발표된 MLCommons 분류법을 사용함
CyberSecEval 2는 LLM의 코드 인터프리터 악용 성향, 공격적인 사이버 보안 기능, 프롬프트 주입 공격에 대한 취약성 측정을 추가하여 이전 버전을 확장함
Code Shield는 LLM에서 생성된 안전하지 않은 코드에 대한 추론 시간 필터링을 지원하여 안전하지 않은 코드 제안, 코드 인터프리터 악용 방지, 보안 명령 실행과 관련된 위험을 완화함

Llama 3의 대규모 배포

Llama 3는 클라우드 제공업체, 모델 API 제공업체 등 주요 플랫폼에서 곧 사용 가능해질 예정임
벤치마크에 따르면 토크나이저는 Llama 2에 비해 최대 15% 적은 토큰을 생성하여 토큰 효율성이 향상됨
또한 그룹 쿼리 주의력(GQA)이 Llama 3 8B에도 추가됨

Llama 3의 향후 계획

Llama 3 8B 및 70B 모델은 Llama 3 출시 계획의 시작에 불과함
향후 몇 달 동안 멀티모달, 다국어 대화 능력, 훨씬 더 긴 맥락 창, 전반적으로 더 강력한 기능 등 새로운 기능을 갖춘 여러 모델을 출시할 예정임
Llama 3 학습이 완료되면 상세한 연구 논문도 게재할 예정임

▲

dormis 2024-04-19 [-]

일단 다른 클라우드는 모르겠고 Azure AI Studio에는 Mixtral 8x22B과 함께 Llma-3 (Meta-Llama-3-8B, Meta-Llama-3-70B, Meta-Llama-3-70B-Instruct, Meta-Llama-3-8B-Instruct) 가 이미 올라와있네요.

답변달기

▲

xguru 2024-04-19 [-]

공식 사이트 : https://llama.meta.com/llama3/
Meta Llama 3에 대한 Andrej Karpathy의 평가

답변달기