- Llama 3의 첫 두 가지 모델(사전학습 및 명령어 미세조정된 8B와 70B 모델)을 공개
- 광범위한 업계 벤치마크들에서 최첨단 성능을 보여주며, 향상된 추론 등 새로운 기능을 제공
- 현재 사용 가능한 최고의 독점 모델과 동등한 수준의 최고의 오픈 모델을 구축하고자 함. 개발자 피드백을 반영하고, 빠르게 자주 릴리즈하는 것을 목표로 함
- Llama Guard 2, Code Shield, CyberSec Eval 2 등의 새로운 신뢰 및 안전 도구 도입
- 향후 몇 달 내에 새로운 기능, 더 긴 컨텍스트 윈도우, 추가 모델 크기, 향상된 성능 등을 도입할 예정이며, Llama 3 연구 논문도 공유할 예정
- AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM, Snowflake 등에서 곧 사용 가능해질 예정이며, AMD, AWS, Dell, Intel, NVIDIA, Qualcomm 등의 하드웨어 플랫폼에서도 지원될 예정
- Llama 3 기술로 구축된 Meta AI는 이제 세계 최고 수준의 AI 어시스턴트 중 하나로, 사용자의 지능을 높이고 부담을 덜어줄 수 있음
Llama 3의 성능
- 8B와 70B 파라미터 Llama 3 모델은 Llama 2에 비해 큰 도약을 이루었으며, 해당 규모에서 LLM 모델의 새로운 최고 수준을 달성
- 사전 학습 및 사후 학습의 개선 덕분에 사전 학습되고 명령어 미세 조정된 모델은 8B와 70B 파라미터 규모에서 현존하는 최고의 모델임
- 사후 학습 절차의 개선으로 거짓 거부율이 상당히 감소하고, 정렬이 개선되었고, 모델 응답의 다양성이 증가함
- 또한 추론, 코드 생성, 명령어 따르기 등의 기능이 크게 개선되어 Llama 3가 더 조종 가능해짐(Steerable)
- Llama 3 개발 과정에서 표준 벤치마크에서의 모델 성능을 살펴보고, 실제 시나리오에 대한 성능 최적화도 추구함
- 이를 위해 12가지 핵심 사용 사례를 다루는 1,800개의 프롬프트가 포함된 새로운 고품질 인간 평가 세트를 개발함
- 이 평가 세트를 통해 70B 명령어-추종 모델이 실제 시나리오에서 유사한 크기의 경쟁 모델에 비해 강력한 성능을 보여주는 것으로 나타남
- 사전 학습된 모델 또한 해당 규모에서 LLM 모델의 새로운 최첨단 기술을 달성
- 훌륭한 언어 모델을 개발하기 위해서는 혁신, 확장, 단순성 최적화가 중요하다고 믿음
- Llama 3 프로젝트 전반에 걸쳐 모델 아키텍처, 사전 학습 데이터, 사전 학습 확장, 명령어 미세 조정의 네 가지 핵심 요소에 초점을 맞추어 이 설계 철학을 채택함
모델 아키텍처
- Llama 3에서는 비교적 표준적인 디코더 전용 트랜스포머 아키텍처를 선택함
- Llama 2와 비교하여 몇 가지 주요 개선 사항이 있음
- Llama 3는 언어를 훨씬 더 효율적으로 인코딩하는 128K 토큰의 어휘를 가진 토크나이저를 사용하여 모델 성능을 상당히 개선함
- Llama 3 모델의 추론 효율성을 개선하기 위해 8B와 70B 크기 모두에 걸쳐 그룹화된 쿼리 주의(GQA)를 채택함
- 셀프 어텐션이 문서 경계를 넘지 않도록 마스크를 사용해 8,192개의 토큰 시퀀스로 모델을 훈련
학습 데이터
- 최고의 언어 모델을 학습시키기 위해서는 대규모 고품질 학습 데이터셋의 큐레이션이 가장 중요함
- Llama 3는 공개적으로 사용 가능한 소스에서 수집된 15T 이상의 토큰으로 사전 학습됨
- 학습 데이터셋은 Llama 2에 사용된 것보다 7배 더 크며, 4배 더 많은 코드를 포함함
- 향후 다국어 사용 사례를 준비하기 위해 Llama 3 사전 학습 데이터셋의 5% 이상이 30개 이상의 언어를 다루는 고품질 비영어 데이터로 구성됨
사전 학습 확장
- Llama 3 모델에서 사전 학습 데이터를 효과적으로 활용하기 위해 사전 학습 확장에 상당한 노력을 기울임
- 특히 다운스트림 벤치마크 평가를 위한 일련의 상세한 스케일링 법칙을 개발함
- 이러한 스케일링 법칙을 통해 최적의 데이터 믹스를 선택하고 학습 컴퓨팅을 최상으로 사용하는 방법에 대해 정보에 입각한 결정을 내릴 수 있음
명령어 미세 조정
- 채팅 사용 사례에서 사전 학습된 모델의 잠재력을 완전히 발휘하기 위해 명령어 조정 접근 방식에 대해서도 혁신을 이룸
- 사후 학습에 대한 접근 방식은 지도 학습 미세 조정(SFT), 거부 샘플링, 근접 정책 최적화(PPO), 직접 정책 최적화(DPO)의 조합임
- SFT에 사용되는 프롬프트의 품질과 PPO 및 DPO에 사용되는 선호도 순위는 정렬된 모델의 성능에 과도한 영향을 미침
Llama 3로 구축하기
- Meta의 비전은 개발자가 Llama 3을 맞춤 설정하여 관련 사용 사례를 지원하고 모범 사례를 쉽게 채택하고 개방형 생태계를 개선할 수 있도록 하는 것임
- 이번 릴리스에서는 Llama Guard 2 및 Cybersec Eval 2와 함께 업데이트된 구성 요소를 포함한 새로운 신뢰 및 안전 도구와 LLM에서 생성한 안전하지 않은 코드를 필터링하기 위한 추론 시간 가드레일인 Code Shield를 도입함
- 또한 Llama 3을 LLM을 쉽게 작성, 미세 조정 및 실험할 수 있는 새로운 PyTorch 기본 라이브러리인 torchtune과 함께 개발함
책임감 있는 개발과 배포를 위한 시스템 수준 접근법
- Llama 3 모델은 최대한 도움이 되면서도 업계 최고 수준의 책임감 있는 배포 접근 방식을 보장하도록 설계됨
- 이를 위해 Llama의 책임감 있는 개발과 배포를 위한 새로운 시스템 수준 접근법을 채택함
- Llama 모델을 개발자가 고유한 최종 목표를 염두에 두고 설계하는 시스템의 기본 요소로 간주함
- 명령어 미세 조정은 모델의 안전성을 보장하는 데 중요한 역할을 함
- 명령어 미세 조정된 모델은 내부 및 외부 노력을 통해 안전성에 대해 레드팀(테스트)을 거침
- 이러한 노력은 반복적이며 릴리스되는 모델의 안전성 미세 조정에 사용됨
- Llama Guard 모델은 프롬프트 및 응답 안전의 기반이 되며 애플리케이션 요구 사항에 따라 새로운 분류를 쉽게 만들 수 있음
- 새로운 Llama Guard 2는 업계 표준 지원을 위해 최근 발표된 MLCommons 분류법을 사용함
- CyberSecEval 2는 LLM의 코드 인터프리터 악용 성향, 공격적인 사이버 보안 기능, 프롬프트 주입 공격에 대한 취약성 측정을 추가하여 이전 버전을 확장함
- Code Shield는 LLM에서 생성된 안전하지 않은 코드에 대한 추론 시간 필터링을 지원하여 안전하지 않은 코드 제안, 코드 인터프리터 악용 방지, 보안 명령 실행과 관련된 위험을 완화함
Llama 3의 대규모 배포
- Llama 3는 클라우드 제공업체, 모델 API 제공업체 등 주요 플랫폼에서 곧 사용 가능해질 예정임
- 벤치마크에 따르면 토크나이저는 Llama 2에 비해 최대 15% 적은 토큰을 생성하여 토큰 효율성이 향상됨
- 또한 그룹 쿼리 주의력(GQA)이 Llama 3 8B에도 추가됨
Llama 3의 향후 계획
- Llama 3 8B 및 70B 모델은 Llama 3 출시 계획의 시작에 불과함
- 향후 몇 달 동안 멀티모달, 다국어 대화 능력, 훨씬 더 긴 맥락 창, 전반적으로 더 강력한 기능 등 새로운 기능을 갖춘 여러 모델을 출시할 예정임
- Llama 3 학습이 완료되면 상세한 연구 논문도 게재할 예정임