Meta의 Llama 3 언어 모델 출시

(llama.meta.com)

1P by GN⁺ 2024-04-19 | ★ favorite | 댓글 1개

Meta의 Llama 페이지는 Llama 모델군을 배포 용이성, 비용 효율, 성능, 대규모 확장을 겨냥한 오픈소스 AI로 묶어 소개하며, Llama 4와 Llama 3 계열을 함께 다룸
Llama 4 Maverick과 Llama 4 Scout는 텍스트와 비전 토큰을 함께 사전학습하는 early fusion 기반 네이티브 멀티모달 모델이며, 둘 다 10M 토큰 컨텍스트를 내세움
Llama 3 계열은 3.1·3.2·3.3으로 나뉘며, 8B·70B·405B, 1B·3B·11B·90B, 70B 등 크기와 텍스트·엣지·멀티모달 용도별 선택지를 제공함
성능 비교는 MMLU Pro, GPQA Diamond, LiveCodeBench, MMMU, ChartQA, DocVQA, MMLU Multi, MTOB 등을 포함하며, Llama 4 Maverick은 MMLU Pro 80.5, Scout는 74.3을 기록함
Stoque와 Shopify 사례에서는 기술지원 반복 질의 50% 감소, 내부 만족도 11% 증가, 토큰 처리량 76% 증가, JSON 출력 기반 컴퓨트 비용 33% 절감 같은 도입 결과가 나옴

Llama 모델군과 버전별 선택지

Llama는 자체 조건에 맞춰 구축할 수 있는 모델군으로, 손쉬운 배포와 비용 효율, 성능, 수십억 사용자 규모 확장을 겨냥함
최신 Llama 모델의 주요 축은 네이티브 멀티모달, 고급 추론, 긴 컨텍스트 윈도우임
모델 카드와 프롬프트 형식은 Model overview에서 확인할 수 있음
Llama 4: 네이티브 멀티모달과 10M 컨텍스트
- Llama 4는 early fusion으로 라벨 없는 텍스트와 비전 데이터를 함께 사전학습하는 네이티브 멀티모달 모델군임
- Llama 4 Maverick은 이미지와 텍스트 이해를 지원하며, 10M 토큰 컨텍스트로 긴 형식 작업을 처리함
- 메모리, 개인화, 멀티모달 애플리케이션이 주요 용도임
- Llama 4 Scout는 텍스트와 시각 지능을 제공하는 모델로, 단일 H100 GPU 효율성과 10M 컨텍스트 윈도우를 내세움
- 긴 문서 분석이 Scout의 주요 사용처로 제시됨
- 세부 정보는 Llama 4 모델 문서에서 제공됨
Llama 3: 크기와 용도별 모델군
- Llama 3는 파인튜닝, 증류, 어디서나 배포가 가능한 오픈소스 AI 모델군임
- Llama 3.3은 70B로 제공되는 다국어 오픈소스 대형 언어 모델이며, 405B 수준의 성능과 품질을 더 낮은 비용으로 경험할 수 있다고 안내됨
- 합성 데이터 생성 같은 텍스트 기반 용도에 맞춰져 있으며, 세부 정보는 Llama 3.3 모델 문서에서 확인할 수 있음
- Llama 3.2는 엣지 용도에 맞춘 유연하고 비용 효율적인 모델군임
  - 1B와 3B는 가볍고 비용 효율적이어서 어디서나 실행할 수 있음
  - 11B와 90B는 고해상도 이미지를 추론하고 텍스트를 출력할 수 있는 멀티모달 모델임
  - 세부 정보는 Llama 3.2 모델 문서에서 제공됨
- Llama 3.1은 유연성과 제어를 위한 오픈 파운데이션 모델로, 8B·70B·405B 크기로 제공됨
- 일반 지식, 조정 가능성, 수학, 도구 사용, 다국어 번역 역량을 포함하며 텍스트 요약, 다국어 에이전트, 코딩 용도에 쓰임
- 세부 정보는 Llama 3.1 모델 문서에서 확인 가능함

성능 지표와 실제 도입 결과

Llama 4 벤치마크와 평가 조건
- Llama 4의 역량은 네이티브 멀티모달, 긴 컨텍스트, 이미지 그라운딩으로 정리됨
- 모든 Llama 4 모델은 라벨 없는 텍스트와 비전 토큰을 대량으로 함께 사전학습할 수 있도록 early fusion을 활용함
- 벤치마크는 Llama 4 Maverick과 Llama 4 Scout를 비교함
  - 추론: MMLU Pro는 Maverick 80.5, Scout 74.3이며 GPQA Diamond는 Maverick 69.8, Scout 57.2임
  - 코딩: LiveCodeBench는 Maverick 43.4, Scout 32.8임
  - 멀티모달 이미지: MMMU는 Maverick 73.4, Scout 69.4이고 ChartQA는 Maverick 90.0, Scout 88.8이며 DocVQA는 둘 다 94.4임
  - 다국어: MMLU Multi는 Maverick 84.6, Scout 74.3임
  - 긴 컨텍스트: MTOB Half Book은 Maverick 54.0 / 46.4, Scout 42.2 / 36.6이고 MTOB Full Book은 Maverick 50.8 / 46.7, Scout 39.7 / 36.3임
  - 효율: 1M 토큰당 비용은 둘 다 $0.19–$0.49로 제시됨
- 방법론과 주석에 따르면 Llama 결과는 temperature 0의 0-shot 평가이며, majority voting이나 병렬 테스트 시간 컴퓨트를 쓰지 않음
- GPQA Diamond와 LiveCodeBench처럼 분산이 큰 벤치마크는 불확실성을 줄이기 위해 여러 생성 결과를 평균냄
- 긴 컨텍스트 전문 평가는 일반 모델에서 전통적으로 보고되지 않아 내부 실행 결과를 공유함
- Llama 4 Maverick의 $0.19/Mtok 비용은 분산 추론을 가정한 3:1 blended 추정치이며, 단일 호스트에서는 $0.30–$0.49/Mtok로 제공 가능하다고 전망함
Stoque와 Shopify의 활용 사례
- Stoque는 Llama로 내부 인텔리전스를 전환해 팀이 인사이트를 더 빠르게 찾고, 마찰을 줄이며, 대규모로 더 효율적으로 일하도록 했음
- 기술지원 반복 질의는 50% 감소했고, 관리 및 지원 작업 완료는 30% 늘어남
- 내부 사용자 만족도는 11% 증가함
- Shopify는 Llama를 제품 페이지 생성, 콘텐츠 현지화, 지원 자동화에 사용함
- 이전 모델보다 토큰 처리량이 76% 높고, 의도 감지에서 Macro-F1 정확도 97.7%를 기록함
- JSON 출력으로 컴퓨트 비용을 33% 절감함
- 생성형 AI 보호 장치는 시스템 수준 보호를 통해 잠재적 위험을 사전에 식별·완화하고, 개발자가 생성형 AI를 더 책임감 있게 배포하도록 돕는 역할을 함

GN⁺ 2024-04-19 [-]

Hacker News 의견들

참고할 만한 링크: https://ai.meta.com/blog/meta-llama-3/, https://about.fb.com/news/2024/04/meta-ai-assistant-built-wi..., https://twitter.com/karpathy/status/1781028605709234613
Meta가 콘솔도 공개했음: https://www.meta.ai/
Meta 제품군 전반에 Meta AI 통합도 발표함: https://about.fb.com/news/2024/04/meta-ai-assistant-built-wi...
다만 GPT-4-Turbo나 Claude Opus와 비교를 넣지 않은 걸 보면 최전선 모델과는 거리가 있는 듯하고, LLM Arena에서 성능이 어떻게 나올지 봐야 함
- 최고 모델과 비교하지 않은 건 “동급” 비교를 하려 했기 때문으로 보임. 70B 모델은 Sonnet과 같은 급이고, Sonnet을 이긴다면 Opus나 GPT-4에도 대부분 작업에서 근접할 수 있음
  큰 차이는 아주 어려운 추론 벤치마크에서만 날 가능성이 큼. Llama는 공개 가중치라 Opus와 달리 파인튜닝과 LoRA가 많이 나올 것임
- Llama-3-400B가 Claude 3 Opus 등에 맞먹는다면 패자는 Nvidia 주가, OpenAI와 Sam, Google이고 승자는 AMD, Intel, 대학과 전 세계 개발자일 수 있음
  국가와 대기업이 자체 모델 학습용 GPU에 돈을 쏟기보다 Llama-3/Llama-4를 쓰면 GPU 성장 기대가 눌릴 수 있고, OpenAI는 1000억 달러 조달 명분이 약해지며, Google의 AI 우위도 흐려짐. AMD와 Intel은 Nvidia의 학습용 GPU를 따라잡기보다 AI 추론 칩에 집중할 수 있음
- 로그인 없이 쓸 수 있게 해둔 것도 의외임. Meta에서 기대하지 못했던 부분임
- Meta는 더 경쟁력 있는 대형 변형 모델을 아직 학습 중이라고 밝힘
  400B가 넘는 가장 큰 모델들이 아직 학습 중이며, 앞으로 몇 달 안에 다중모달, 다국어 대화, 훨씬 긴 컨텍스트 창, 전반적으로 더 강한 능력을 갖춘 여러 모델을 출시할 예정이라고 함
- “Meta AI isn't available yet in your country”가 뜨는데, 어디에서 가능한지 궁금함. 노르웨이에서 이렇게 나옴
공개 벤치마크는 대략적인 지표로는 좋지만, 개발자는 자기 사용 사례에 맞춘 커스텀 벤치마크를 돌려야 함
Replicate가 Llama 3 API를 빠르게 만들었고 https://replicate.com/blog/run-llama-3-with-an-api, promptfoo https://github.com/typpo/promptfoo로 Llama 3, Mixtral, GPT, Claude 등을 비교할 수 있음. 예를 들어 Replicate의 meta/meta-llama-3-8b-instruct, meta/meta-llama-3-70b-instruct, OpenAI gpt-4-turbo, Anthropic claude-3-opus-20240229 등을 같은 프롬프트로 평가 가능함
아직 테스트 중이지만 무작위 프로그래밍 질문 묶음에서는 Llama 3 8B가 꽤 좋아 보임. ollama도 이제 Llama 3 8B를 지원해서 ollama:chat:llama3로 로컬 평가가 쉬워짐
- 온라인에 이미 통째로 풀려 있을 가능성이 높은 문제로 테스트하는 건 매우 조심해야 함
  좋은 테스트는 무작위 a, b, c에 대해 2차 방정식을 푸는 것처럼 간단하지만 실제 적용을 봐야 하는 문제임. 모든 모델이 알고 있을 법한 알고리즘인데도 실수하고, 이후에는 검증한 척하며 틀린 답을 반복하기도 함. LLAMA 3도 여러 차례 오류를 짚어준 뒤 “정확한 해를 찾았고 여러 방법으로 검증했다”고 했지만 실제 해는 처음처럼 틀렸고 검증 시도도 없었음
- 어휘 쪽 문제로 응답 끝에 assistant가 붙는 현상이 있었지만 이제 동작해야 함
  ollama run llama3로 실행 가능하고, 여러 양자화 버전과 텍스트/70B 모델도 올리는 중임
Llama 3 70B가 유명한 LMSYS 챗봇 아레나 순위표에 5위로 데뷔했고, Claude 2 Sonnet, Bard(Gemini Pro), Command R+와 동률이며 Claude 2 Haiku와 이전 GPT-4 버전들보다 앞섬
아직 점수 불확실성이 커서 정확한 순위는 시간이 지나야 하고 바뀔 수도 있음. Llama 3 8B는 12위로 Claude 1, Mixtral 8x22B, Qwen-1.5-72B와 동률임. 최신 순위는 https://arena.lmsys.org/에서 볼 수 있음
영어 전용 순위표에서는 Llama 3 70B가 GPT-4와 Claude Opus와 함께 최상위권에 머무르는 중이라 더 인상적임. 안전 튜닝이 이전보다 덜 강해져 프롬프트 거절이 줄어든 영향일 수도 있지만, 그래도 실질적으로 유용한 개선임. 이 속도라면 400B 모델은 사실상 지배적일 가능성이 큼
중국어 랩을 생성해 보니 꽤 괜찮게 만들었지만, 완료 직후 응답이 삭제되고 “아직 중국어를 이해하지 못하지만 작업 중이며 중국어로 대화할 수 있게 되면 메시지를 보내겠다”는 문구로 바뀜
다른 언어도 마찬가지로 비영어 생성은 되지만 끝나면 응답이 지워지고 같은 안내문으로 대체됨
- 일정 토큰 수가 생성된 뒤 응답 품질을 평가하는 후처리기가 있고, 기준 이하이면 응답을 되돌리는 것처럼 보임
- 로컬에서 실행하면 됨. 로컬 버전은 그런 보호 장치가 없음
- 이탈리아어로는 동작하지만 항상 “비영어 능력을 아직 개선 중이라 오류가 있을 수 있고, 영어로 도와줄 때 가장 유용하다”는 면책 문구가 붙음
- 이 버그가 12시간 뒤에도 계속 나는 건 이상함
블로그에 좋은 세부 정보가 많음: https://ai.meta.com/blog/meta-llama-3/
400B 버전도 나올 예정이고 GPT-4와 Claude Opus보다 훨씬 좋아질 것처럼 보임. 탈중앙화와 공개 소프트웨어가 이기는 흐름임
- Anthropic의 Claude 3 수치 https://www.anthropic.com/news/claude-3-family와 비교하면 Llama 400B 수치는 약간 낮아 보임
  물론 벤치마크한 건 중간 체크포인트이고 학습은 계속 진행 중임
- 그렇게 말한 적은 전혀 없음. 오히려 공개된 벤치마크는 GPT-4나 Opus보다 낮게 나옴
  벤치마크를 맹신할 건 아니지만, GPT-4나 Opus를 능가한다는 주장은 없음. 중간 체크포인트라서 앞으로 능가할 가능성은 있음
- 400B 모델이 GPT-4보다 훨씬 낫다는 내용이 어디에 있는지 모르겠음
- 탈중앙화라고 보기는 어려움. 여러 곳에서 실행할 수는 있겠지만 배포처는 하나뿐임
  그리고 오픈소스도 아님
- 오픈소스도 아니고 탈중앙화도 아님
Zuck, Yann, 그리고 Meta 팀이 개방적 접근을 택해 모델 가중치, 토크나이저, 학습 데이터 정보 등을 공유하는 데 정말 감사함
이들이야말로 llama.cpp 같은 프로젝트를 통해 소비자용 하드웨어에서 꽤 괜찮은 모델을 로컬로 돌리고 검열이나 통제를 피할 수 있게 만든 공개 연구 폭발의 가장 큰 원동력임
OpenAI나 Anthropic의 통제에 걸릴 요청을 하려는 건 아니지만, 이런 강력한 기술이 벽 뒤에 있고 게이트키퍼가 사용 방식을 통제하는 상황은 싫음. 개방을 믿는 사람과 회사는 많지만, 수천억 달러 자본과 지속 가능한 현금흐름, 수십억 달러어치 GPU를 가진 곳이 이렇게 하면 영향이 훨씬 큼. Zuck은 이 길을 택할 필요가 없었고, HBS/McKinsey식 전문 경영인이 Facebook을 운영했다면 이렇게 열어두지 않았을 가능성이 큼. AI 안전 위험이라는 명분으로 왕관 보석을 중앙화 API 뒤에 숨기지 않은 덕분에 모두가 크게 이득을 봄
- Zuck의 인터뷰를 보면 아직도 마음속으로는 엔지니어임을 알 수 있음. 다른 대형 기술 기업들은 그런 리더십을 잃었음
- 아직 39세이고 회사를 운영할 에너지가 더 넘쳐 보이는 건 좋은 일임. 열정적인 창업자가 있다는 점은 다른 대형 기술 기업에 비해 Meta의 큰 장점이라고 봄
- 선의만으로 하는 건 아닐 가능성이 큼. 모델을 범용재화로 만들어 보완재를 팔려는 전략일 가능성이 높음
  Joel Spolsky가 예전에 말했던 전략인데, Meta가 정확히 어떤 AI 모델의 보완재를 팔 수 있는지는 확실하지 않음. 그래도 어떤 형태로든 전략적 선택인 건 분명해 보임
- 창업자 CEO라서 그런 것임. 커리어형 MBA들과는 열정이나 진정성에서 다름
  Zuck에 대해 비판할 점은 많지만, 미션에 대한 진정성 부족은 그중 하나가 아님
- Meta는 Open Compute Project도 주도했음. Google의 오픈소스 헌신 때문에 입사했지만, 엑사스케일 해법을 만들면서 그 문화가 이어지지 않아 크게 실망했음
  Meta가 여기서 그 횃불을 이어가는 모습이 반갑고 계속되길 바람
유료 ChatGPT Plus의 GPT-4와 직접 비교가 없어서 수치를 맞춰 봤음
Llama 3 8B / Llama 3 70B / GPT-4 기준으로 MMLU는 68.4 / 82.0 / 86.5, GPQA는 34.2 / 39.5 / 49.1, MATH는 30.0 / 50.4 / 72.2, HumanEval은 62.2 / 81.7 / 87.6, DROP은 58.4 / 79.7 / 85.4임
대부분이 쓰는 무료 ChatGPT는 GPT-4보다 훨씬 약한 GPT-3.5 기반임. 최신 GPT-3.5의 포괄적 평가 수치는 못 찾았지만, Llama 3 70B는 넉넉히 이기고 8B도 근접할 것 같음. 이 정도 모델을 로컬에서 실행하고 수정할 수 있다는 게 매우 흥미로움. GPT-4 수치는 https://github.com/openai/simple-evals의 gpt-4-turbo-2024-04-09 (chatgpt) 기준임
- https://ai.meta.com/blog/meta-llama-3/ 하단에는 진행 중인 400B 모델 결과도 있음. 아직 완전히 도달하지는 못한 듯함
  Llama 3 400B Base / Instruct 기준으로 MMLU 84.8 / 86.1, GPQA - / 48.0, MATH - / 57.8, HumanEval - / 84.1, DROP 83.5 / -임
- GPT-4가 1.8T 파라미터라는 점을 생각하면 놀라움
- 파인튜닝되거나 병합된 모델을 기다리는 중임. 많은 개발자가 Llama 2 기반으로 기본 모델보다 훨씬 좋은 모델을 만들었으니 새 버전도 비슷한 흐름을 기대함
- Mixtral 8x22B와 비교한 자료가 이미 있는지 궁금함. 세상이 정말 빠르게 움직임
- HumanEval 점수가 높아서 특히 기대됨. 아직 400B 모델도, CodeLlama 튜닝도 나오기 전임
  IDE 안에서 코딩용으로 써보고 싶은 사람이 있으면 코딩 보조 도구 https://www.double.bot에 Llama 3 70B를 추가해 두었음
Zuck 인터뷰도 나왔음: https://twitter.com/dwarkesh_sp/status/1780990840179187715
- 5분쯤에 흥미로운 부분이 나오는데, Zuck이 몇 년 전 TikTok과 경쟁할 Reels 추천 엔진을 만들려고 H100 GPU를 엄청 많이 샀다고 함
  당시 필요량의 2배를 안전하게 확보했는데, 그 덕분에 우연히 이 규모의 LLM을 학습할 GPU 용량을 가진 몇 안 되는 회사 중 하나가 됨
- 1~2년간의 MMA가 그동안의 미디어 훈련보다 카리스마에 훨씬 도움이 된 듯함. 요즘 인터뷰에서 훨씬 자연스러움
- Dwarkesh의 팟캐스트는 전반적으로 정말 좋음
모델 카드에 Llama 2를 포함한 다른 Llama 모델 대비 벤치마크 결과가 있음: https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md...
Llama 2 대비 Llama 3의 성능 향상이 극적이라 인상적임. Llama 2 13B와 비교해도 그렇고, 컨텍스트 창이 8k로 두 배가 된 것도 새로운 기회를 많이 열어줄 것임
- 지시 튜닝 모델 기준으로는 Llama 3 8B가 Llama 2 70B보다도 상당히 좋음
- 8k 컨텍스트 길이가 Mixtral 8x22B의 64k 컨텍스트보다 훨씬 짧다는 건 아쉬움
  그래도 공개된 성능 지표는 인상적이고, Meta가 이 모델들을 내놓은 것은 칭찬할 만함

답변달기

Meta의 Llama 3 언어 모델 출시

Llama 모델군과 버전별 선택지

Llama 4: 네이티브 멀티모달과 10M 컨텍스트

Llama 3: 크기와 용도별 모델군

성능 지표와 실제 도입 결과

Llama 4 벤치마크와 평가 조건

Stoque와 Shopify의 활용 사례

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들