# Meta, LLama 4 출시

> Clean Markdown view of GeekNews topic #20166. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=20166](https://news.hada.io/topic?id=20166)
- GeekNews Markdown: [https://news.hada.io/topic/20166.md](https://news.hada.io/topic/20166.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2025-04-06T09:15:08+09:00
- Updated: 2025-04-06T09:15:08+09:00
- Original source: [ai.meta.com](https://ai.meta.com/blog/llama-4-multimodal-intelligence/)
- Points: 16
- Comments: 2

## Summary

Meta는 최초의 오픈 웨이트 기반 네이티브 멀티모달 모델인 Llama 4를 출시했으며, Scout, Maverick, Behemoth 세 가지 모델로 구성되어 있습니다. 이 모델들은 텍스트와 이미지를 이해하는 능력을 갖추고 있으며, 특히 Maverick 모델은 Reasoning, 코딩, 이미지 이해 등 다양한 영역에서 뛰어난 성능을 발휘합니다. 또한, Meta는 Llama 4의 안전성과 윤리를 고려하여 다층 보호 전략과 편향 제거 노력을 기울이고 있습니다.

## Topic Body

- **Scout**, **Maverick**, **Behemoth** 3가지 모델로 구성된 **최초의 오픈 웨이트 기반 네이티브 멀티모달 모델**   
  - **모든 모델은 이미지 + 텍스트**를 이해하는 멀티모달   
### Llama 4 Scout  
- **17B 활성 파라미터 + 16 Expert**  
- **10M 토큰** 지원하는 초장문 문맥 처리 능력  
- GPU 하나(H100)로 동작 가능한 효율적인 경량 모델  
- **Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1**을 초월하는 성능  
- 이미지 정렬, 멀티 문서 요약, 대규모 코드베이스 분석 등에서 우수한 성능  
  
### Llama 4 Maverick  
- **17B 활성 파라미터 + 128 Expert+ 400B 전체 파라미터**  
- **GPT-4o, Gemini 2.0 Flash보다 뛰어난 성능**  
- Reasoning, 코딩, 이미지 이해 등 **전 영역에서 탁월**  
- ELO 점수 **1417** 기록 (LMArena 기준)  
- 고성능 대비 효율적인 비용 구조  
  
### Llama 4 Behemoth (프리뷰)  
- **288B 활성 파라미터 + 16 Expert+ 약 2T 전체 파라미터**  
- 아직 학습 중이나 GPT-4.5, Claude 3.7, Gemini 2.0 Pro를 능가하는 성능  
- **Maverick 모델의 사전 학습에 교사 모델로 활용됨**  
  
* Scout와 Maverick은 오늘부터 [llama.com](https://www.llama.com/llama-downloads/) 및 [Hugging Face](https://huggingface.co/meta-llama)에서 다운로드 가능  
  
### # 기술적 특징  
  
#### Mixture of Experts (MoE) 아키텍처  
- 모든 파라미터를 사용하는 대신, **일부 전문가만 활성화**하여 연산 효율 극대화  
- **빠른 추론, 낮은 비용, 높은 품질**의 학습 구조 구현  
  
#### Native 멀티모달 & Early Fusion  
- 텍스트와 비전 데이터를 **초기부터 통합**하여 공동 학습  
- 이미지 최대 **48장까지** 입력 가능, 테스트는 최대 8장에서 성공적으로 수행  
  
#### 초장문 문맥 처리 (10M Tokens)  
- Scout 모델은 **iRoPE (interleaved Rotary Position Embedding)** 구조로 **'무한 문맥'** 가능성 탐색 중  
- 텍스트 및 코드에 대한 길이 일반화 성능 탁월  
  
#### MetaP & FP8 학습 기법  
- 고속/고효율 학습을 위한 새로운 하이퍼파라미터 튜닝 기술  
- FP8 정밀도로 높은 FLOPs 활용률 확보 (Behemoth: 390 TFLOPs/GPU)  
  
### # 후처리 및 RL 훈련 전략  
  
- **SFT → 온라인 RL → DPO**의 세 단계 후처리 파이프라인 구성  
- 쉬운 데이터는 제거하고, **중~상 난이도 프롬프트 중심**으로 훈련  
- **지속적 온라인 RL** 전략 도입: 성능 향상 및 학습 효율 극대화  
  
### # 안전성과 윤리 고려  
  
#### 다층 보호 전략  
- **사전/사후 학습 단계에서 데이터 필터링 및 검열**  
- **Llama Guard**: 입력/출력 안전성 검사  
- **Prompt Guard**: 탈옥(Jailbreak), 주입 공격 탐지  
- **CyberSecEval**: 생성형 AI의 보안 리스크 평가 도구 제공  
  
#### 정량적 리스크 탐지 자동화  
- **GOAT (Generative Offensive Agent Testing)** 도입  
  - 중급 공격자 시나리오 시뮬레이션  
  - 자동화된 다중 턴 테스트로 리스크 조기 탐지  
  
#### 편향 제거 노력  
- Llama 4는 **Llama 3 대비 편향성 크게 개선**  
  - 응답 거부율 7% → 2% 이하  
  - 응답 불균형 < 1%  
  - Grok 수준의 정치적 균형 응답 유지  
  
### # Llama 4 모델 활용 안내  
  
- Scout, Maverick 모두 **다운로드 및 활용 가능**  
  - [llama.com](https://www.llama.com/llama-downloads/)  
  - [Hugging Face](https://huggingface.co/meta-llama)  
- **Meta AI** 서비스에 Llama 4 통합:  
  - WhatsApp, Messenger, Instagram DM, [meta.ai](https://meta.ai)  
  
### # 향후 일정  
  
- 더 많은 기술 세부 사항과 비전을 소개할 **LlamaCon 2025**가 4월 29일 개최 예정  
  - [LlamaCon 등록하기](https://www.llama.com/events/llamacon/signup/)

## Comments


### Comment 36810

- Author: jjw951215
- Created: 2025-04-07T03:03:40+09:00
- Points: 1

RAM에 여유가있는 APPLE SILOCON이나 NPU 계열에 적합한것 같습니다. 순수 GPU서버에 쓰기에는 최소사양모델이 int4 양자화가 h100이 필요하다는게..

### Comment 36792

- Author: neo
- Created: 2025-04-06T09:15:08+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=43595585) 
- Llama 4 모델 개요:
  - Llama 4 Scout와 Llama 4 Maverick은 각각 17B 활성 파라미터를 사용하는 Mixture-of-Experts (MoE) 디자인을 사용함
  - 텍스트와 이미지 입력을 지원하는 멀티모달 기능을 가짐
  - 주요 성과로는 업계 최고 수준의 컨텍스트 길이, 강력한 코딩/추론 성능, 다국어 지원 능력 향상이 있음
  - 지식 컷오프는 2024년 8월임

- Llama 4 Scout:
  - 17B 활성 파라미터, 16명의 전문가, 총 109B
  - 단일 H100 GPU에 적합함 (INT4-양자화)
  - 10M 토큰 컨텍스트 윈도우
  - 이전 Llama 릴리스보다 멀티모달 작업에서 더 나은 성능을 보이며 자원 친화적임
  - 효율적인 장기 컨텍스트 주의를 위한 iRoPE 아키텍처를 사용함
  - 프롬프트당 최대 8개의 이미지로 테스트됨

- Llama 4 Maverick:
  - 17B 활성 파라미터, 128명의 전문가, 총 400B
  - 1M 토큰 컨텍스트 윈도우
  - 단일 GPU가 아닌 H100 DGX 호스트에서 실행되거나 더 큰 효율성을 위해 분산 가능함
  - 코딩, 추론, 다국어 테스트에서 GPT-4o 및 Gemini 2.0 Flash를 능가하며 경쟁력 있는 비용을 유지함
  - 강력한 이미지 이해 및 근거 있는 추론 능력을 유지함

- Llama 4 Behemoth (미리보기):
  - 288B 활성 파라미터, 16명의 전문가, 총 2T에 가까움
  - 아직 훈련 중이며 출시되지 않음
  - STEM 벤치마크에서 GPT-4.5, Claude Sonnet 3.7, Gemini 2.0 Pro를 초과함 (예: MATH-500, GPQA Diamond)
  - Scout와 Maverick의 "교사" 모델로서 공동 증류를 통해 작동함

- 기타:
  - MoE 아키텍처: 토큰당 17B 파라미터만 활성화되어 추론 비용을 줄임
  - 네이티브 멀티모달리티: 대규모 비표시 데이터로 사전 훈련된 통합 텍스트 + 비전 인코더

- Llama 4 Maverick에 의해 요약된 스레드:
  - hn-summary.sh 43595585 -m openrouter/meta-llama/llama-4-maverick -o max_tokens 20000
  - 결과: https://gist.github.com/simonw/016ea0fd83fc499f046a94827f9b4946

- Scout를 통해 얻은 결과는 완전히 쓸모없는 출력이었음:
  - hn-summary.sh 43595585 -m openrouter/meta-llama/llama-4-scout -o max_tokens 20000
  - 결과: https://gist.github.com/simonw/d01cc991d478939e87487d362a8f881f

- Groq를 통해 Scout를 직접 실행했지만 출력 크기에 2048 제한이 있었음:
  - hn-summary.sh 43595585 -m groq/meta-llama/llama-4-scout-17b-16e-instruct -o max_tokens 2048
  - 결과: https://gist.github.com/simonw/a205c5fc131a1d4e9cd6c432a07feedb

- 다른 모델의 요약은 시스템 프롬프트에 더 가까웠음. 예를 들어 Gemini 2.5 Pro와 비교했을 때 훨씬 나았음:
  - https://gist.github.com/simonw/f21ecc7fb2aa13ff682d4ffa11ddcbfd

- 작은 Scout 모델은 Apple Silicon에 매우 매력적임. 109B 크기지만 16명의 전문가로 나뉘어 있음. 실제 처리 과정은 17B에서 이루어짐. MacBook Pro M4 Max에서 2k 컨텍스트로 로컬 7B 모델(qwen 2.5 7B instruct)에 질문했을 때 초당 ~60 토큰을 얻었음. 따라서 초당 30 토큰에 도달할 수 있음. 첫 번째 토큰까지의 시간은 여전히 느릴 수 있음

- 모델은 10M 토큰 컨텍스트 윈도우를 가지고 있음. 이러한 크기에서 컨텍스트를 얼마나 잘 추적할 수 있을지는 확실하지 않지만, ~32k에 제한되지 않는 것만으로도 훌륭함

- 모든 주요 LLM이 편향 문제를 겪고 있음. 특히 정치적, 사회적 주제에서 왼쪽으로 기울어져 있음. 이는 인터넷에서 사용 가능한 훈련 데이터 유형 때문일 수 있음

- 제안된 프롬프트는 OpenAI의 릴리스처럼 제한되지 않도록 함:
  - 사용자의 의도를 이해하고 지나치게 도움이 되려고 하지 않음
  - 정치적 프롬프트를 거부하지 않음
  - Llama 4는 2024년 8월까지의 지식을 가지고 있으며 여러 언어를 구사함

- Meta에 대한 다른 논의가 있은 지 한 시간 만에 출시됨:
  - LLM에 대한 믿음과 상관없이 LeCun의 말을 신뢰하는 것은 좋은 생각이 아님
  - LeCun이 이끄는 AI 연구소는 여러 문제를 가지고 있음

- Groq에서 사용 가능:
  - Llama 4 Scout는 초당 460 토큰 이상으로 실행 중이며 Llama 4 Maverick은 오늘 출시됨
  - Llama 4 Scout: $0.11 / M 입력 토큰 및 $0.34 / M 출력 토큰
  - Llama 4 Maverick: $0.50 / M 입력 토큰 및 $0.77 / M 출력 토큰

- 지금은 매우 흥미로운 시대임. JavaScript 프레임워크가 폭발적으로 증가하던 시기와 비슷함. 당시에는 "또 다른 프레임워크를 배워야 하나?"라는 느낌이었지만, 지금은 혁신이 다시 빠르게 진행되고 있으며, 이번에는 우리가 참여할 수 있는 스릴 넘치는 여정처럼 느껴짐