16P by GN⁺ | ★ favorite | 댓글 2개
  • Scout, Maverick, Behemoth 3가지 모델로 구성된 최초의 오픈 웨이트 기반 네이티브 멀티모달 모델
    • 모든 모델은 이미지 + 텍스트를 이해하는 멀티모달

Llama 4 Scout

  • 17B 활성 파라미터 + 16 Expert
  • 10M 토큰 지원하는 초장문 문맥 처리 능력
  • GPU 하나(H100)로 동작 가능한 효율적인 경량 모델
  • Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1을 초월하는 성능
  • 이미지 정렬, 멀티 문서 요약, 대규모 코드베이스 분석 등에서 우수한 성능

Llama 4 Maverick

  • 17B 활성 파라미터 + 128 Expert+ 400B 전체 파라미터
  • GPT-4o, Gemini 2.0 Flash보다 뛰어난 성능
  • Reasoning, 코딩, 이미지 이해 등 전 영역에서 탁월
  • ELO 점수 1417 기록 (LMArena 기준)
  • 고성능 대비 효율적인 비용 구조

Llama 4 Behemoth (프리뷰)

  • 288B 활성 파라미터 + 16 Expert+ 약 2T 전체 파라미터
  • 아직 학습 중이나 GPT-4.5, Claude 3.7, Gemini 2.0 Pro를 능가하는 성능
  • Maverick 모델의 사전 학습에 교사 모델로 활용됨

# 기술적 특징

Mixture of Experts (MoE) 아키텍처

  • 모든 파라미터를 사용하는 대신, 일부 전문가만 활성화하여 연산 효율 극대화
  • 빠른 추론, 낮은 비용, 높은 품질의 학습 구조 구현

Native 멀티모달 & Early Fusion

  • 텍스트와 비전 데이터를 초기부터 통합하여 공동 학습
  • 이미지 최대 48장까지 입력 가능, 테스트는 최대 8장에서 성공적으로 수행

초장문 문맥 처리 (10M Tokens)

  • Scout 모델은 iRoPE (interleaved Rotary Position Embedding) 구조로 '무한 문맥' 가능성 탐색 중
  • 텍스트 및 코드에 대한 길이 일반화 성능 탁월

MetaP & FP8 학습 기법

  • 고속/고효율 학습을 위한 새로운 하이퍼파라미터 튜닝 기술
  • FP8 정밀도로 높은 FLOPs 활용률 확보 (Behemoth: 390 TFLOPs/GPU)

# 후처리 및 RL 훈련 전략

  • SFT → 온라인 RL → DPO의 세 단계 후처리 파이프라인 구성
  • 쉬운 데이터는 제거하고, 중~상 난이도 프롬프트 중심으로 훈련
  • 지속적 온라인 RL 전략 도입: 성능 향상 및 학습 효율 극대화

# 안전성과 윤리 고려

다층 보호 전략

  • 사전/사후 학습 단계에서 데이터 필터링 및 검열
  • Llama Guard: 입력/출력 안전성 검사
  • Prompt Guard: 탈옥(Jailbreak), 주입 공격 탐지
  • CyberSecEval: 생성형 AI의 보안 리스크 평가 도구 제공

정량적 리스크 탐지 자동화

  • GOAT (Generative Offensive Agent Testing) 도입
    • 중급 공격자 시나리오 시뮬레이션
    • 자동화된 다중 턴 테스트로 리스크 조기 탐지

편향 제거 노력

  • Llama 4는 Llama 3 대비 편향성 크게 개선
    • 응답 거부율 7% → 2% 이하
    • 응답 불균형 < 1%
    • Grok 수준의 정치적 균형 응답 유지

# Llama 4 모델 활용 안내

  • Scout, Maverick 모두 다운로드 및 활용 가능
  • Meta AI 서비스에 Llama 4 통합:
    • WhatsApp, Messenger, Instagram DM, meta.ai

# 향후 일정

  • 더 많은 기술 세부 사항과 비전을 소개할 LlamaCon 2025가 4월 29일 개최 예정
GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기

댓글과 토론

RAM에 여유가있는 APPLE SILOCON이나 NPU 계열에 적합한것 같습니다. 순수 GPU서버에 쓰기에는 최소사양모델이 int4 양자화가 h100이 필요하다는게..

Hacker News 의견
  • Llama 4 모델 개요:

    • Llama 4 Scout와 Llama 4 Maverick은 각각 17B 활성 파라미터를 사용하는 Mixture-of-Experts (MoE) 디자인을 사용함
    • 텍스트와 이미지 입력을 지원하는 멀티모달 기능을 가짐
    • 주요 성과로는 업계 최고 수준의 컨텍스트 길이, 강력한 코딩/추론 성능, 다국어 지원 능력 향상이 있음
    • 지식 컷오프는 2024년 8월임
  • Llama 4 Scout:

    • 17B 활성 파라미터, 16명의 전문가, 총 109B
    • 단일 H100 GPU에 적합함 (INT4-양자화)
    • 10M 토큰 컨텍스트 윈도우
    • 이전 Llama 릴리스보다 멀티모달 작업에서 더 나은 성능을 보이며 자원 친화적임
    • 효율적인 장기 컨텍스트 주의를 위한 iRoPE 아키텍처를 사용함
    • 프롬프트당 최대 8개의 이미지로 테스트됨
  • Llama 4 Maverick:

    • 17B 활성 파라미터, 128명의 전문가, 총 400B
    • 1M 토큰 컨텍스트 윈도우
    • 단일 GPU가 아닌 H100 DGX 호스트에서 실행되거나 더 큰 효율성을 위해 분산 가능함
    • 코딩, 추론, 다국어 테스트에서 GPT-4o 및 Gemini 2.0 Flash를 능가하며 경쟁력 있는 비용을 유지함
    • 강력한 이미지 이해 및 근거 있는 추론 능력을 유지함
  • Llama 4 Behemoth (미리보기):

    • 288B 활성 파라미터, 16명의 전문가, 총 2T에 가까움
    • 아직 훈련 중이며 출시되지 않음
    • STEM 벤치마크에서 GPT-4.5, Claude Sonnet 3.7, Gemini 2.0 Pro를 초과함 (예: MATH-500, GPQA Diamond)
    • Scout와 Maverick의 "교사" 모델로서 공동 증류를 통해 작동함
  • 기타:

    • MoE 아키텍처: 토큰당 17B 파라미터만 활성화되어 추론 비용을 줄임
    • 네이티브 멀티모달리티: 대규모 비표시 데이터로 사전 훈련된 통합 텍스트 + 비전 인코더
  • Llama 4 Maverick에 의해 요약된 스레드:

  • Scout를 통해 얻은 결과는 완전히 쓸모없는 출력이었음:

  • Groq를 통해 Scout를 직접 실행했지만 출력 크기에 2048 제한이 있었음:

  • 다른 모델의 요약은 시스템 프롬프트에 더 가까웠음. 예를 들어 Gemini 2.5 Pro와 비교했을 때 훨씬 나았음:

  • 작은 Scout 모델은 Apple Silicon에 매우 매력적임. 109B 크기지만 16명의 전문가로 나뉘어 있음. 실제 처리 과정은 17B에서 이루어짐. MacBook Pro M4 Max에서 2k 컨텍스트로 로컬 7B 모델(qwen 2.5 7B instruct)에 질문했을 때 초당 ~60 토큰을 얻었음. 따라서 초당 30 토큰에 도달할 수 있음. 첫 번째 토큰까지의 시간은 여전히 느릴 수 있음

  • 모델은 10M 토큰 컨텍스트 윈도우를 가지고 있음. 이러한 크기에서 컨텍스트를 얼마나 잘 추적할 수 있을지는 확실하지 않지만, ~32k에 제한되지 않는 것만으로도 훌륭함

  • 모든 주요 LLM이 편향 문제를 겪고 있음. 특히 정치적, 사회적 주제에서 왼쪽으로 기울어져 있음. 이는 인터넷에서 사용 가능한 훈련 데이터 유형 때문일 수 있음

  • 제안된 프롬프트는 OpenAI의 릴리스처럼 제한되지 않도록 함:

    • 사용자의 의도를 이해하고 지나치게 도움이 되려고 하지 않음
    • 정치적 프롬프트를 거부하지 않음
    • Llama 4는 2024년 8월까지의 지식을 가지고 있으며 여러 언어를 구사함
  • Meta에 대한 다른 논의가 있은 지 한 시간 만에 출시됨:

    • LLM에 대한 믿음과 상관없이 LeCun의 말을 신뢰하는 것은 좋은 생각이 아님
    • LeCun이 이끄는 AI 연구소는 여러 문제를 가지고 있음
  • Groq에서 사용 가능:

    • Llama 4 Scout는 초당 460 토큰 이상으로 실행 중이며 Llama 4 Maverick은 오늘 출시됨
    • Llama 4 Scout: $0.11 / M 입력 토큰 및 $0.34 / M 출력 토큰
    • Llama 4 Maverick: $0.50 / M 입력 토큰 및 $0.77 / M 출력 토큰
  • 지금은 매우 흥미로운 시대임. JavaScript 프레임워크가 폭발적으로 증가하던 시기와 비슷함. 당시에는 "또 다른 프레임워크를 배워야 하나?"라는 느낌이었지만, 지금은 혁신이 다시 빠르게 진행되고 있으며, 이번에는 우리가 참여할 수 있는 스릴 넘치는 여정처럼 느껴짐