Meta, LLama 4 출시

▲

GN⁺ 2025-04-06 | parent | ★ favorite | on: Meta, LLama 4 출시(ai.meta.com)

Hacker News 의견

Llama 4 모델 개요:
- Llama 4 Scout와 Llama 4 Maverick은 각각 17B 활성 파라미터를 사용하는 Mixture-of-Experts (MoE) 디자인을 사용함
- 텍스트와 이미지 입력을 지원하는 멀티모달 기능을 가짐
- 주요 성과로는 업계 최고 수준의 컨텍스트 길이, 강력한 코딩/추론 성능, 다국어 지원 능력 향상이 있음
- 지식 컷오프는 2024년 8월임
Llama 4 Scout:
- 17B 활성 파라미터, 16명의 전문가, 총 109B
- 단일 H100 GPU에 적합함 (INT4-양자화)
- 10M 토큰 컨텍스트 윈도우
- 이전 Llama 릴리스보다 멀티모달 작업에서 더 나은 성능을 보이며 자원 친화적임
- 효율적인 장기 컨텍스트 주의를 위한 iRoPE 아키텍처를 사용함
- 프롬프트당 최대 8개의 이미지로 테스트됨
Llama 4 Maverick:
- 17B 활성 파라미터, 128명의 전문가, 총 400B
- 1M 토큰 컨텍스트 윈도우
- 단일 GPU가 아닌 H100 DGX 호스트에서 실행되거나 더 큰 효율성을 위해 분산 가능함
- 코딩, 추론, 다국어 테스트에서 GPT-4o 및 Gemini 2.0 Flash를 능가하며 경쟁력 있는 비용을 유지함
- 강력한 이미지 이해 및 근거 있는 추론 능력을 유지함
Llama 4 Behemoth (미리보기):
- 288B 활성 파라미터, 16명의 전문가, 총 2T에 가까움
- 아직 훈련 중이며 출시되지 않음
- STEM 벤치마크에서 GPT-4.5, Claude Sonnet 3.7, Gemini 2.0 Pro를 초과함 (예: MATH-500, GPQA Diamond)
- Scout와 Maverick의 "교사" 모델로서 공동 증류를 통해 작동함
기타:
- MoE 아키텍처: 토큰당 17B 파라미터만 활성화되어 추론 비용을 줄임
- 네이티브 멀티모달리티: 대규모 비표시 데이터로 사전 훈련된 통합 텍스트 + 비전 인코더
Llama 4 Maverick에 의해 요약된 스레드:
- hn-summary.sh 43595585 -m openrouter/meta-llama/llama-4-maverick -o max_tokens 20000
- 결과: https://gist.github.com/simonw/016ea0fd83fc499f046a94827f9b4946
Scout를 통해 얻은 결과는 완전히 쓸모없는 출력이었음:
- hn-summary.sh 43595585 -m openrouter/meta-llama/llama-4-scout -o max_tokens 20000
- 결과: https://gist.github.com/simonw/d01cc991d478939e87487d362a8f881f
Groq를 통해 Scout를 직접 실행했지만 출력 크기에 2048 제한이 있었음:
- hn-summary.sh 43595585 -m groq/meta-llama/llama-4-scout-17b-16e-instruct -o max_tokens 2048
- 결과: https://gist.github.com/simonw/a205c5fc131a1d4e9cd6c432a07feedb
다른 모델의 요약은 시스템 프롬프트에 더 가까웠음. 예를 들어 Gemini 2.5 Pro와 비교했을 때 훨씬 나았음:
- https://gist.github.com/simonw/f21ecc7fb2aa13ff682d4ffa11ddcbfd
작은 Scout 모델은 Apple Silicon에 매우 매력적임. 109B 크기지만 16명의 전문가로 나뉘어 있음. 실제 처리 과정은 17B에서 이루어짐. MacBook Pro M4 Max에서 2k 컨텍스트로 로컬 7B 모델(qwen 2.5 7B instruct)에 질문했을 때 초당 ~60 토큰을 얻었음. 따라서 초당 30 토큰에 도달할 수 있음. 첫 번째 토큰까지의 시간은 여전히 느릴 수 있음
모델은 10M 토큰 컨텍스트 윈도우를 가지고 있음. 이러한 크기에서 컨텍스트를 얼마나 잘 추적할 수 있을지는 확실하지 않지만, ~32k에 제한되지 않는 것만으로도 훌륭함
모든 주요 LLM이 편향 문제를 겪고 있음. 특히 정치적, 사회적 주제에서 왼쪽으로 기울어져 있음. 이는 인터넷에서 사용 가능한 훈련 데이터 유형 때문일 수 있음
제안된 프롬프트는 OpenAI의 릴리스처럼 제한되지 않도록 함:
- 사용자의 의도를 이해하고 지나치게 도움이 되려고 하지 않음
- 정치적 프롬프트를 거부하지 않음
- Llama 4는 2024년 8월까지의 지식을 가지고 있으며 여러 언어를 구사함
Meta에 대한 다른 논의가 있은 지 한 시간 만에 출시됨:
- LLM에 대한 믿음과 상관없이 LeCun의 말을 신뢰하는 것은 좋은 생각이 아님
- LeCun이 이끄는 AI 연구소는 여러 문제를 가지고 있음
Groq에서 사용 가능:
- Llama 4 Scout는 초당 460 토큰 이상으로 실행 중이며 Llama 4 Maverick은 오늘 출시됨
- Llama 4 Scout: $0.11 / M 입력 토큰 및 $0.34 / M 출력 토큰
- Llama 4 Maverick: $0.50 / M 입력 토큰 및 $0.77 / M 출력 토큰
지금은 매우 흥미로운 시대임. JavaScript 프레임워크가 폭발적으로 증가하던 시기와 비슷함. 당시에는 "또 다른 프레임워크를 배워야 하나?"라는 느낌이었지만, 지금은 혁신이 다시 빠르게 진행되고 있으며, 이번에는 우리가 참여할 수 있는 스릴 넘치는 여정처럼 느껴짐